2025年2月19日 星期三

Alexandr Wang:從找出優格小偷到創辦 AI 獨角獸的億萬富翁

如果你對 AI 所需的龐大數據感到好奇,那麼你應該認識 Alexandr Wang——這位年僅 27 歲的 AI 獨角獸創業家。他是 Scale AI 的創辦人兼 CEO,也是美國最年輕的白手起家億萬富翁。但他的創業靈感,竟然源自於一罐失蹤的優格。

物理學家之家長大的數學天才

Alexandr Wang 出生於 1997 年,成長於美國 新墨西哥州,父母都是 Los Alamos National Laboratory(洛斯阿拉莫斯國家實驗室)的物理學家。這個實驗室正是全球第一顆原子彈的誕生地,也是電影《奧本海默》中的關鍵場景。

在這樣的環境中長大,Alexandr 自小展現出極高的數理天賦。他在 Los Alamos High School 就讀時,15 歲便在 USA Mathematical Talent Search 拿下全美第五名,同時進入 USA Computing Olympiad(全美資訊奧林匹亞)決賽,2014 年更入選 USA Physics Team,成為全美前 20 名的物理學生。

除了超群的學術表現,他還精通 中、英、法 三種語言,展現出不凡的學習能力。


19 歲休學,20 歲創立 Scale AI

Alexandr 進入 麻省理工學院(MIT) 主修 數學與電腦科學,但 19 歲時選擇休學,前往 Quora 擔任程式設計師。在這裡,他遇見了未來的創業夥伴 Lucy Guo——Snapchat 第一位女性設計師。兩人於 2016 年 聯手創立了 Scale AI,進軍 AI 資料標記市場。


創業靈感:優格小偷與資料標記的商機

這一切的起點,竟然是來自於一罐優格。

2016 年,Alexandr 在 MIT 的宿舍裡發現自己的優格經常不翼而飛。為了揪出小偷,他決定開發一款 智慧冰箱攝影機,透過 Google TensorFlow(開源機器學習平台)訓練 AI 辨識食物。然而,他很快發現了一個關鍵問題:

AI 的學習能力雖然強大,但如果沒有大量已標記的數據,就無法準確辨識物品。

為了訓練 AI,他只能手動標記數萬張食物照片,例如框出「優格」、「蘋果」並新增標籤。這個過程既枯燥又耗時,卻讓他意識到了一個更大的商機:

AI 模型不僅需要強大的程式碼,還需要龐大且高品質的標記數據。


從「標記食物」到「標記世界」

在抓到「優格賊」後,Alexandr 和 Lucy 深入研究市場需求,發現許多大型科技公司(如 Quora、Snapchat)每天都需要審核與標記大量圖片與貼文,這項工作繁瑣且多依賴人工外包。

他們意識到,「資料標記」雖然單調,卻是 AI 產業不可或缺的一環。而這個過程可以透過自動化、模組化,甚至成為一項商品化服務。於是,兩人創立了 Scale AI,致力於幫助企業高效標記數據。只需一行程式碼,Scale AI 便能協助企業完成 AI 訓練所需的標記工作。


有時日常生活不是那麼日常

Alexandr Wang 的故事告訴我們,即使是日常生活的痛點或困擾的事情,即使再小,只要找到對的市場,就可能創造出驚人的價值。

而這一切,都始於一罐優格。
我當初住宿舍怎麼沒想到呢!?


2025年2月16日 星期日

Attack on Titan 進擊的巨人 - 誰來接手超大型巨人!?

由於我和兒子長期的大力推薦進擊的巨人,加上電影版完結篇的上映,讓老婆因畫風不討喜而歷經兩次獨自追劇失敗後,我決定二刷陪老婆,重啟她的第三次嘗試。終於在20集之後,進入狀況,海闊天空,欲罷不能...
當然,二刷有個好處就是,更能體會每個角色在每個選擇上的難處。誰來接手超大型巨人這個決定,很經典。


里維的選擇:如果艾爾文活下來,劇情會怎麼走?

《進擊的巨人》裡,里維當時面臨一個超艱難的選擇——讓艾爾文活下來,還是救阿爾敏?最終,他選了阿爾敏,讓艾爾文解脫。但如果當時選的是艾爾文,整個故事會怎麼變?


艾爾文變成超大型巨人,可能帶來哪些戰略變化?

  • 戰略思維更具侵略性:艾爾文擅長策劃大膽戰術,相較於阿爾敏的謀略型思維,他更可能主動發動攻勢,迅速改變戰局。

  • 調查兵團決策風格更果斷:艾爾文的領導方式強硬,可能不會容忍內部猶豫。他可能更早察覺艾倫的異變,並以更直接的方式控制局勢。

  • 對於超大型巨人之力的應用:艾爾文作為指揮官,會將巨人之力視為戰爭資本,可能會主導更積極的戰術運用。

阿爾敏的缺席,將如何影響局勢?

  • 艾倫可能更快走向極端:阿爾敏一直是艾倫的制衡力量,缺少他的影響,艾倫的行動可能更加偏激,加速地鳴計畫的實施。

  • 帕拉迪島的外交策略將受影響:阿爾敏具備卓越的外交才能,他的死亡可能會讓帕拉迪島失去與外界建立和平的可能,導致更直接的衝突。

  • 米卡莎的選擇可能改變:阿爾敏對米卡莎的影響深遠,若沒有他的理性勸說,米卡莎可能更難做出關鍵決定。

里維的內心掙扎與領導挑戰

如果里維選擇艾爾文,阿爾敏的死亡必然會讓艾倫和米卡莎心生芥蒂,甚至影響彼此之間的信任。艾倫可能更加憤怒,甚至對調查兵團的決策產生動搖,而米卡莎則可能對里維的選擇無法釋懷,進而影響團隊的默契與合作。

此外,艾爾文的強勢領導雖能讓戰局更明確,但也可能讓調查兵團內部產生更多矛盾,特別是在應對艾倫的問題時,里維可能會夾在艾倫與艾爾文之間,面對更複雜的抉擇。

全球局勢的變化

  • 戰爭可能提前爆發:艾爾文掌權後,可能不會選擇阿爾敏的溫和策略,而是更積極地與馬雷開戰,導致戰爭提前進入高峰。

  • 艾倫的計畫會受到阻止,還是獲得支持?

    • 艾爾文可能更早察覺艾倫的真正意圖。

    • 但如果他認為「地鳴」是生存的關鍵,他可能選擇與艾倫合作,而非試圖阻止。

結論:帕拉迪島的未來會更光明,還是更殘酷?

如果艾爾文活下來,帕拉迪島的戰略可能更為強勢,戰爭可能提前爆發,但這是否能帶來真正的勝利?是更快結束衝突,還是加速滅亡?而里維的選擇,是否會讓團隊之間的信任產生裂痕?這或許是他在戰場之外,最難以承受的重擔。



2025年2月3日 星期一

(End) DeepSeek 技術的生活應用

我們已經簡單地了解DeepSeek提升效率的關鍵技術,現在我們再把這些觀念,換個角度導入日常生活,看是不是跟日常提升效率的方法很類似。
有了這樣的觀念,以後遇到任何問題、困難,或是瓶頸,你就可以試著以不同角度去思考,比如生活上的角度,找出關鍵痛點在哪裡,然後選擇適當的工具,想出解決或替代方案。

1. Multi-Token Prediction (MTP)

運動習慣好難建立?

原子習慣(Atomic Habits)這本長銷書有提到,建立早上運動習慣有個簡單的方法就是,把運動裝放在床邊,一起床就直接自動換上運動服,這不就是把起床和換運動服這兩個動作(Token)連結再一起嗎!?

愛追劇又常常忘記運動的人,就可以把這兩個動作綁在一起,把iPad和球鞋放在一起,提醒自己追劇的時候,一邊原地超慢跑。

2. FP8 Training

鞋櫃、衣櫃總是不夠放,但也常常不知穿甚麼?

鞋櫃、衣櫃通常有過多的選擇,有的太常穿、有的不好搭、有的忘記穿、有的不知為何買,如何以限制數量的鞋款、衣款去優化你的使用,維持淘汰一件才加購一件,甚至是拍照記錄起來搭配,就是一種效率優化、資源節省。

出國行李箱總是空間不夠?

就像爹地每次出國,把蓬鬆、可摺疊的衣物放入可以抽出空氣的密封收納袋,這樣就可以節省很多行李箱空間,多放一些佔空間的泡麵。

3. Mixture of Experts (MoE)

打辯論賽、踢足球怎麼組隊?

找到各有擅長位置、攻防的隊友,高效分工合作,這樣實力才會最強。

足球全隊都是前鋒striker行嗎!?



出國旅遊怎麼規劃?

媽咪找飯店、餐廳、購物商店與觀光景點,爹地、姊姊規劃行程表、地圖帶路,弟弟目前還是放空中...

4. Reinforcement Learning (RL)

學業、才藝或技能如何強化學習、進步快速?

不管是跳舞或踢球,在練習或比賽結束之後,馬上請教教練、老師,給予即時回饋,甚至自己回看錄影畫面,檢討自己可以精進的地方,這就是一種強化學習。

5. Distillation

準備考試的時候,除了熟悉課本內容之外,參考優秀同學、以前學長姊的筆記,收集歷屆的考古試題來練習,這都算是借鏡篩選過的數據來訓練自己。Distillation = 蒸餾 !?

6. Multi-head Latent Attention (MLA)

如何有效率地準備考試,又得高分?
課後自己
整理出重點筆記,並且把考卷做錯題目的解題過程筆記下來,隨時翻閱,而不是每次複習都要把所有上課的錄音檔或影片檔全部重看一次,或者課本從第一頁讀到最後一頁。


總之,人遇到問題,如果不花點時間去思考改善的方法,那不動腦的唯一解法就只是花更多的時間,別人下班我加班,別人睡多我睡少,別人休息我不休,然而每個人擁有的時間都是固定的,即使短期可以犧牲、求快,但身心健康也才能走的長久,如此只有花更多時間,而不思索提升效率,最後的痛點就是人生時間永遠不夠。





DeepSeek 發想- How do you eat an elephant?

以上六篇就是簡單說明近期造成轟動的DeepSeek所使用的技術方法,非常粗淺的比喻說明,畢竟我們沒有人是AI專家,甚至連家裡wifi不通、網路設定、印表機卡紙都不太會處理,要是直接看論文或專業網站說明,我們可能連一句話、一張圖都看不懂。

那為何我們要試著粗淺地去了解這麼複雜的事!?

首先,以1~10分來分級了解的程度,AI專家了解DeepSeek 10分,電腦工程師可能了解 8分,其他理工專長的人了解 5分,一般人大約就是1~2分,我們只要理解3分,可能就遠勝一大堆人,世上所有知識、技能,甚至財富的分佈不都是接近金字塔分佈嗎!? 金字塔分佈裡,只要多一點點,都可以為你創造極大的領先機會。

其次,爹地也想告訴你這些複雜事,並不妨礙我們學習與成長,即使只是一點點,就像我們從小常講的觀念:

“How do you eat an elephant? One bite at a time!”

「你如何吃下一頭大象,就是一次一小口!」

只要我們每天進步一點點,一年365天就進步365個一點點,如果每天進步1%,一年就會成長為快38倍的你自己!? lol  (1+1%)^365=37.78...。




參考一下DeepSeek - R1的公開論文。我完全看不懂。


參考一下知乎網友對於MLA的專業說明。這我也完全看不懂。



DeepSeek - 6. Multi-head Latent Attention (MLA) - 省空間、省時間

6. Multi-head Latent Attention (MLA) 

找不到順眼的中文翻譯,多頭潛在注意力機制!? 好怪...

一般來說,隨著菜單與菜色的增加,餐廳就需要存儲大量的「食譜筆記」與「料理食材」(KV Cache),導致冰箱和倉庫塞滿,空間不夠用,導致上菜效率變慢,也浪費廚師無謂的體力。

DeepSeek小廚神的MLA技術,就像是用更聰明的方法做筆記與備料,就像我們學校上課可以全程錄音、一字不漏,然後把硬碟塞滿,也可以整理出重點筆記、隨時翻閱,你覺得哪一個方法佔的空間小、複習起來快!?
簡單說,透過只儲存最重要的、透過分類只專注幾個關鍵點...等等方法,不但可以減少存放空間,還可以讓廚師快速找到關鍵食譜與食材,提高效率。



2025年2月2日 星期日

DeepSeek - 5. Distillation = 參考大廚食譜,打造自己新菜

5. Distillation

這部分就是DeepSeek目前最大的爭議之一。

有些人懷疑DeepSeek是否參考了OpenAI的數據來訓練自己的模型,這就像一個年輕廚師偷偷研究米其林餐廳的食譜,並品嘗競爭對手的料理,然後自己做出類似的菜色。

其實這在一般社會裡,可能根本不是個事,比如,我把台北市牛肉麵名店都吃過一輪,林東芳、永康街、老山東、八方雲集、清真黃牛肉麵...,然後自己回家鑽研出一碗好吃的"爹地牛肉麵"。

如同OpenAI也是拿全世界的食譜來訓練ChatGPT大廚一樣,至於食譜有沒有版權,OpenAI自己也沒說明過

後續發展雖不清楚,但重要的是,DeepSeek開放了模型數據,任何人都可以透過DeepSeek的訓練數據,打造自己的AI大廚,這將極大地提升小型AI模型的推理能力,讓更多餐廳能培養自己的明星廚師。




DeepSeek - 4. Reinforcement Learning (RL) = 根據顧客反饋,持續提升廚藝

4. Reinforcement Learning (RL)

Reinforcement Learning字面上是強化學習的意思。

一間好的餐廳不只會照菜譜做菜,還會根據顧客的反饋來調整口味,讓菜色更符合消費者的喜好。
比如說,美國人未必接受道地的中國菜,但Panda Express改良後的中國菜卻可以讓他成為美國最大的連鎖中餐廳,他的名菜橙汁雞(Orange Chicken)對台灣人而言,可能覺得不倫不類!? 而台灣美味的酥炸臭豆腐,美國人也會覺得不算是正常食物。

DeepSeek小廚神的強化學習技術,透過顧客意見、調整菜單與口味,確保提供的餐點(AI輸出內容)不僅口味適合(有用)、符合健康標準(安全),還不會讓人吃壞肚子(避免產生有害信息),甚至在口味類似的範圍內,自己還會創造新的食譜,反覆實驗,相當於讓整個廚房團隊持續精進。



DeepSeek - 3. Mixture of Experts (MoE) = 多個廚師,各司其職

 前情提要:

OpenAI 訓練一位世界超級大廚ChatGPT,精通人類史上所有的料理,訓練的方法就是先找出全世界各地各式各樣的食譜,然後讓他全部都學起來,從米其林三星套餐到台灣街邊小吃,從愛斯基摩人祖傳料理到非洲原始部落風味餐,可以想像ChatGPT大廚需要大量的時間加上無數的食譜才能被養成、鍛鍊出來。

而DeepSeek就像是個橫空殺出的小廚神,號稱去了幾年神秘、無人聽過的少林廚藝學院,居然燒菜燒得有模有樣、買菜錢還比較省、有時上菜更快,某些美食大賽還贏了大廚ChatGPT,這到底是甚麼黑魔法!?

3. Mixture of Experts (MoE)

一家餐廳的內場通常是個團隊,比如台灣名廚江振誠,總不可能每道菜都是他燒的。
大廚ChatGPT的團隊,每位廚師都跟他一樣犀利,十八般廚藝樣樣精通,而且做菜嚴謹講究。
DeepSeek
小廚神就採取一種分工模式的策略,讓團隊裡的每位二廚都專注做自己擅長的料理,而DeepSeek能精準的決定哪道菜應該由哪個廚師來做,讓餐廳保持高效運作。
在受訓(訓練)時,每個廚師只學自己擅長的料理,而不是讓所有人都學全部的料理,減少資源浪費。
在燒菜(推理)時,
DeepSeek只調動必要的廚師做他擅長的事,優化餐廳效率。

這個道理不難理解。



DeepSeek - 2. FP8 Training = 用更少的調味料,做出類似美味的菜

前情提要:
OpenAI 訓練一位世界超級大廚ChatGPT,精通人類史上所有的料理,訓練的方法就是先找出全世界各地各式各樣的食譜,然後讓他全部都學起來,從米其林三星套餐到台灣街邊小吃,從愛斯基摩人祖傳料理到非洲原始部落風味餐,可以想像ChatGPT大廚需要大量的時間加上無數的食譜才能被養成、鍛鍊出來。

而DeepSeek就像是個橫空殺出的小廚神,號稱去了幾年神秘、無人聽過的少林廚藝學院,居然燒菜燒得有模有樣、買菜錢還比較省、有時上菜更快,某些美食大賽還贏了大廚ChatGPT,這到底是甚麼黑魔法!?

2. FP8 Training

這是一個精細度問題,我們試著這樣理解。

大廚ChatGPT非常講究料理味道的精準和細膩度,所以,他準備的調味料細分為非常多種,比如三分熟的炭烤熟成肋眼牛排旁邊,就擺上一排、16種提味的佐料,光鹽就分:法國鹽之花、西班牙燻鹽、喜馬拉雅岩鹽、夏威夷竹葉鹽,芥末籽、辣根醬、黑胡椒粒、哇沙米、薄煎蒜片、酥炸九層塔洋蔥細末、生洋蔥丁佐薄醬油、蘑菇洋蔥醬、奶油炒蒜末、紅酒肉汁醬、百里香拌炒迷迭香、紅人A1牛排醬。

小廚神DeepSeek則是用較少的8種調味料去控制食材味道的精細度,雖然精細度未必如大廚ChatGPT,但對一般人而言,比如我,鹽只要一種,也能達到美味的效果,如果一來,是不是也提升了資源的節省與上菜的速度。

佐料敘述得太詳細,講的有點餓了...

這張圖讓大家知道越精細的資料,需要越大的儲存空間,自然也需要更多時間來運算。






DeepSeek - 1. Multi-Token Prediction (MTP) = 一次準備多道菜

大家讀書工作太忙,爹地偶而補充一下世界大小事~

近期短短一個月內,中國AI新創公司深度求索(Deepseek)先後發布了DeepSeek-V3和DeepSeek-R1兩款大模型,而在美國晶片法案的限制下,Deepseek居然以約OpenAI幾十分之一的訓練成本,打造出性能相當ChatGPT的先進AI模型,讓整個科技業大為震驚。甚至1 月底,DeepSeek登上美國地區Apple App Store免費下載第一名,超越了ChatGPT。

雖然很多細節我還不清楚,但試用之後,感覺還行,所以我忍不住好奇,DeepSeek到底用了甚麼神奇的方法,突破了發展AI指標的晶片算力這個核心限制。

以下是網上查到的Deepseek技術:

原來DeepSeek是在訓練方法上有所突破(Pre-training & Post-training),而非晶片算力。

1. Multi-Token Prediction (MTP)

2. FP8 Training

3. Mixture of Experts (MoE)

4. Reinforcement Learning (RL)

5. Distillation

6. Multi-head Latent Attention (MLA)

看到這裡,正常人應該已經放棄,因為每個字拆開多半認識,但湊起來看不懂,縮寫簡稱搞得很專業,又讓大家感覺距離更遙遠...

其實,我們可以試著用生活的簡單比喻來說明,理解個六七成也行,讓大家知道,很多複雜的事情都可以換個方法去理解。

首先,OpenAI想要訓練一位世界超級大廚ChatGPT,精通人類史上所有的料理,訓練的方法就是先找出全世界各地各式各樣的食譜,然後讓他全部都學起來,從米其林三星套餐到台灣街邊小吃,從愛斯基摩人祖傳料理到非洲原始部落風味餐,可以想像ChatGPT大廚需要大量的時間加上無數的食譜才能被養成、鍛鍊出來。

而DeepSeek就像是個橫空殺出的小廚神,號稱去了幾年神秘、無人聽過的少林廚藝學院,居然燒菜燒得有模有樣、買菜錢還比較省、有時上菜更快,某些美食大賽還贏了大廚ChatGPT,這到底是甚麼黑魔法!?

有趣的是,這個來自中國的小廚神DeepSeek直接公開他的黑魔法讓大家參考。

1. Multi-Token Prediction (MTP)


ChatGPT大廚很嚴謹,他一道菜(a Token)做完,然後開始做下一道菜(a Token),然後再做下一道,這邏輯沒問題。但DeepSeek小廚神說,我的做法是,先喵一下今天大致上要做甚麼料理,甚至還猜一下(Prediction),有時候就會幾道菜一起準備(Multi-Token)。

比如,今天是義大利料理,第一道菜是Caprese Salad,ChatGPT大廚先從冰箱拿出新鮮番茄、Mozzarella cheese、羅勒葉、橄欖油、葡萄酒醋、鹽巴,然後開始清洗番茄和羅勒葉,然後番茄、起司切片、加上羅勒葉堆疊擺盤、用橄欖油和鹽巴調味、最後滴點葡萄酒醋上菜,然後收拾橄欖油、葡萄酒醋等調味品歸位。完成後,大廚再開始準備第二道菜。

而DeepSeek小廚神一看到菜單是義大利料理,第一道菜是Caprese Salad,他就會推測,接下來的菜應該還有麵包佐油醋、番茄義大利麵、pizza等等,應該會用到很多番茄、橄欖油、鹽巴、葡萄酒醋,所以從冰箱順手多拿一些番茄一併洗了,橄欖油、鹽巴、葡萄酒醋也放在旁邊,先不收了。

就是這樣小小的差別,可以讓整體上菜的速度快一點點。這就是Multi-Token Prediction (MTP)大致上的方法。



Alexandr Wang:從找出優格小偷到創辦 AI 獨角獸的億萬富翁

如果你對 AI 所需的龐大數據感到好奇,那麼你應該認識 Alexandr Wang——這位年僅 27 歲的 AI 獨角獸創業家。他是 Scale AI 的創辦人兼 CEO,也是美國最年輕的白手起家億萬富翁。但他的創業靈感,竟然源自於一罐失蹤的優格。 物理學家之家長大的數學天才 A...