2025年2月2日 星期日

DeepSeek - 1. Multi-Token Prediction (MTP) = 一次準備多道菜

大家讀書工作太忙,爹地偶而補充一下世界大小事~

近期短短一個月內,中國AI新創公司深度求索(Deepseek)先後發布了DeepSeek-V3和DeepSeek-R1兩款大模型,而在美國晶片法案的限制下,Deepseek居然以約OpenAI幾十分之一的訓練成本,打造出性能相當ChatGPT的先進AI模型,讓整個科技業大為震驚。甚至1 月底,DeepSeek登上美國地區Apple App Store免費下載第一名,超越了ChatGPT。

雖然很多細節我還不清楚,但試用之後,感覺還行,所以我忍不住好奇,DeepSeek到底用了甚麼神奇的方法,突破了發展AI指標的晶片算力這個核心限制。

以下是網上查到的Deepseek技術:

原來DeepSeek是在訓練方法上有所突破(Pre-training & Post-training),而非晶片算力。

1. Multi-Token Prediction (MTP)

2. FP8 Training

3. Mixture of Experts (MoE)

4. Reinforcement Learning (RL)

5. Distillation

6. Multi-head Latent Attention (MLA)

看到這裡,正常人應該已經放棄,因為每個字拆開多半認識,但湊起來看不懂,縮寫簡稱搞得很專業,又讓大家感覺距離更遙遠...

其實,我們可以試著用生活的簡單比喻來說明,理解個六七成也行,讓大家知道,很多複雜的事情都可以換個方法去理解。

首先,OpenAI想要訓練一位世界超級大廚ChatGPT,精通人類史上所有的料理,訓練的方法就是先找出全世界各地各式各樣的食譜,然後讓他全部都學起來,從米其林三星套餐到台灣街邊小吃,從愛斯基摩人祖傳料理到非洲原始部落風味餐,可以想像ChatGPT大廚需要大量的時間加上無數的食譜才能被養成、鍛鍊出來。

而DeepSeek就像是個橫空殺出的小廚神,號稱去了幾年神秘、無人聽過的少林廚藝學院,居然燒菜燒得有模有樣、買菜錢還比較省、有時上菜更快,某些美食大賽還贏了大廚ChatGPT,這到底是甚麼黑魔法!?

有趣的是,這個來自中國的小廚神DeepSeek直接公開他的黑魔法讓大家參考。

1. Multi-Token Prediction (MTP)


ChatGPT大廚很嚴謹,他一道菜(a Token)做完,然後開始做下一道菜(a Token),然後再做下一道,這邏輯沒問題。但DeepSeek小廚神說,我的做法是,先喵一下今天大致上要做甚麼料理,甚至還猜一下(Prediction),有時候就會幾道菜一起準備(Multi-Token)。

比如,今天是義大利料理,第一道菜是Caprese Salad,ChatGPT大廚先從冰箱拿出新鮮番茄、Mozzarella cheese、羅勒葉、橄欖油、葡萄酒醋、鹽巴,然後開始清洗番茄和羅勒葉,然後番茄、起司切片、加上羅勒葉堆疊擺盤、用橄欖油和鹽巴調味、最後滴點葡萄酒醋上菜,然後收拾橄欖油、葡萄酒醋等調味品歸位。完成後,大廚再開始準備第二道菜。

而DeepSeek小廚神一看到菜單是義大利料理,第一道菜是Caprese Salad,他就會推測,接下來的菜應該還有麵包佐油醋、番茄義大利麵、pizza等等,應該會用到很多番茄、橄欖油、鹽巴、葡萄酒醋,所以從冰箱順手多拿一些番茄一併洗了,橄欖油、鹽巴、葡萄酒醋也放在旁邊,先不收了。

就是這樣小小的差別,可以讓整體上菜的速度快一點點。這就是Multi-Token Prediction (MTP)大致上的方法。



沒有留言:

張貼留言

Alexandr Wang:從找出優格小偷到創辦 AI 獨角獸的億萬富翁

如果你對 AI 所需的龐大數據感到好奇,那麼你應該認識 Alexandr Wang——這位年僅 27 歲的 AI 獨角獸創業家。他是 Scale AI 的創辦人兼 CEO,也是美國最年輕的白手起家億萬富翁。但他的創業靈感,竟然源自於一罐失蹤的優格。 物理學家之家長大的數學天才 A...