爹地日常瞎掰: DeepSeek - 1. Multi-Token Prediction (MTP) = 一次準備多道菜

大家讀書工作太忙，爹地偶而補充一下世界大小事~

近期短短一個月內，中國AI新創公司深度求索(Deepseek)先後發布了DeepSeek-V3和DeepSeek-R1兩款大模型，而在美國晶片法案的限制下，Deepseek居然以約OpenAI幾十分之一的訓練成本，打造出性能相當ChatGPT的先進AI模型，讓整個科技業大為震驚。甚至1 月底，DeepSeek登上美國地區Apple App Store免費下載第一名，超越了ChatGPT。

雖然很多細節我還不清楚，但試用之後，感覺還行，所以我忍不住好奇，DeepSeek到底用了甚麼神奇的方法，突破了發展AI指標的晶片算力這個核心限制。

以下是網上查到的Deepseek技術:

原來DeepSeek是在訓練方法上有所突破（Pre-training & Post-training），而非晶片算力。

1. Multi-Token Prediction (MTP)

2. FP8 Training

3. Mixture of Experts (MoE)

4. Reinforcement Learning (RL)

5. Distillation

6. Multi-head Latent Attention (MLA)

看到這裡，正常人應該已經放棄，因為每個字拆開多半認識，但湊起來看不懂，縮寫簡稱搞得很專業，又讓大家感覺距離更遙遠...

其實，我們可以試著用生活的簡單比喻來說明，理解個六七成也行，讓大家知道，很多複雜的事情都可以換個方法去理解。

首先，OpenAI想要訓練一位世界超級大廚ChatGPT，精通人類史上所有的料理，訓練的方法就是先找出全世界各地各式各樣的食譜，然後讓他全部都學起來，從米其林三星套餐到台灣街邊小吃，從愛斯基摩人祖傳料理到非洲原始部落風味餐，可以想像ChatGPT大廚需要大量的時間加上無數的食譜才能被養成、鍛鍊出來。

而DeepSeek就像是個橫空殺出的小廚神，號稱去了幾年神秘、無人聽過的少林廚藝學院，居然燒菜燒得有模有樣、買菜錢還比較省、有時上菜更快，某些美食大賽還贏了大廚ChatGPT，這到底是甚麼黑魔法!?

有趣的是，這個來自中國的小廚神DeepSeek直接公開他的黑魔法讓大家參考。

1. Multi-Token Prediction (MTP)

ChatGPT大廚很嚴謹，他一道菜(a Token)做完，然後開始做下一道菜(a Token)，然後再做下一道，這邏輯沒問題。但DeepSeek小廚神說，我的做法是，先喵一下今天大致上要做甚麼料理，甚至還猜一下(Prediction)，有時候就會幾道菜一起準備(Multi-Token)。

比如，今天是義大利料理，第一道菜是Caprese Salad，ChatGPT大廚先從冰箱拿出新鮮番茄、Mozzarella cheese、羅勒葉、橄欖油、葡萄酒醋、鹽巴，然後開始清洗番茄和羅勒葉，然後番茄、起司切片、加上羅勒葉堆疊擺盤、用橄欖油和鹽巴調味、最後滴點葡萄酒醋上菜，然後收拾橄欖油、葡萄酒醋等調味品歸位。完成後，大廚再開始準備第二道菜。

而DeepSeek小廚神一看到菜單是義大利料理，第一道菜是Caprese Salad，他就會推測，接下來的菜應該還有麵包佐油醋、番茄義大利麵、pizza等等，應該會用到很多番茄、橄欖油、鹽巴、葡萄酒醋，所以從冰箱順手多拿一些番茄一併洗了，橄欖油、鹽巴、葡萄酒醋也放在旁邊，先不收了。

就是這樣小小的差別，可以讓整體上菜的速度快一點點。這就是Multi-Token Prediction (MTP)大致上的方法。

爹地日常瞎掰

2025年2月2日星期日

DeepSeek - 1. Multi-Token Prediction (MTP) = 一次準備多道菜

沒有留言:

張貼留言

Alexandr Wang：從找出優格小偷到創辦 AI 獨角獸的億萬富翁

檢舉濫用情形

標籤

2025年2月2日 星期日

DeepSeek - 1. Multi-Token Prediction (MTP) = 一次準備多道菜

沒有留言:

張貼留言

Alexandr Wang：從找出優格小偷到創辦 AI 獨角獸的億萬富翁

2025年2月2日星期日