大家讀書工作太忙,爹地偶而補充一下世界大小事~
近期短短一個月內,中國AI新創公司深度求索(Deepseek)先後發布了DeepSeek-V3和DeepSeek-R1兩款大模型,而在美國晶片法案的限制下,Deepseek居然以約OpenAI幾十分之一的訓練成本,打造出性能相當ChatGPT的先進AI模型,讓整個科技業大為震驚。甚至1 月底,DeepSeek登上美國地區Apple App Store免費下載第一名,超越了ChatGPT。
雖然很多細節我還不清楚,但試用之後,感覺還行,所以我忍不住好奇,DeepSeek到底用了甚麼神奇的方法,突破了發展AI指標的晶片算力這個核心限制。
以下是網上查到的Deepseek技術:
原來DeepSeek是在訓練方法上有所突破(Pre-training & Post-training),而非晶片算力。
1. Multi-Token Prediction (MTP)
2. FP8 Training
3. Mixture of Experts (MoE)
4. Reinforcement Learning (RL)
5. Distillation
6. Multi-head Latent Attention (MLA)
看到這裡,正常人應該已經放棄,因為每個字拆開多半認識,但湊起來看不懂,縮寫簡稱搞得很專業,又讓大家感覺距離更遙遠...
其實,我們可以試著用生活的簡單比喻來說明,理解個六七成也行,讓大家知道,很多複雜的事情都可以換個方法去理解。
首先,OpenAI想要訓練一位世界超級大廚ChatGPT,精通人類史上所有的料理,訓練的方法就是先找出全世界各地各式各樣的食譜,然後讓他全部都學起來,從米其林三星套餐到台灣街邊小吃,從愛斯基摩人祖傳料理到非洲原始部落風味餐,可以想像ChatGPT大廚需要大量的時間加上無數的食譜才能被養成、鍛鍊出來。
而DeepSeek就像是個橫空殺出的小廚神,號稱去了幾年神秘、無人聽過的少林廚藝學院,居然燒菜燒得有模有樣、買菜錢還比較省、有時上菜更快,某些美食大賽還贏了大廚ChatGPT,這到底是甚麼黑魔法!?
有趣的是,這個來自中國的小廚神DeepSeek直接公開他的黑魔法讓大家參考。
1. Multi-Token Prediction (MTP)
ChatGPT大廚很嚴謹,他一道菜(a Token)做完,然後開始做下一道菜(a Token),然後再做下一道,這邏輯沒問題。但DeepSeek小廚神說,我的做法是,先喵一下今天大致上要做甚麼料理,甚至還猜一下(Prediction),有時候就會幾道菜一起準備(Multi-Token)。
比如,今天是義大利料理,第一道菜是Caprese Salad,ChatGPT大廚先從冰箱拿出新鮮番茄、Mozzarella cheese、羅勒葉、橄欖油、葡萄酒醋、鹽巴,然後開始清洗番茄和羅勒葉,然後番茄、起司切片、加上羅勒葉堆疊擺盤、用橄欖油和鹽巴調味、最後滴點葡萄酒醋上菜,然後收拾橄欖油、葡萄酒醋等調味品歸位。完成後,大廚再開始準備第二道菜。
而DeepSeek小廚神一看到菜單是義大利料理,第一道菜是Caprese Salad,他就會推測,接下來的菜應該還有麵包佐油醋、番茄義大利麵、pizza等等,應該會用到很多番茄、橄欖油、鹽巴、葡萄酒醋,所以從冰箱順手多拿一些番茄一併洗了,橄欖油、鹽巴、葡萄酒醋也放在旁邊,先不收了。
就是這樣小小的差別,可以讓整體上菜的速度快一點點。這就是Multi-Token Prediction (MTP)大致上的方法。
沒有留言:
張貼留言