2025年2月2日 星期日

DeepSeek - 3. Mixture of Experts (MoE) = 多個廚師,各司其職

 前情提要:

OpenAI 訓練一位世界超級大廚ChatGPT,精通人類史上所有的料理,訓練的方法就是先找出全世界各地各式各樣的食譜,然後讓他全部都學起來,從米其林三星套餐到台灣街邊小吃,從愛斯基摩人祖傳料理到非洲原始部落風味餐,可以想像ChatGPT大廚需要大量的時間加上無數的食譜才能被養成、鍛鍊出來。

而DeepSeek就像是個橫空殺出的小廚神,號稱去了幾年神秘、無人聽過的少林廚藝學院,居然燒菜燒得有模有樣、買菜錢還比較省、有時上菜更快,某些美食大賽還贏了大廚ChatGPT,這到底是甚麼黑魔法!?

3. Mixture of Experts (MoE)

一家餐廳的內場通常是個團隊,比如台灣名廚江振誠,總不可能每道菜都是他燒的。
大廚ChatGPT的團隊,每位廚師都跟他一樣犀利,十八般廚藝樣樣精通,而且做菜嚴謹講究。
DeepSeek
小廚神就採取一種分工模式的策略,讓團隊裡的每位二廚都專注做自己擅長的料理,而DeepSeek能精準的決定哪道菜應該由哪個廚師來做,讓餐廳保持高效運作。
在受訓(訓練)時,每個廚師只學自己擅長的料理,而不是讓所有人都學全部的料理,減少資源浪費。
在燒菜(推理)時,
DeepSeek只調動必要的廚師做他擅長的事,優化餐廳效率。

這個道理不難理解。



沒有留言:

張貼留言

Alexandr Wang:從找出優格小偷到創辦 AI 獨角獸的億萬富翁

如果你對 AI 所需的龐大數據感到好奇,那麼你應該認識 Alexandr Wang——這位年僅 27 歲的 AI 獨角獸創業家。他是 Scale AI 的創辦人兼 CEO,也是美國最年輕的白手起家億萬富翁。但他的創業靈感,竟然源自於一罐失蹤的優格。 物理學家之家長大的數學天才 A...