爹地日常瞎掰: DeepSeek - 3. Mixture of Experts (MoE) = 多個廚師，各司其職

2025年2月2日星期日

DeepSeek - 3. Mixture of Experts (MoE) = 多個廚師，各司其職

前情提要:

OpenAI 訓練一位世界超級大廚ChatGPT，精通人類史上所有的料理，訓練的方法就是先找出全世界各地各式各樣的食譜，然後讓他全部都學起來，從米其林三星套餐到台灣街邊小吃，從愛斯基摩人祖傳料理到非洲原始部落風味餐，可以想像ChatGPT大廚需要大量的時間加上無數的食譜才能被養成、鍛鍊出來。

而DeepSeek就像是個橫空殺出的小廚神，號稱去了幾年神秘、無人聽過的少林廚藝學院，居然燒菜燒得有模有樣、買菜錢還比較省、有時上菜更快，某些美食大賽還贏了大廚ChatGPT，這到底是甚麼黑魔法!?

3. Mixture of Experts (MoE)

一家餐廳的內場通常是個團隊，比如台灣名廚江振誠，總不可能每道菜都是他燒的。
大廚ChatGPT的團隊，每位廚師都跟他一樣犀利，十八般廚藝樣樣精通，而且做菜嚴謹講究。
DeepSeek小廚神就採取一種分工模式的策略，讓團隊裡的每位二廚都專注做自己擅長的料理，而DeepSeek能精準的決定哪道菜應該由哪個廚師來做，讓餐廳保持高效運作。
在受訓(訓練)時，每個廚師只學自己擅長的料理，而不是讓所有人都學全部的料理，減少資源浪費。
在燒菜(推理)時，DeepSeek只調動必要的廚師做他擅長的事，優化餐廳效率。

這個道理不難理解。

爹地日常瞎掰

2025年2月2日星期日

DeepSeek - 3. Mixture of Experts (MoE) = 多個廚師，各司其職

沒有留言:

張貼留言

Alexandr Wang：從找出優格小偷到創辦 AI 獨角獸的億萬富翁

檢舉濫用情形

標籤

2025年2月2日 星期日

DeepSeek - 3. Mixture of Experts (MoE) = 多個廚師，各司其職

沒有留言:

張貼留言

Alexandr Wang：從找出優格小偷到創辦 AI 獨角獸的億萬富翁

2025年2月2日星期日