前情提要:
OpenAI 訓練一位世界超級大廚ChatGPT,精通人類史上所有的料理,訓練的方法就是先找出全世界各地各式各樣的食譜,然後讓他全部都學起來,從米其林三星套餐到台灣街邊小吃,從愛斯基摩人祖傳料理到非洲原始部落風味餐,可以想像ChatGPT大廚需要大量的時間加上無數的食譜才能被養成、鍛鍊出來。
而DeepSeek就像是個橫空殺出的小廚神,號稱去了幾年神秘、無人聽過的少林廚藝學院,居然燒菜燒得有模有樣、買菜錢還比較省、有時上菜更快,某些美食大賽還贏了大廚ChatGPT,這到底是甚麼黑魔法!?
3. Mixture of Experts (MoE)
一家餐廳的內場通常是個團隊,比如台灣名廚江振誠,總不可能每道菜都是他燒的。
大廚ChatGPT的團隊,每位廚師都跟他一樣犀利,十八般廚藝樣樣精通,而且做菜嚴謹講究。
DeepSeek小廚神就採取一種分工模式的策略,讓團隊裡的每位二廚都專注做自己擅長的料理,而DeepSeek能精準的決定哪道菜應該由哪個廚師來做,讓餐廳保持高效運作。
在受訓(訓練)時,每個廚師只學自己擅長的料理,而不是讓所有人都學全部的料理,減少資源浪費。
在燒菜(推理)時,DeepSeek只調動必要的廚師做他擅長的事,優化餐廳效率。
這個道理不難理解。

沒有留言:
張貼留言