爹地日常瞎掰: DeepSeek - 4. Reinforcement Learning (RL) = 根據顧客反饋，持續提升廚藝

2025年2月2日星期日

DeepSeek - 4. Reinforcement Learning (RL) = 根據顧客反饋，持續提升廚藝

4. Reinforcement Learning (RL)

Reinforcement Learning字面上是強化學習的意思。

一間好的餐廳不只會照菜譜做菜，還會根據顧客的反饋來調整口味，讓菜色更符合消費者的喜好。
比如說，美國人未必接受道地的中國菜，但Panda Express改良後的中國菜卻可以讓他成為美國最大的連鎖中餐廳，他的名菜橙汁雞(Orange Chicken)對台灣人而言，可能覺得不倫不類!? 而台灣美味的酥炸臭豆腐，美國人也會覺得不算是正常食物。

DeepSeek小廚神的強化學習技術，透過顧客意見、調整菜單與口味，確保提供的餐點（AI輸出內容）不僅口味適合（有用）、符合健康標準（安全），還不會讓人吃壞肚子（避免產生有害信息），甚至在口味類似的範圍內，自己還會創造新的食譜，反覆實驗，相當於讓整個廚房團隊持續精進。

爹地日常瞎掰

2025年2月2日星期日

DeepSeek - 4. Reinforcement Learning (RL) = 根據顧客反饋，持續提升廚藝

沒有留言:

張貼留言

Alexandr Wang：從找出優格小偷到創辦 AI 獨角獸的億萬富翁

檢舉濫用情形

標籤

2025年2月2日 星期日

DeepSeek - 4. Reinforcement Learning (RL) = 根據顧客反饋，持續提升廚藝

沒有留言:

張貼留言

Alexandr Wang：從找出優格小偷到創辦 AI 獨角獸的億萬富翁

2025年2月2日星期日