4. Reinforcement Learning (RL)
Reinforcement Learning字面上是強化學習的意思。
一間好的餐廳不只會照菜譜做菜,還會根據顧客的反饋來調整口味,讓菜色更符合消費者的喜好。
比如說,美國人未必接受道地的中國菜,但Panda Express改良後的中國菜卻可以讓他成為美國最大的連鎖中餐廳,他的名菜橙汁雞(Orange Chicken)對台灣人而言,可能覺得不倫不類!? 而台灣美味的酥炸臭豆腐,美國人也會覺得不算是正常食物。
DeepSeek小廚神的強化學習技術,透過顧客意見、調整菜單與口味,確保提供的餐點(AI輸出內容)不僅口味適合(有用)、符合健康標準(安全),還不會讓人吃壞肚子(避免產生有害信息),甚至在口味類似的範圍內,自己還會創造新的食譜,反覆實驗,相當於讓整個廚房團隊持續精進。

沒有留言:
張貼留言