爹地日常瞎掰

2025年2月19日星期三

Alexandr Wang：從找出優格小偷到創辦 AI 獨角獸的億萬富翁

如果你對 AI 所需的龐大數據感到好奇，那麼你應該認識 Alexandr Wang——這位年僅 27 歲的 AI 獨角獸創業家。他是 Scale AI 的創辦人兼 CEO，也是美國最年輕的白手起家億萬富翁。但他的創業靈感，竟然源自於一罐失蹤的優格。

物理學家之家長大的數學天才

Alexandr Wang 出生於 1997 年，成長於美國新墨西哥州，父母都是 Los Alamos National Laboratory（洛斯阿拉莫斯國家實驗室）的物理學家。這個實驗室正是全球第一顆原子彈的誕生地，也是電影《奧本海默》中的關鍵場景。

在這樣的環境中長大，Alexandr 自小展現出極高的數理天賦。他在 Los Alamos High School 就讀時，15 歲便在 USA Mathematical Talent Search 拿下全美第五名，同時進入 USA Computing Olympiad（全美資訊奧林匹亞）決賽，2014 年更入選 USA Physics Team，成為全美前 20 名的物理學生。

除了超群的學術表現，他還精通 中、英、法 三種語言，展現出不凡的學習能力。

19 歲休學，20 歲創立 Scale AI

Alexandr 進入麻省理工學院（MIT）主修數學與電腦科學，但 19 歲時選擇休學，前往 Quora 擔任程式設計師。在這裡，他遇見了未來的創業夥伴 Lucy Guo——Snapchat 第一位女性設計師。兩人於 2016 年聯手創立了 Scale AI，進軍 AI 資料標記市場。

創業靈感：優格小偷與資料標記的商機

這一切的起點，竟然是來自於一罐優格。

2016 年，Alexandr 在 MIT 的宿舍裡發現自己的優格經常不翼而飛。為了揪出小偷，他決定開發一款智慧冰箱攝影機，透過 Google TensorFlow（開源機器學習平台）訓練 AI 辨識食物。然而，他很快發現了一個關鍵問題：

AI 的學習能力雖然強大，但如果沒有大量已標記的數據，就無法準確辨識物品。

為了訓練 AI，他只能手動標記數萬張食物照片，例如框出「優格」、「蘋果」並新增標籤。這個過程既枯燥又耗時，卻讓他意識到了一個更大的商機：

AI 模型不僅需要強大的程式碼，還需要龐大且高品質的標記數據。

從「標記食物」到「標記世界」

在抓到「優格賊」後，Alexandr 和 Lucy 深入研究市場需求，發現許多大型科技公司（如 Quora、Snapchat）每天都需要審核與標記大量圖片與貼文，這項工作繁瑣且多依賴人工外包。

他們意識到，「資料標記」雖然單調，卻是 AI 產業不可或缺的一環。而這個過程可以透過自動化、模組化，甚至成為一項商品化服務。於是，兩人創立了 Scale AI，致力於幫助企業高效標記數據。只需一行程式碼，Scale AI 便能協助企業完成 AI 訓練所需的標記工作。

有時日常生活不是那麼日常

Alexandr Wang 的故事告訴我們，即使是日常生活的痛點或困擾的事情，即使再小，只要找到對的市場，就可能創造出驚人的價值。

而這一切，都始於一罐優格。
我當初住宿舍怎麼沒想到呢!?

2025年2月16日星期日

Attack on Titan 進擊的巨人 - 誰來接手超大型巨人!?

由於我和兒子長期的大力推薦進擊的巨人，加上電影版完結篇的上映，讓老婆因畫風不討喜而歷經兩次獨自追劇失敗後，我決定二刷陪老婆，重啟她的第三次嘗試。終於在20集之後，進入狀況，海闊天空，欲罷不能...
當然，二刷有個好處就是，更能體會每個角色在每個選擇上的難處。誰來接手超大型巨人這個決定，很經典。

里維的選擇：如果艾爾文活下來，劇情會怎麼走？

《進擊的巨人》裡，里維當時面臨一個超艱難的選擇——讓艾爾文活下來，還是救阿爾敏？最終，他選了阿爾敏，讓艾爾文解脫。但如果當時選的是艾爾文，整個故事會怎麼變？

艾爾文變成超大型巨人，可能帶來哪些戰略變化？

戰略思維更具侵略性：艾爾文擅長策劃大膽戰術，相較於阿爾敏的謀略型思維，他更可能主動發動攻勢，迅速改變戰局。
調查兵團決策風格更果斷：艾爾文的領導方式強硬，可能不會容忍內部猶豫。他可能更早察覺艾倫的異變，並以更直接的方式控制局勢。
對於超大型巨人之力的應用：艾爾文作為指揮官，會將巨人之力視為戰爭資本，可能會主導更積極的戰術運用。

阿爾敏的缺席，將如何影響局勢？

艾倫可能更快走向極端：阿爾敏一直是艾倫的制衡力量，缺少他的影響，艾倫的行動可能更加偏激，加速地鳴計畫的實施。
帕拉迪島的外交策略將受影響：阿爾敏具備卓越的外交才能，他的死亡可能會讓帕拉迪島失去與外界建立和平的可能，導致更直接的衝突。
米卡莎的選擇可能改變：阿爾敏對米卡莎的影響深遠，若沒有他的理性勸說，米卡莎可能更難做出關鍵決定。

里維的內心掙扎與領導挑戰

如果里維選擇艾爾文，阿爾敏的死亡必然會讓艾倫和米卡莎心生芥蒂，甚至影響彼此之間的信任。艾倫可能更加憤怒，甚至對調查兵團的決策產生動搖，而米卡莎則可能對里維的選擇無法釋懷，進而影響團隊的默契與合作。

此外，艾爾文的強勢領導雖能讓戰局更明確，但也可能讓調查兵團內部產生更多矛盾，特別是在應對艾倫的問題時，里維可能會夾在艾倫與艾爾文之間，面對更複雜的抉擇。

全球局勢的變化

戰爭可能提前爆發：艾爾文掌權後，可能不會選擇阿爾敏的溫和策略，而是更積極地與馬雷開戰，導致戰爭提前進入高峰。
艾倫的計畫會受到阻止，還是獲得支持？
- 艾爾文可能更早察覺艾倫的真正意圖。
- 但如果他認為「地鳴」是生存的關鍵，他可能選擇與艾倫合作，而非試圖阻止。

結論：帕拉迪島的未來會更光明，還是更殘酷？

如果艾爾文活下來，帕拉迪島的戰略可能更為強勢，戰爭可能提前爆發，但這是否能帶來真正的勝利？是更快結束衝突，還是加速滅亡？而里維的選擇，是否會讓團隊之間的信任產生裂痕？這或許是他在戰場之外，最難以承受的重擔。

2025年2月3日星期一

(End) DeepSeek 技術的生活應用

我們已經簡單地了解DeepSeek提升效率的關鍵技術，現在我們再把這些觀念，換個角度導入日常生活，看是不是跟日常提升效率的方法很類似。
有了這樣的觀念，以後遇到任何問題、困難，或是瓶頸，你就可以試著以不同角度去思考，比如生活上的角度，找出關鍵痛點在哪裡，然後選擇適當的工具，想出解決或替代方案。

1. Multi-Token Prediction (MTP)

運動習慣好難建立?

原子習慣(Atomic Habits)這本長銷書有提到，建立早上運動習慣有個簡單的方法就是，把運動裝放在床邊，一起床就直接自動換上運動服，這不就是把起床和換運動服這兩個動作(Token)連結再一起嗎!?

愛追劇又常常忘記運動的人，就可以把這兩個動作綁在一起，把iPad和球鞋放在一起，提醒自己追劇的時候，一邊原地超慢跑。

2. FP8 Training

鞋櫃、衣櫃總是不夠放，但也常常不知穿甚麼?

鞋櫃、衣櫃通常有過多的選擇，有的太常穿、有的不好搭、有的忘記穿、有的不知為何買，如何以限制數量的鞋款、衣款去優化你的使用，維持淘汰一件才加購一件，甚至是拍照記錄起來搭配，就是一種效率優化、資源節省。

出國行李箱總是空間不夠?

就像爹地每次出國，把蓬鬆、可摺疊的衣物放入可以抽出空氣的密封收納袋，這樣就可以節省很多行李箱空間，多放一些佔空間的泡麵。

3. Mixture of Experts (MoE)

打辯論賽、踢足球怎麼組隊?

找到各有擅長位置、攻防的隊友，高效分工合作，這樣實力才會最強。

足球全隊都是前鋒striker行嗎!?

出國旅遊怎麼規劃?

媽咪找飯店、餐廳、購物商店與觀光景點，爹地、姊姊規劃行程表、地圖帶路，弟弟目前還是放空中...

4. Reinforcement Learning (RL)

學業、才藝或技能如何強化學習、進步快速?

不管是跳舞或踢球，在練習或比賽結束之後，馬上請教教練、老師，給予即時回饋，甚至自己回看錄影畫面，檢討自己可以精進的地方，這就是一種強化學習。

5. Distillation

準備考試的時候，除了熟悉課本內容之外，參考優秀同學、以前學長姊的筆記，收集歷屆的考古試題來練習，這都算是借鏡篩選過的數據來訓練自己。Distillation = 蒸餾 !?

6. Multi-head Latent Attention (MLA)

如何有效率地準備考試，又得高分?
課後自己整理出重點筆記，並且把考卷做錯題目的解題過程筆記下來，隨時翻閱，而不是每次複習都要把所有上課的錄音檔或影片檔全部重看一次，或者課本從第一頁讀到最後一頁。

總之，人遇到問題，如果不花點時間去思考改善的方法，那不動腦的唯一解法就只是花更多的時間，別人下班我加班，別人睡多我睡少，別人休息我不休，然而每個人擁有的時間都是固定的，即使短期可以犧牲、求快，但身心健康也才能走的長久，如此只有花更多時間，而不思索提升效率，最後的痛點就是人生時間永遠不夠。

DeepSeek 發想- How do you eat an elephant?

以上六篇就是簡單說明近期造成轟動的DeepSeek所使用的技術方法，非常粗淺的比喻說明，畢竟我們沒有人是AI專家，甚至連家裡wifi不通、網路設定、印表機卡紙都不太會處理，要是直接看論文或專業網站說明，我們可能連一句話、一張圖都看不懂。

那為何我們要試著粗淺地去了解這麼複雜的事!?

首先，以1~10分來分級了解的程度，AI專家了解DeepSeek 10分，電腦工程師可能了解 8分，其他理工專長的人了解 5分，一般人大約就是1~2分，我們只要理解3分，可能就遠勝一大堆人，世上所有知識、技能，甚至財富的分佈不都是接近金字塔分佈嗎!? 金字塔分佈裡，只要多一點點，都可以為你創造極大的領先機會。

其次，爹地也想告訴你這些複雜事，並不妨礙我們學習與成長，即使只是一點點，就像我們從小常講的觀念:

“How do you eat an elephant? One bite at a time!”

「你如何吃下一頭大象，就是一次一小口!」

只要我們每天進步一點點，一年365天就進步365個一點點，如果每天進步1%，一年就會成長為快38倍的你自己!? lol (1+1%)^365=37.78...。

參考一下DeepSeek - R1的公開論文。我完全看不懂。

參考一下知乎網友對於MLA的專業說明。這我也完全看不懂。

DeepSeek - 6. Multi-head Latent Attention (MLA) - 省空間、省時間

6. Multi-head Latent Attention (MLA)

找不到順眼的中文翻譯，多頭潛在注意力機制!? 好怪...

一般來說，隨著菜單與菜色的增加，餐廳就需要存儲大量的「食譜筆記」與「料理食材」(KV Cache)，導致冰箱和倉庫塞滿，空間不夠用，導致上菜效率變慢，也浪費廚師無謂的體力。

DeepSeek小廚神的MLA技術，就像是用更聰明的方法做筆記與備料，就像我們學校上課可以全程錄音、一字不漏，然後把硬碟塞滿，也可以整理出重點筆記、隨時翻閱，你覺得哪一個方法佔的空間小、複習起來快!?
簡單說，透過只儲存最重要的、透過分類只專注幾個關鍵點...等等方法，不但可以減少存放空間，還可以讓廚師快速找到關鍵食譜與食材，提高效率。

2025年2月2日星期日

DeepSeek - 5. Distillation = 參考大廚食譜，打造自己新菜

5. Distillation

這部分就是DeepSeek目前最大的爭議之一。

有些人懷疑DeepSeek是否參考了OpenAI的數據來訓練自己的模型，這就像一個年輕廚師偷偷研究米其林餐廳的食譜，並品嘗競爭對手的料理，然後自己做出類似的菜色。

其實這在一般社會裡，可能根本不是個事，比如，我把台北市牛肉麵名店都吃過一輪，林東芳、永康街、老山東、八方雲集、清真黃牛肉麵...，然後自己回家鑽研出一碗好吃的"爹地牛肉麵"。

如同OpenAI也是拿全世界的食譜來訓練ChatGPT大廚一樣，至於食譜有沒有版權，OpenAI自己也沒說明過。

後續發展雖不清楚，但重要的是，DeepSeek開放了模型數據，任何人都可以透過DeepSeek的訓練數據，打造自己的AI大廚，這將極大地提升小型AI模型的推理能力，讓更多餐廳能培養自己的明星廚師。

DeepSeek - 4. Reinforcement Learning (RL) = 根據顧客反饋，持續提升廚藝

4. Reinforcement Learning (RL)

Reinforcement Learning字面上是強化學習的意思。

一間好的餐廳不只會照菜譜做菜，還會根據顧客的反饋來調整口味，讓菜色更符合消費者的喜好。
比如說，美國人未必接受道地的中國菜，但Panda Express改良後的中國菜卻可以讓他成為美國最大的連鎖中餐廳，他的名菜橙汁雞(Orange Chicken)對台灣人而言，可能覺得不倫不類!? 而台灣美味的酥炸臭豆腐，美國人也會覺得不算是正常食物。

DeepSeek小廚神的強化學習技術，透過顧客意見、調整菜單與口味，確保提供的餐點（AI輸出內容）不僅口味適合（有用）、符合健康標準（安全），還不會讓人吃壞肚子（避免產生有害信息），甚至在口味類似的範圍內，自己還會創造新的食譜，反覆實驗，相當於讓整個廚房團隊持續精進。

訂閱：意見 (Atom)

2025年2月19日 星期三