中國 AI 創業公司深度求索的大型語言模型 DeepSeek,1 月 20 日發布 R1 版本,能力可比 OpenAI 的 GPT-4o。 DeepSeek 的前一版本 V3 亦比美國的大型語言模型能力略勝一籌。DeepSeek 的能力震驚業界不是焦點,重點是其超低的訓練成本,聲稱僅 558 萬美元完成,顛覆矽谷花上十億計美元重金訓練最新模型,甚至令美國 AI 界感到威脅。DeepSeek 突然冒起,成功之道或在於用人策略。
超低成本訓練模型
深度求索在 2024 年 12 月發表 DeepSeek-V3,具備 6,710 億參數,在測試基準的表現超越 Meta 的 Llmama-3。該公司向外宣稱只用 2,048 張 NVIDIA H800 GPU 花 53 日便完成訓練,總成本約 558 萬美元。及後發表的 DeepSeek-R1 主要加強推理能力,同樣加入加強學習(Reinforcement Learning)推理,數學和編程比得上 GPT-4o。據報成本只是 GPT-4o 的 3% 至 5%。
要知道,目前美國的頂級 AI 模型訓練時用上起碼 16,000 張 H100 GPU,單是購置硬件成本已無法跟深度求索可比。
訓練成本低,連用戶收費也相宜。以 API 供應企業和開發人員的 deepseek-reasoner 版本,輸入部分快取命中每百萬 Token 收 0.14 美元,未命中是 0.55 美元,輸出部分則按推理內容與最終答案的 Token 計算,每百萬收費 2.19 美元。這價錢跟其他 AI 模型比較可謂極具競爭力。DeepSeek 還有免費版,AI 能力也不弱,相關程式在蘋果公司 App Store 和 Google Play Store 的美國下載榜已登上首位。
創辦人就是金主不向外融資
深度求索令業界震驚,除了 AI 能力和成本,更大原因是不見經傳。該公司在 2023 年 7 月於杭州創立,一直未有尋求外部融資,公司估值成謎。由於欠缺「獨角獸」、「不得不留意的 AI 創業公司」等標籤,過去未有太多人留意。
該公司毋須融資已能夠建立如此強勁的 AI 技術,全因創辦人梁文鋒是最大資金來源。他在2015 年創立對沖基金幻方量化,是首間在中國籌集 1,000 億元人民幣的量化對沖基金。AI 與金融本業沒有直接關係,梁文鋒另行開辦創業公司深度求索,開發通用人工智能(AGI)。他曾在浙江大學取得訊息與電子工程大學學位和碩士學位,成為投資創新技術的伏線。
150 人小型團隊只聘天才
深度求索能夠以低成本開發 AI 大模型,原因跟團隊的能力有莫大關係。梁文鋒堅持小型團隊,維持 150 人以下,而且只求有能者居之,不問經驗,核心技術崗位以應屆和畢業一、兩年的新人為主。他在 2024 年 5 月接受《36 氪》訪問時曾透露,衡量年輕畢業生能力是否足夠,除了院校背景(即北大和清華),還有比賽成績,只看冠軍級人馬。「只聘 1% 天才去做 99% 中國公司做不到的事。」
其團隊都實力非凡,如早期發表 DeepSeekMath 模型的三位核心人員:朱琪豪、邵智宏和王培懿,都是在博士實習期完成相關的研究工作。DeepSeek-V3 研究人員代達勱是北大 2024 年的博士畢業生。AI 天才少女羅福莉亦是深度求索一員,主導開發 DeepSeek-V2 模型。
另外,團隊內部曾設數據百曉生,專門聘請文科人才,提供歷史、文化、科學等數據,用高品質數據內容訓練模型。從選擇數據到開發技術,另闢途徑訓練 DeepSeek 模型,形成低成本和高效能的驚人結果。
訓練成本這麼低,是真的嗎?
DeepSeek 打破要用上大量高階 GPU 平衡運算的「傳統方法」。深度求索向外稱,DeepSeek-V3 用 2,048 張 NVIDIA 特供中國版 H800 GPU 訓練。不過,Scale AI 創辦人 Alexandr Wang 早前在 CNBC 的訪問爆料,深度求索實際上擁有約 5 萬張 H100 GPU,而且強調對方不會高度談論,因涉及違反出口管制措施。
實情如何目前難以求證,但可以肯定該公司用有限資源造出相同能力的 AI 模型,是技術的大突破。
中國 AI 超越美國了?!
DeepSeek 震驚 AI 業界是否代表中國 AI 反勝美國技術?美國紐約大學教授、Meta 首席 AI 科學家楊立昆(Yann LeCun)在 Threads 發串文直指,「中國 AI 正在超越美國」的言論是對當前技術錯誤解讀,正確是開源模型正在超越專有模型。
楊立昆稱,DeepSeek 受惠開放研究和開源,包括 PyTorch 和 Llama,提出新意念,將其他人的成果作基礎繼續開發。同時,DeepSeek 又將自己的研究成果開源讓更多人從中獲益,這正是開放研究和開源的力量。
將影響 AI 模型研究方向
DeepSeek 的成功無疑將影響未來的 AI 研究方向。有消息指,Meta 內部已設立四支團隊分析 DeepSeek 的開源技術,兩支分析降低訓練成本的原因,另外則解構訓練模型的數據集。相信美國的科技公司將會以此方向發展技術,務求降低開發成本。
另一影響是 NVIDIA 和其他 AI 晶片廠商。目前市場的 AI 晶片由 NVIDIA 主導,而且 NVIDIA 的 GPU 近年長期供不應求,尤其最新 Blackwell B200 的訂貨期長達一年。DeepSeek 的技術證明可以大幅削減硬件規模。若果以同一規模的平台去訓練,AI 模型的能力或會突飛猛進。
DeepSeek 在政治上的影響,可能華府將繼續收緊出口高階晶片措施,同時推出更多政策修補漏洞去限制晶片走私進入中國。