商湯發表日日新 5.0 股價爆升三成　跟 GTP-4 Turbo 鬥中文能力全勝

商湯去年 4 月發表大型語言模型「日日新」，至今僅一年便已推出至 5.0 版本。新模型提升語文和推理能力，官方公布在多項測試均與 OpenAI 的 GPT-4 Turbo 作比較。新模型除了在雲端使用，還有用於終端設備和企業級一體機。商湯股價在發布翌日急升逾三成，甚至中途停牌。

商湯在日日新發表約一年後，再次在上海人工智能運算中心（AIDC）舉辦技術交流日，發表日日新 5.0 及更多行業相關的合作項目。商湯科技董事長和行政總裁徐立指出，新版本按尺度定律（scaling law）開發，選用合適的數據訓練模型，探索大型語言模型的知識、推理和執行的能力。

即使徐立強調語言模型的能力不在於大幅提升參數量，新版本有 6,000 億參數，較去年的初版本 1,800 億升級逾三倍。日日新 5.0 基於超過 10TB tokens 的數據訓練，內有大量合成數據，並採用混合專家架構，推理時上文下理的有效範圍約 200K。

日日新 5.0 加強知識、數學、推理和程式碼能力，商湯均採用去年 11 月推出的 GPT-4 Turbo 作參考比較。其中示範文字能力，輸入相同的中文文章，獲得更好的理解總結及回答。而數理、推理能力則提供詳細的分析過程。有一示範計算要問：「13 個小朋友玩『老鷹抓小雞』遊戲，已經抓住了 5 隻『小雞』，還有幾隻小雞沒抓住？」，GPT-4 只給出簡單的錯誤答案，而日日新 5.0 有逐步分析過程。徐立直指，GPT-4 計錯數可能是不懂何謂「老鷹抓小雞」（即香港人稱麻鷹捉雞仔）。

日日新 5.0 的多模態能力亦有升級，在 MMBench 的綜合得分排首位。能夠理解高清長圖，並生成相關的描述。用中國的叫車程式截圖，給日日新與 GPT-4 分析示範兩者的分別。日日新能夠讀取司機姓名、車牌和型號，而後者無法理解。另外又給兩個模型分析中國食物的熱量，日日新的分析還包括每碟食品的重量。