商湯去年 4 月發表大型語言模型「日日新」,至今僅一年便已推出至 5.0 版本。新模型提升語文和推理能力,官方公布在多項測試均與 OpenAI 的 GPT-4 Turbo 作比較。新模型除了在雲端使用,還有用於終端設備和企業級一體機。商湯股價在發布翌日急升逾三成,甚至中途停牌。
商湯在日日新發表約一年後,再次在上海人工智能運算中心(AIDC)舉辦技術交流日,發表日日新 5.0 及更多行業相關的合作項目。商湯科技董事長和行政總裁徐立指出,新版本按尺度定律(scaling law)開發,選用合適的數據訓練模型,探索大型語言模型的知識、推理和執行的能力。
即使徐立強調語言模型的能力不在於大幅提升參數量,新版本有 6,000 億參數,較去年的初版本 1,800 億升級逾三倍。日日新 5.0 基於超過 10TB tokens 的數據訓練,內有大量合成數據,並採用混合專家架構,推理時上文下理的有效範圍約 200K。
日日新 5.0 加強知識、數學、推理和程式碼能力,商湯均採用去年 11 月推出的 GPT-4 Turbo 作參考比較。其中示範文字能力,輸入相同的中文文章,獲得更好的理解總結及回答。而數理、推理能力則提供詳細的分析過程。有一示範計算要問:「13 個小朋友玩『老鷹抓小雞』遊戲,已經抓住了 5 隻『小雞』,還有幾隻小雞沒抓住?」,GPT-4 只給出簡單的錯誤答案,而日日新 5.0 有逐步分析過程。徐立直指,GPT-4 計錯數可能是不懂何謂「老鷹抓小雞」(即香港人稱麻鷹捉雞仔)。
日日新 5.0 的多模態能力亦有升級,在 MMBench 的綜合得分排首位。能夠理解高清長圖,並生成相關的描述。用中國的叫車程式截圖,給日日新與 GPT-4 分析示範兩者的分別。日日新能夠讀取司機姓名、車牌和型號,而後者無法理解。另外又給兩個模型分析中國食物的熱量,日日新的分析還包括每碟食品的重量。
文字生成圖片的能力,商湯比較秒畫、Midjourney、Stable Diffusion 和 DALL·E 用同一句提示詞的結果。包括生成象、亞洲女孩、未來風格建築,其中人像處理的皮膚紋理較細緻,而建築圖內的水池倒影較像真。徐立指出,日日新處理跟中國文化的內容有優勢。
今年 2 月推出辦公小浣熊亦隨日日新 5.0 獲升級數據分析能力。以 F1 賽車歷年的賽事數據作示範,先要求小浣熊找出中國車手周冠宇的出賽情況。然後 F1 問有幾多車手,小浣熊偵測到文件是 SQLite 數據庫腳本,按表格結構查詢數據。進一步問獲得總冠軍車手有幾多,按次數製作圖表。