自從 DeepSeek 出現之後,多間 AI 公司都出來說自己的產品才是最強!阿里雲稱旗下通義千問旗艦版模型 Qwen2.5-Max 性能超越 DeepSeek-V3。商湯又指其日日新融合大模型交互版(SenseNova-5o)在即時語音影像是中國最強。
商湯科技引述即時語音視頻中文測評基準 SuperCLUE-Live 的測試結果,指總分有 68.59,排名中國第一。SuperCLUE-Live 是中國首個語音影像評測基準,主要測試新一代即時語音影像交互產品的綜合能力。商湯認為「日日新 5o」能力領先同儕,在於採用原生融合方式,深度融合影像視頻、圖片、語音和文本等模態,並結合多模態交錯數據聯合訓練,做到多模態訊息的感知和理解及記憶。同時,通過結合即時的 RTC 網絡提供即時的語音影像互動體驗。
商湯還指,以大模型的強大性能為基礎,「日日新 5o」在以 77 分超越 ChatGPT 的 70.5 分排名第一。這是因為模型在訓練過程中,由於訓練採樣的數據範圍(domain)場景豐富,並通過結合影像及圖片文本的交錯數據進行融合後訓練,確保模型對於各類場景及物體都具備理解和識別能力。
另外,在記憶能力方面「日日新 5o」同樣領先其他中國產品。在測試中,該模型能夠記住用戶偏好和需求,以及場景訊息。通過採用先進、不同模態訊息的壓縮技術,大幅度提升模型的訊息記憶效率,在相同的 context windows 下能展現比其他模型更強的記憶力。在訓練過程中,還精心建立語音影像交錯的多輪會話數據,進一步增強模型的記憶能力。在語音交互能力上,「日日新 5o」在語音的對話回覆上更加自然。同時結合全雙工能力,在對話中也可即時打斷,使互動體驗更接近人與人之間的真實交流。
在投入應用上,商湯強調該大模型透過融入商湯自研的高效推理框架 lightllm,配合模型量化及推理 Cache 等綜合解決方案,能確保高性能及大幅降低推理成本。