AI 大戰│商湯科技說日日新 5o　在即時語音影像互動領域全國最強

自從 DeepSeek 出現之後，多間 AI 公司都出來說自己的產品才是最強！阿里雲稱旗下通義千問旗艦版模型 Qwen2.5-Max 性能超越 DeepSeek-V3。商湯又指其日日新融合大模型交互版（SenseNova-5o）在即時語音影像是中國最強。

商湯科技引述即時語音視頻中文測評基準 SuperCLUE-Live 的測試結果，指總分有　68.59，排名中國第一。SuperCLUE-Live 是中國首個語音影像評測基準，主要測試新一代即時語音影像交互產品的綜合能力。商湯認為「日日新 5o」能力領先同儕，在於採用原生融合方式，深度融合影像視頻、圖片、語音和文本等模態，並結合多模態交錯數據聯合訓練，做到多模態訊息的感知和理解及記憶。同時，通過結合即時的 RTC 網絡提供即時的語音影像互動體驗。

商湯還指，以大模型的強大性能為基礎，「日日新 5o」在以 77 分超越 ChatGPT 的 70.5 分排名第一。這是因為模型在訓練過程中，由於訓練採樣的數據範圍（domain）場景豐富，並通過結合影像及圖片文本的交錯數據進行融合後訓練，確保模型對於各類場景及物體都具備理解和識別能力。

另外，在記憶能力方面「日日新 5o」同樣領先其他中國產品。在測試中，該模型能夠記住用戶偏好和需求，以及場景訊息。通過採用先進、不同模態訊息的壓縮技術，大幅度提升模型的訊息記憶效率，在相同的 context windows 下能展現比其他模型更強的記憶力。在訓練過程中，還精心建立語音影像交錯的多輪會話數據，進一步增強模型的記憶能力。在語音交互能力上，「日日新 5o」在語音的對話回覆上更加自然。同時結合全雙工能力，在對話中也可即時打斷，使互動體驗更接近人與人之間的真實交流。

在投入應用上，商湯強調該大模型透過融入商湯自研的高效推理框架 lightllm，配合模型量化及推理 Cache 等綜合解決方案，能確保高性能及大幅降低推理成本。

AI 大戰│商湯科技說日日新 5o　在即時語音影像互動領域全國最強

惡意 PDF 檔案攻破防線　7 招教你保安全（附 Acrobat Reader 關閉 JavaScript 步驟）

港投公司與賽昉科技啟動戰略合作　「獅子山」晶片將在港運算中心使用

Google 史上最大收購案　抬價豪花 320 億美元追 Wiz 到手！

最新影片

您會感興趣的內容

相關文章

AI 大戰│商湯科技說日日新 5o 在即時語音影像互動領域全國最強

最新影片

您會感興趣的內容

相關文章

AI 大戰│商湯科技說日日新 5o　在即時語音影像互動領域全國最強