AI 大戰│不讓 DeepSeek 搶風頭　阿里雲宣稱新版通義千問更強勁

1 月 29 日正值農曆年初一，也是中國新春假期，阿里巴巴旗下阿里雲一反常態選在假日於微信發布通義千問旗艦版模型 Qwen2.5-Max，並宣稱該模型版本性能超越 DeepSeek-V3。此舉顯示了 DeepSeek 的快速冒起不單震撼美國 AI 界，對中國的競爭對手也帶來極大壓力。

阿里雲指，DeepSeek V3 讓各界了解到超大規模 MoE 模型的效果及實現方法，Qwen 同時也在研發超大規模 MoE 模型 Qwen2.5-Max，使用超過 20 萬億 token 的預訓練數據及精心設計的後訓練方案進行訓練。結果跟包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet 相比，在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基準測試中的表現均超越 DeepSeek V3；跟 GPT-4o 和 Claude-3.5-Sonnet 不相伯仲。

阿里雲指 Qwen2.5-Max 在多項基準測試中的表現更勝 DeepSeek V3。

在基座模型的比較中，由於無法存取 GPT-4o 和 Claude-3.5-Sonnet 等閉源模型的基座模型，阿里雲團隊將 Qwen2.5-Max 與開源 MoE 模型 DeepSeek V3、最大的開源稠密模型 Llama-3.1-405B，以及同樣位列開源稠密模型前列的 Qwen2.5-72B 進行比較，結果有顯著的優勢。

目前， Qwen Chat 已使用 Qwen2.5-Max，可直接與模型對話或使用 artifacts、搜尋等功能。同時，Qwen2.5-Max 的 API（qwen-max-2025-01-25）亦已開放使用。

阿里雲是次展示的測試未有跟更新版本的 DeepSeek-R1 作比較。美國著名 YouTube 頻道 AICodeKing 率先測試了 Qwen2.5-Max 的能力。在他的測試中，Qwen2.5-Max 整體評分其實不及 DeepSeek V3。但他最後仍稱 Qwen2.5-Max 是一個不錯的 AI 模型。

AI 大戰│不讓 DeepSeek 搶風頭　阿里雲宣稱新版通義千問更強勁

惡意 PDF 檔案攻破防線　7 招教你保安全（附 Acrobat Reader 關閉 JavaScript 步驟）

港投公司與賽昉科技啟動戰略合作　「獅子山」晶片將在港運算中心使用

Google 史上最大收購案　抬價豪花 320 億美元追 Wiz 到手！

最新影片

您會感興趣的內容

相關文章

AI 大戰│不讓 DeepSeek 搶風頭 阿里雲宣稱新版通義千問更強勁

最新影片

您會感興趣的內容

相關文章

AI 大戰│不讓 DeepSeek 搶風頭　阿里雲宣稱新版通義千問更強勁