更多

    AI 大戰│不讓 DeepSeek 搶風頭 阿里雲宣稱新版通義千問更強勁

    1 月 29 日正值農曆年初一,也是中國新春假期,阿里巴巴旗下阿里雲一反常態選在假日於微信發布通義千問旗艦版模型 Qwen2.5-Max,並宣稱該模型版本性能超越 DeepSeek-V3。此舉顯示了 DeepSeek 的快速冒起不單震撼美國 AI 界,對中國的競爭對手也帶來極大壓力。

    阿里雲指,DeepSeek V3 讓各界了解到超大規模 MoE 模型的效果及實現方法,Qwen 同時也在研發超大規模 MoE 模型 Qwen2.5-Max,使用超過 20 萬億 token 的預訓練數據及精心設計的後訓練方案進行訓練。結果跟包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet 相比,在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基準測試中的表現均超越 DeepSeek V3;跟 GPT-4o 和 Claude-3.5-Sonnet 不相伯仲。

    阿里雲指 Qwen2.5-Max 在多項基準測試中的表現更勝 DeepSeek V3。

    在基座模型的比較中,由於無法存取 GPT-4o 和 Claude-3.5-Sonnet 等閉源模型的基座模型,阿里雲團隊將 Qwen2.5-Max 與開源 MoE 模型 DeepSeek V3、最大的開源稠密模型 Llama-3.1-405B,以及同樣位列開源稠密模型前列的 Qwen2.5-72B 進行比較,結果有顯著的優勢。

    目前, Qwen Chat 已使用 Qwen2.5-Max,可直接與模型對話或使用 artifacts、搜尋等功能。同時,Qwen2.5-Max 的 API(qwen-max-2025-01-25)亦已開放使用。

    阿里雲是次展示的測試未有跟更新版本的 DeepSeek-R1 作比較。美國著名 YouTube 頻道 AICodeKing 率先測試了 Qwen2.5-Max 的能力。在他的測試中,Qwen2.5-Max 整體評分其實不及 DeepSeek V3。但他最後仍稱 Qwen2.5-Max 是一個不錯的 AI 模型。

    最新影片

    您會感興趣的內容

    相關文章