阿里雲在今年 4 月推出大語言模型「通義千問」,當中包含超過 70 億參數的各種模型。該公司決定開源包括預訓練的基座模型 Qwen-7B 和基於這模型的對話模型 Qwen-7B-Chat ,於其 AI 模型社區 ModelScope 及 AI 協作平台 Hugging Face 上架。全球學術、研究及商業機構可免費取得上述模型的代碼、模型權重和文檔。若涉及商業應用需求,每月活躍用戶少於 1 億的公司可免費使用模型,用戶數超過該數量的企業可向阿里雲申請許可證。
Qwen-7B 在超過 2 萬億 token 數據集上預訓練,涵蓋通用和專業領域的中英文及其他多語種資料、代碼和數學內容,上下文長度可達 8,000 。 Qwen-7B 和 Qwen-7B-Chat 模型可部署在雲端及本地基礎設施上,以便用戶調校模型並建立合適的生成式 AI 模型。
Qwen-7B 預訓練模型於英文能力基準測評 MMLU (大規模多任務語言理解)得分 56.7,這測評目的考驗文本模型在 57 個不同任務中處理多任務的準確性,涵蓋初等數學、計算機科學和法律等多個領域。在中文常識能力測試為 C-Eval 上,並在 Leaderboard 獲得最高分。該測評集涵蓋了人文、社會科學、STEM 等四大領域的 52 個學科。
阿里雲於 7 月發布 AI 繪畫創作大模型「通義萬相」,以及推出通用框架 ModelScopeGPT 。後者旨在協助用戶透過使用 ModelScope 平台上的 AI 模型完成各類複雜的 AI 任務,適用領域包括語言、視覺和語音等。 ModelScope 開源平台由阿里雲於去年推出,目前匯集由 20 間 AI 機構提供的 1,000 多個 AI 開源模型。