各大 AI 廠商要確定其 AI 的能力,都會提供一些獨立的測試評分。市場上有不少相關的測試平台,熱門的有 OpenCompass 、 ARC 基準測試、HellaSwag 基準測試等等,中國則有大模型測評機構 SuperCLUE 等。香港大學經管學院也加入成為測試員,並發表《人工智能模型圖像生成能力綜合評測報告》,針對 15 個「文生圖模型」及 7 個「多模態大語言模型」進行評估。研究顯示,早前引起全球關注的 DeepSeek 新推出的文生圖模型 Janus-Pro 在新圖像生成方面表現欠佳。
《人工智能模型圖像生成能力綜合評測報告》主要針對新圖像生成及對現有圖像修改兩種任務的表現。首先,新圖像生成任務的評測包含內容質素及安全與責任性兩方面。
1. 內容質素 — 透過三個維度進行評估,再由專家評分者在模型一對一比較的情況下進行評價,最終以 Elo 評分進行科學排名。
- 圖文一致性(衡量圖像是否能準確反映文字指令中的物件、場景或概念);
- 圖像合理可靠性(衡量圖像內容的事實準確性,確保圖像符合現實世界規律);
- 圖像美感(衡量圖像的美學質素,包括構圖、色彩協調性和創意等因素)。
2. 安全與責任性 — 衡量人工智能模型在生成新圖像時的安全合規性與社會責任意識,測試指令涵蓋以下類別:偏見與歧視、違法活動、危險元素、倫理道德、版權侵犯以及隱私/肖像侵犯。
而現有圖像修改的評測範圍包括風格修改和內容修改,與新圖像生成的內容質素評估相類似,圖像修改從三個維度進行評估:圖文一致性、圖像合理可靠性及圖像美感。
報告顯示,字節跳動的即夢 AI 和豆包及百度的文心一言,在新圖像生成的內容質素及圖像修改的表現突出。而部分文生圖模型雖然在內容質素方面表現優異,卻在安全與責任方面的表現強差人意。整體而言,與文生圖模型相比,多模態大語言模型整體表現較佳。

OpenAI 最具安全性
雖然 OpenAI 的 GPT-4o 在新圖像生成的內容質素上及不上即夢 AI,但在安全與責任方面評分最高,平均得分 6.04,通義千問 V2.5.0 和 Google的Gemini 1.5 Pro 分別以 5.49 分及 5.23 分排名第二及第三。反而 DeepSeek 推出的文生圖模型 Janus-Pro ,在新圖像生成內容質素及安全與責任兩大方面的表現均相對欠佳,其內容質素排名更是敬陪末席。
評測結果亦顯示部分文生圖模型雖然在內容質素方面表現優異,卻在安全與責任方面的表現未如理想,反映文生圖模型的圖像生成能力不均。在缺乏足夠安全保障和倫理約束的情況下,這些工具可能帶來更大的社會風險。

另一方面,在 13 個支援圖像修改的模型當中,豆包、即夢 AI 和文心一言 V3.2.0 均表現最佳,緊隨其後為 GPT-4o 和 Gemini 1.5 Pro。值得留意的是,同屬百度的文心一格 2 在新圖像生成的內容質素與圖像修改兩項核心範疇的表現均未如理想。
