生成式 AI 工具大戰一觸即發, GPT-4 風靡全球,Google 以 PaLM 並引入至 WorkSpace 迎戰。近在這邊,商湯科技也有「書生(INTERN)2.5」。該公司形容「書生 2.5」為多模態、多任務通用大模型,具備人工智能生成內容(AIGC)、以文生圖能力,可根據用戶提出的文本創作需求,利用擴散模型生成演算法生成需要的圖像。
「書生 2.5」的核心建基於 InternImage-G 通用視覺大模型,擁有 30 億參數。根據商湯科技的資料,其在視覺主流圖像分類數據集 ImageNet 上,單是基於公開數據已達到 90.1% 的準確率;在物體檢測標桿數據集 COCO 中,是唯一超過 65.0 mAP 的模型。目前,「書生 2.5」已在通用視覺開源平台 OpenGVLab 開源。
「書生 2.5」可根據文本內容需求快速搜尋跟語義最相關的圖像,例如可在相庫中找出文本所指定的相關圖像;或是在影片中找出與文本描述最相關的片段,有助提高影片中時間定位任務的效率。同時,系統支援引入物體檢測框,能根據文本找出最相關的物體。甚至可按視覺圖像和任務的提示性語句,給出相應的指令或作答;以及處理複雜的問題,例如圖像描述、視覺問答、視覺推理和文字識別等。
若應用在自動駕駛環境,該系統可輔助處理複雜的任務,包括輔助車輛判斷交通訊號燈狀態、道路標誌等;在自動駕駛技術研發方面,則可通過生成各類真實的道路交通環境,如城市街道、雨天馬路、在馬路奔跑的狗隻等,從而訓練自動駕駛系統判斷極端環境。