商湯科技( SenseTime )在 2024 世界人工智能大會( WAIC 2024 )推出首個開放給大眾的可控人物視頻生成大模型 Vimi,只需一張照片就能生成和目標動作一致而長達一分鐘的人物類短片。
Vimi 基於商湯日日新大模型,跟現有的圖片表情控制類技術只能控制面部表情動作不同, Vimi 可以精準地控制人物表情,並控制照片中人物上半身的肢體動作,自動生成與人物相符的頭髮、服飾及背景;同時也能生成光影變化,讓人物動作和視覺效果更見自然。商湯科技強調, Vimi 穩定性強,可生成長達一分鐘的單鏡頭人物類短片,比現有的相片只能生成三至四秒短片大有進步,而且畫面效果不會隨著時間變化而降低質素或失真。
用戶只需上傳不同角度的高清人物照片,便可自動生成數碼分身和不同風格的短片,所生成的人物可搭配手勢、肢體動作、頭髮郁動等,形成更完整的人物動作。對於喜愛自拍的用戶, Vimi 亦支援聊天、唱歌、舞動等。
商湯科技指出,目前行業中有 80% 短片都以人物為主要題材,加上短片、直播平台崛起,以人物為主體的短片需求大幅增長。然而,市面上缺少可控人物視頻生成的 AIGC 產品,導致內容創作者的效率有待提升。 Vimi 應運而生填補此需求,為廣大短片創作者提供簡單且易用的創作工具,可廣泛應用於人物類短片的創作。有興趣的用戶可到商湯科技官網申請試用。