Google Research 日前發表一個名為 VLOGGER 的 AI 影片生成系統,只要提供一張相片,就能生成一段高質素那個人說話的影片,而且不單只有臉或嘴唇在動,甚至可以生成手勢和身體動作,相當像真,令人想到合成人類影片將會愈來愈難以分辨。
研究人員在網站發表一系列不同合成人物對話影片,片中有不同種族膚色的人,拍攝角度和範圍都有不同,不一定是正面對著鏡頭,連口音和語言都不同,大部分看起來都栩栩如生,說話時能以改變姿勢和手勢來表達,除了部分嘴唇周圍長了濃密鬍子的人比較容易看出破綻之外,大部分人都很像真。如果在低頻寬下進行視像通訊,相信不少人也不會知道對手原來是合成出來的。
VLOGGER 是文字及音頻驅動的人類說話影片生成方法,建基於生成擴散模型,使用的方法包括隨機人體到 3D 動作擴散模型,和基於創新的擴散架搆,透過時間和空間控制來增強文生圖模型。這方法可以生成長度可變的高質素影片,透過高度的人臉和身體表達,能輕易控制影片。而且不需要針對不同人物進行訓練,也不倚靠人臉檢測和裁切,可以生成完整的圖像而不單是臉部或嘴唇,並考慮到對正確合成出溝通對象人物至關重要的各種情況,例如可見到軀幹或不同主體身份。
研究人員又開發了一套新的多樣化資料集 MENTOR 來訓練 VLOGGER 模型,當中包含 3D 姿勢和表情標註,與及動態手勢,規模比以前的數資料集大一個數量級,達 80 萬個特徵。
研究人員期望新的人物合成影片方法能產生全新的應用案例,例如加強網上通訊、教育或個人化虛擬助理,成為「具身體的聊天代理」。不過這也不禁令人擔心 Deepfake 詐騙更容易,因為只要一張相就可以生成影片。