一張相就能生成談話影片　Google Research 發表 VLOGGER AI 生成系統

Google Research 日前發表一個名為 VLOGGER 的 AI 影片生成系統，只要提供一張相片，就能生成一段高質素那個人說話的影片，而且不單只有臉或嘴唇在動，甚至可以生成手勢和身體動作，相當像真，令人想到合成人類影片將會愈來愈難以分辨。

不同人種膚色、不同口音都可以合成出自然的影片。

研究人員在網站發表一系列不同合成人物對話影片，片中有不同種族膚色的人，拍攝角度和範圍都有不同，不一定是正面對著鏡頭，連口音和語言都不同，大部分看起來都栩栩如生，說話時能以改變姿勢和手勢來表達，除了部分嘴唇周圍長了濃密鬍子的人比較容易看出破綻之外，大部分人都很像真。如果在低頻寬下進行視像通訊，相信不少人也不會知道對手原來是合成出來的。

VLOGGER 是文字及音頻驅動的人類說話影片生成方法，建基於生成擴散模型，使用的方法包括隨機人體到 3D 動作擴散模型，和基於創新的擴散架搆，透過時間和空間控制來增強文生圖模型。這方法可以生成長度可變的高質素影片，透過高度的人臉和身體表達，能輕易控制影片。而且不需要針對不同人物進行訓練，也不倚靠人臉檢測和裁切，可以生成完整的圖像而不單是臉部或嘴唇，並考慮到對正確合成出溝通對象人物至關重要的各種情況，例如可見到軀幹或不同主體身份。

整個人的姿勢和手勢都是合成出來的，而不單是生成臉部或嘴唇。

嘴唇和眼睛都可以控制

研究人員又開發了一套新的多樣化資料集 MENTOR 來訓練 VLOGGER 模型，當中包含 3D 姿勢和表情標註，與及動態手勢，規模比以前的數資料集大一個數量級，達 80 萬個特徵。

研究人員期望新的人物合成影片方法能產生全新的應用案例，例如加強網上通訊、教育或個人化虛擬助理，成為「具身體的聊天代理」。不過這也不禁令人擔心 Deepfake 詐騙更容易，因為只要一張相就可以生成影片。

影片翻譯是未來 VLOGGER 其中一個應用案例。

一張相就能生成談話影片　Google Research 發表 VLOGGER AI 生成系統

睇片都中招！Apple 多個 OS 同時發布更新修補重大漏洞

對華 104% 關稅啟動　iPhone 要賣 $2,300 美元起？

左手買起右手？X 收歸 xAI 旗下

最新影片

您會感興趣的內容

相關文章

一張相就能生成談話影片 Google Research 發表 VLOGGER AI 生成系統

最新影片

您會感興趣的內容

相關文章

一張相就能生成談話影片　Google Research 發表 VLOGGER AI 生成系統