Microsoft 的研究人員日前發表一份研究論文,宣布他們研究出一個人工智能系統 VALL-E,只要有 3 秒鐘錄音,即能以那個人的聲線來朗讀文章,還可以改用各種語調來說話。研究人員將樣本聲音檔案放到 GitHub 上,大家可以去聽聽這些 AI 合成語音有多像真。
這個「神經編解碼語言模型」稱為 VALL-E,它利用去年 10 月 Meta 發表的事先訓練好的 Encodec 神經音頻編解碼模型作為標記器,抽取人類的語音分割成特徵碼,VALL-E 就根據音素(要合成的文字內容)和聲學提示(3 秒鐘錄音),生成離散的音頻編碼代碼,轉化成具講者個人聲線的合成語音內容。AI 更能使用憤怒、疲倦、興奮或厭惡等不同語調來讀出內容,甚至可以同時合成講者周圍環境的雜音,例如隔著電話話筒的聲音。
大家可以在論文的 GitHub 專案網頁試聽語音樣本,Speaker Prompt 一欄是收集得來的 3 秒鐘講者聲學提示,Ground Truth 一欄是講者親自讀出的段落,而 VALL-E 就是人工智能合成的同一段落。
GitHub「VALL-E」專案網頁:按此
研究人員表示,利用 VALL-E,可以製作出各種各樣語音合成應用,例如零樣本(Zero-Shot)文字轉語音、語音編輯及結合其他生成 AI 模型的內容創作。不過同時研究人員在論文中也提到這 VALL-E 有可能被用在電話詐騙上。而為了減低這潛在風險,他們建議建立另一個 AI 模型來識別由 VALL-E 合成出來的語音。