更多

    Microsoft 發表 VALL-E AI 模型 三秒錄音即可模仿你把聲!

    Mickey Chan
    Mickey Chan
    愛模擬飛行、希望終有一日回到單車上的宅,眼鏡娘控。座右銘: 1.膽固醇跟美味是成正比的; 2.所有人都可以騙,但絕對不能騙自己; 3.賣掉的貨才是錢,不賣的收藏品不值一文; 4.踩單車,是為了吃更多美食! 5.正義的話語,不一定出自正義之人的口;

    Microsoft 的研究人員日前發表一份研究論文,宣布他們研究出一個人工智能系統 VALL-E,只要有 3 秒鐘錄音,即能以那個人的聲線來朗讀文章,還可以改用各種語調來說話。研究人員將樣本聲音檔案放到 GitHub 上,大家可以去聽聽這些 AI 合成語音有多像真。

    這個「神經編解碼語言模型」稱為 VALL-E,它利用去年 10 月 Meta 發表的事先訓練好的 Encodec 神經音頻編解碼模型作為標記器,抽取人類的語音分割成特徵碼,VALL-E 就根據音素(要合成的文字內容)和聲學提示(3 秒鐘錄音),生成離散的音頻編碼代碼,轉化成具講者個人聲線的合成語音內容。AI 更能使用憤怒、疲倦、興奮或厭惡等不同語調來讀出內容,甚至可以同時合成講者周圍環境的雜音,例如隔著電話話筒的聲音。

    大家可以在論文的 GitHub 專案網頁試聽語音樣本,Speaker Prompt 一欄是收集得來的 3 秒鐘講者聲學提示,Ground Truth 一欄是講者親自讀出的段落,而 VALL-E 就是人工智能合成的同一段落。

    GitHub「VALL-E」專案網頁:按此

    研究人員表示,利用 VALL-E,可以製作出各種各樣語音合成應用,例如零樣本(Zero-Shot)文字轉語音、語音編輯及結合其他生成 AI 模型的內容創作。不過同時研究人員在論文中也提到這 VALL-E 有可能被用在電話詐騙上。而為了減低這潛在風險,他們建議建立另一個 AI 模型來識別由 VALL-E 合成出來的語音。

    您會感興趣的內容

    相關文章