製作教材、Powerpoint 、短片、影片等,往往要加入對白解說,但單靠人手錄音倒是很花時間及成本,利用生成式 AI 自動將文字轉為語音(Text to Speech,TTS)可以大省功夫,有助加快短片製作時間。網上有不少服務免費供用戶試用,而對於有很多同字異音,又或者同一個字因語氣不同而變調的廣東話,AI 又能否準確讀出對白呢?哪個 TTS 最能掌握廣東話呢?小編今次以周星馳電影《國產凌凌漆》內的經典對白,測試一下哪個平台最準確、最好用。
為免結果差異太大,小編收聽網站提供的示範後,選了較為順暢的一把男聲( WanLung)來測試。原文來自周星馳電影《國產凌凌漆》內的經典對白:
今次我接受國家嘅任務
亦都係有備而黎
好似呢個 Model F40 咁樣
表面上係個大哥大電話
實際上佢係一個鬚刨嚟
呢個係方便我哋出席一啲宴會場合
能夠神不知鬼不覺咁剃鬚
結果:Micmonster、Narakeet、Speechactors 及 TTSFree (Server 2)的對白變成:
今次我接受國家嘅任務
亦都係有備而黎
好似呢個 Model F40 噤(gam3)讓( joeng6)
表面上係個大哥大電話
實際上佢係一個鬚咆 (paau4)
呢個係方便我哋出席一啲宴會場合
能夠神不知鬼不教(gaau3)噤(gam3)剃鬚
Micmonster 、 Speechactors 及 TTSFree (Server 2)所提供的聲音選擇均一模一樣,明顯是採用同 AI 引擎,而 Narakeet 雖然有較多聲音選擇,不過對白結果也跟前三個平台一樣,沒有換調或讀出正確讀音,相信也是建基在同一 AI 引擎。而 Narakeet 最好的地方是用文字作為語音檔案名稱,方便用戶快速得知檔案內容。
按上述對白,只有 TTSFree (Server 1)及 Fineshare 可以完全正確地讀出對白,兩個平台採用另一個 AI 引擎。就這兩個平台,小編再找另一段電影《食神》的對白來測試:
魚蛋亦都冇魚味,但係你為咗掩飾,專登加啲咖喱汁將佢做成咖喱魚蛋。
但係咁做太天真喇!因為你煮嘅時間唔夠,咖喱味根本只係喺表面,
而冇入到裡面,掂到湯之後重要沖走埋,好好地一粒咖喱魚蛋,
俾你整到冇魚味亦都冇咖喱味,失敗!
蘿蔔冇揀過啦,太多渣,失敗!
啲豬紅鬆泡泡,一夾就散,失敗中嘅失敗!
這段對白整體有帶語氣,算是高水準,只是最後一段的鬆泡泡(paau1 paau1,音咆)讀成鬆抱抱(pou5 pou5);一夾就散(saan2,音粣)讀成一夾就傘(saan3)。
就 TTSFree (Server 1)及 Fineshare 作比較,論使用介面後者來得比較簡潔,免費版試過超出 500 字亦能轉換;反之 TTSFree (Server 1)有大量廣告,介面較為騷擾,字數亦強制在 500 字之內,檔案轉換後必須觀看廣告才能下載,但轉換前提供音階及說話速度調校。
用戶若使用免費版本將文字轉換成廣東話語音,推薦選用 TTSFree (Server 1),字數太多惟有分幾次轉換。當然,各大平台均設有收費版本,大部分支援上載文件直接轉換及音校調校功能,需要進階應用的用戶建議選擇收費版本。以 TTSFree 為例,年費 50 美元的服務,功能包括:每次轉換最多 10,000 個字、無限轉換、超過 200 個聲音及 50 種語言選擇,支援語音合成標記語言(SSML),以及加入音樂背景等。
免費 TTS 平台簡介
另外,在使用 TTS 時的處理文字有些建議,能讓大家用起來更就手:
- 為對白加標點符號,有助 AI 辨別語氣,生成更貼近真人說話。
- 句與句或行與行之間加一行留白,以便後期編輯刪剪。
- 在第一次轉換後仔細收聽,遇上同字異音字換上正確讀音字,不要介意是否屬正字,有助減少因讀字不正確而多次轉換的麻煩。