聽障人士要獲悉外界資訊,讀唇應是最直接的方式。牛津大學人工智能(AI)實驗人員近日發布讀唇 AI 系統 LipNet,準確率比人類高得多,究竟世上還有什麼任務可以難到 AI?
一般人嘗試讀唇,大約每十個字才看懂一個字,即使曾接受專業讀唇訓練,表現亦因人而異。最近牛津大學發布了一個讀唇 AI LipNet,可快速讀取靜音影片中的人物說話,並將之轉化為文本,準確度更可高達 93.4 % ,比人類讀唇專家的 52.3% 高得多。
[ot-video][/ot-video]
然而, LipNet 系統卻被指有嚴重的限制,未能應用於現實生活。整個 AI 系統的訓練及測試均建基於一個數據資料庫 GRID ,內含 29,000 條影片,當中 34 個自願者在 3 秒短片中朗讀無意義,且句式一樣的句子,指令詞彙及文法變化亦相當有限,因而被指誇大了研究成效。同時,LipNet 亦引起人們對私隱及監視的關注。
研究人員則反駁,指 LipNet 在龐大的數據下依然可維持良好表現,更大派定心丸,指 LipNet 需要在良好光線下才可清晰讀唇,因此偷拍或監視別人並非易事。他們期望 LipNet 可協助改善助聽儀器、在公開場合轉譯講者的口述文字,甚至應用至 Siri 或 Google Assistant,讓懶惰用家只需動動嘴巴,便可發出指令。