給你介紹一下機器學習在唇讀領域的最新進展吧。
還記得經典科幻電影《2001 太空漫遊》中的飛船主控計算機 Hall 嗎?它具有依靠閱讀說話人的嘴唇運動理解其所表達的內容的能力,這種能力也在推動那個幻想故事的情節發展中起到了至關重要的作用。2016 年 11 月,牛津大學、Google DeepMind 和加拿大高等研究院(CIFAR)聯合釋出了一篇同樣具有重要價值的論文,介紹了利用機器學習實現的句子層面的自動唇讀技術 LipNet(插句題外話,這篇論文曾被ICLR 2017 拒之門外,在學界引起軒然大波)。它不是靠語音訊號而是靠影象訊號,而且準確率十分驚人。在 GRID 語料庫上,LipNet 實現了 93.4% 的準確度,超過了經驗豐富的人類唇讀者和之前的 79.6% 的最佳準確度。
唇讀在人類的交流和語音理解中發揮了很關鍵的作用,這被稱為「麥格克效應(McGurk effect)」(McGurk & MacDonald, 1976),說的是當一個音素在一個人的說話影片中的配音是某個人說的另一個不同的音素時,聽話人會感知到第三個不同的音素。
唇讀對人類來說是一項眾所周知的艱難任務。除了嘴唇和有時候的舌頭和牙齒,大多數唇讀訊號都是隱晦的,難以在沒有語境的情況下分辨(Fisher, 1968; Woodward & Barber, 1960)。比如說,Fisher (1968) 為 23 個初始子音音素的列表給出了 5 類視覺音素(visual phoneme,被稱為 viseme),它們常常會在人們觀察說話人的嘴唇時被混淆在一起。許多這些混淆都是非對稱的,人們所觀察到的最終子音音素是相似的。
所以說,人類的唇讀表現是很差的。聽覺受損的人在有 30 個單音節詞的有限子集上的準確度僅有 17±12%,在 30 個複合詞上也只有 21±11%(Easton & Basala, 1982)。
因此,實現唇讀的自動化是一個很重要的目標。機器讀唇器(machine lipreaders)有很大的實用潛力,比如可以應用於改進助聽器、公共空間的靜音聽寫、秘密對話、嘈雜環境中的語音識別、生物特徵識別和默片電影處理。機器唇讀是很困難的,因為需要從影片中提取時空特徵(因為位置(position)和運動(motion)都很重要)。最近的深度學習方法試圖透過端到端的方式提取這些特徵。但是,所有的已有工作都只是執行單個詞的分類,而非句子層面的序列預測(sentence-level sequence prediction)。
這篇論文提出了 LipNet,這是第一個句子層面的唇讀模型。就像現代的基於深度學習的自動語音識別(ASR)一樣,LipNet 是以端到端的方式訓練的,從而可以做出獨立於說話人的句子層面的預測。我們的模型在字元層面上執行,使用了時空卷積神經網路(STCNN)、LSTM 和聯結主義時間分類損失(CTC)。
在僅有的一個公開的句子層面的資料集 GRID 語料庫(Cooke et al., 2006)上的實驗結果表明 LipNet 能達到 93.4% 的句子層面的詞準確度。與此對應的,之前在這個任務上的獨立於說話人的詞分類版本的最佳結果是 79.6%(Wand et al., 2016)。
論文還將 LipNet 的表現和聽覺受損的會讀唇的人的表現進行了比較。平均來看,他們可以達到 52.3% 的準確度,LipNet 在相同句子上的表現是這個成績的 1.78 倍。
最後,透過應用顯著性視覺化技術(saliency visualisation techniques (Zeiler & Fergus, 2014; Simonyan et al., 2013)),論文解讀了 LipNet 的學習行為,發現該模型會關注影片中在語音上重要的區域。此外,透過在音素層面上計算視覺音素(viseme)內和視覺音素間的混淆矩陣(confusion matrix),論文發現 LipNet 少量錯誤中的幾乎所有都發生在視覺音素中,因為語境有時候不足以用於消除歧義。
給你介紹一下機器學習在唇讀領域的最新進展吧。
還記得經典科幻電影《2001 太空漫遊》中的飛船主控計算機 Hall 嗎?它具有依靠閱讀說話人的嘴唇運動理解其所表達的內容的能力,這種能力也在推動那個幻想故事的情節發展中起到了至關重要的作用。2016 年 11 月,牛津大學、Google DeepMind 和加拿大高等研究院(CIFAR)聯合釋出了一篇同樣具有重要價值的論文,介紹了利用機器學習實現的句子層面的自動唇讀技術 LipNet(插句題外話,這篇論文曾被ICLR 2017 拒之門外,在學界引起軒然大波)。它不是靠語音訊號而是靠影象訊號,而且準確率十分驚人。在 GRID 語料庫上,LipNet 實現了 93.4% 的準確度,超過了經驗豐富的人類唇讀者和之前的 79.6% 的最佳準確度。
唇讀在人類的交流和語音理解中發揮了很關鍵的作用,這被稱為「麥格克效應(McGurk effect)」(McGurk & MacDonald, 1976),說的是當一個音素在一個人的說話影片中的配音是某個人說的另一個不同的音素時,聽話人會感知到第三個不同的音素。
唇讀對人類來說是一項眾所周知的艱難任務。除了嘴唇和有時候的舌頭和牙齒,大多數唇讀訊號都是隱晦的,難以在沒有語境的情況下分辨(Fisher, 1968; Woodward & Barber, 1960)。比如說,Fisher (1968) 為 23 個初始子音音素的列表給出了 5 類視覺音素(visual phoneme,被稱為 viseme),它們常常會在人們觀察說話人的嘴唇時被混淆在一起。許多這些混淆都是非對稱的,人們所觀察到的最終子音音素是相似的。
所以說,人類的唇讀表現是很差的。聽覺受損的人在有 30 個單音節詞的有限子集上的準確度僅有 17±12%,在 30 個複合詞上也只有 21±11%(Easton & Basala, 1982)。
因此,實現唇讀的自動化是一個很重要的目標。機器讀唇器(machine lipreaders)有很大的實用潛力,比如可以應用於改進助聽器、公共空間的靜音聽寫、秘密對話、嘈雜環境中的語音識別、生物特徵識別和默片電影處理。機器唇讀是很困難的,因為需要從影片中提取時空特徵(因為位置(position)和運動(motion)都很重要)。最近的深度學習方法試圖透過端到端的方式提取這些特徵。但是,所有的已有工作都只是執行單個詞的分類,而非句子層面的序列預測(sentence-level sequence prediction)。
這篇論文提出了 LipNet,這是第一個句子層面的唇讀模型。就像現代的基於深度學習的自動語音識別(ASR)一樣,LipNet 是以端到端的方式訓練的,從而可以做出獨立於說話人的句子層面的預測。我們的模型在字元層面上執行,使用了時空卷積神經網路(STCNN)、LSTM 和聯結主義時間分類損失(CTC)。
在僅有的一個公開的句子層面的資料集 GRID 語料庫(Cooke et al., 2006)上的實驗結果表明 LipNet 能達到 93.4% 的句子層面的詞準確度。與此對應的,之前在這個任務上的獨立於說話人的詞分類版本的最佳結果是 79.6%(Wand et al., 2016)。
論文還將 LipNet 的表現和聽覺受損的會讀唇的人的表現進行了比較。平均來看,他們可以達到 52.3% 的準確度,LipNet 在相同句子上的表現是這個成績的 1.78 倍。
最後,透過應用顯著性視覺化技術(saliency visualisation techniques (Zeiler & Fergus, 2014; Simonyan et al., 2013)),論文解讀了 LipNet 的學習行為,發現該模型會關注影片中在語音上重要的區域。此外,透過在音素層面上計算視覺音素(viseme)內和視覺音素間的混淆矩陣(confusion matrix),論文發現 LipNet 少量錯誤中的幾乎所有都發生在視覺音素中,因為語境有時候不足以用於消除歧義。