幾十年來的自然語言處理研究幾乎都是以文字為處理物件,而文字只是語義表達的一種方式,也是不完備的。很多自然語言的語義理解需要結合語音和影象等其他模態的資訊,例如英語句子中“bank”可能需要藉助影象是“銀行”還是“河岸”去進行理解。基於多模態的自然語言處理旨在以自然語言文字為核心,將與之相關的語音和視覺模態的資訊作為輔助知識進行建模,幫助語 義的消岐和理解,從而實現效能更好的自然語言處理模型。
基於多模態資訊的自然語言處理需要解決兩大難題。首先,需要明確哪些自然語言處理任務需要多模態資訊的幫助。其次,文字、語音和視覺模態的資訊如何進行融合。特別地,還需要明確同源多模態資訊和異源多模態資訊是否應該具有相同的語義融合正規化。由於人類是在多模態的環境下進行語言理解的,因此,基於多模態資訊的自然語言處理方法必將是未來該領域研究的一個重要方向。
互動式自主學習的類腦自然語言處理目前絕大部分自然語言處理方法幾乎都是全域性的和靜態的,無法實時(線上)從錯誤和使用者反饋中學習和最佳化過程,從而模擬人類互動學習和終身學習的智慧行為。互動式自然語言處理旨在從與使用者的互動過程中收集、建模和利用反饋資訊,不斷迭代和最佳化自然語言處理模型。線上方法能夠被動或主動地發現錯誤,並根據錯誤實現線上學習和動態更新機制,最終建立一套自主學習框架。
基於神經網路的深度學習方法在近年來備受推崇,它在某種意義上的確模擬了人腦的認知功能。但是,這種方法只是對神經元結構和訊號傳遞方式給出的形式化數學描述,並非基於人腦的工作機理建立起來的數學模型,它同樣難以擺脫對大規模訓練樣本的依賴性。類腦語言資訊處理旨在透過研究大腦的語言認知機理,分析認知機理與文字計算方法之間的關聯,最終設計語言認知啟發的自然語言處理模型。
目前人們只是在宏觀上大致瞭解了腦區的劃分及其在語言理解過程中所起的不同作用,但在介觀和微觀層面,語言理解的生物過程與神經元訊號傳遞的關係,以及訊號與語義、概念和物理世界之間的對應與聯絡等,都是未知的奧秘。如何打通宏觀、介觀和微觀層面的聯絡並給出清晰的解釋,將是未來急需解決的問題。從微觀層面進一步研究人腦的結構,發現和揭示人腦理解語言的機理,借鑑或模擬人腦的工作機理,建立形式化的數學模型才是最 終解決自然語言理解問題的根本出路。此外,人腦的語言理解過程遵循自主學習和進化機制,而目前語言資訊處理模型仍然採用一次學習終身使用的機制。因此,如何借鑑人腦的語言認知與理解機理,設計具備自主學習和進化的自然語言理解模型,是通向類人智慧語言處理的必經之路。
複雜場景下的語音分離與識別在真實場景中,麥克風接收到的語音訊號可能同時包含多個說話人的聲音以及噪聲、混響和回聲等各種干擾,人類的聽覺系統可以很容易地 選擇想要關注的內容,但是對於計算機系統來說 就顯得十分困難,這就是所謂的“雞尾酒會問題”
(cocktailparty problem)。如何有效提升複雜通道和強幹擾下的語音的音質,進一步探索複雜場景下的聽覺機理,對語音聲學建模和語音識別均具 有很重要的意義。
此外,重口音、口語化、小語種、多語言等複雜情況,也對語音模型的訓練帶來很大挑戰,這種複雜性使得語音資料變得稀疏,現有的方法難以形成泛化能力很強的模型。因此,如何有效解決這些 複雜情況下的語音識別問題依然具有很高的挑戰性和研究價值。
小資料個性化語音模擬儘管目前語音合成技術在特定資料集和限定條件下能合成出逼近真人的語音,但是仍然存在一些問題,比如雖然語音合成的發音和真人類似,但發音風格比較單一,且經常需要較多的語音資料作為訓練資料。在真實場景中,發音人說話比較隨意和口語化,且大多數情況下只能獲取很少量音質較低的訓練資料,這些資料普遍缺乏標註,給真實場景下個性化語音模擬帶來很多挑戰。此外,由於個性化語音資料存在資料稀疏問題,阻礙了在稀疏空間下精準捕捉目標說話人的韻律特徵和有效構建說話人發音表徵,從而很難構建出高泛化性和高魯棒性的語音模擬模型。因此,如何有效利用數量少且音質低的語音資料,獲得高表現力個性化的模擬語音,仍然具有較大的挑戰和重要的研究價值。