首頁>科技>雲悅科技2021-03-30 13:06

小語種語料資源匱乏情況下的機器翻譯的解決方法一覽

機器翻譯是人工智慧領域的研究熱點和典型應用。在經濟全球化和“一帶一路”倡議的背景下，各國經濟、文化交流愈加頻繁和深入，機器翻譯的應用和產業價值日益突顯。2014年以來，隨著深度學習技術的發展，神經機器翻譯方法開始興起，機器翻譯效能得到了顯著提升。英語、法語、德語、西班牙語、漢語、日語等主要語種間的翻譯質量已經接近或達到人工翻譯的水平。神經機器翻譯方法大多屬於資料驅動的端到端模型，需要大規模的平行語料作為訓練資料。在平行語料資源匱乏的情況下，神經機器翻譯模型通常無法得到充分的訓練，很難獲得好的翻譯效果。目前效能較好的神經機器翻譯系統一般需要千萬級甚至億級的訓練資料支援，但如此巨量的訓練資料僅能在少數語言對獲得，資料來源也僅限於新聞、專利或官方記錄等少數特定領域。

據不完全統計，目前世界上共有7000多種語言，其中只有英德、英法、英漢等少數語言間具備豐富的、高質量的平行語料資源，其他大多數語言都無法提供大規模平行語料。“一帶一路”沿線國家有65個，除了中國之外的這64個國家所使用的語言大約有80種，除去多個國家採用同一種語言作為官方語言的情況外，實際使用了56種官方語言和通用語言，涉及漢藏、印歐、烏拉爾、阿爾泰、閃-含、高加索及達羅毗荼等多個語系。此外，這些國家還使用多達2400餘種的民族語言。這些國家的官方語言和民族語言絕大多數沒有成規模的平行語料庫，屬於資源匱乏語言，要想獲得這些語言的數百萬平行句對相當困難。

機器翻譯發展歷程

從認識論的角度來看，機器翻譯大體經歷了2個發展階段:基於規則的“理性主義”階段（1949-1992）和基於統計的“經驗主義”階段（1993年至今）。20世紀90年代，隨著計算機硬體運算能力的大幅提升，統計機器翻譯效能不斷增強，逐漸成為機器翻譯的主流模型。2013年，借鑑深度神經網路（Deep Neural Network，DNN）在影象處理和語音識別等領域的成功經驗，神經機器翻譯（Neural Machine Translation，NMT）開始興起，同時隨著LSTM、Attention、Transformer、BERT等技術的不斷應用和平行語料規模的不斷擴大，基於序列到序列模型的神經機器翻譯發展迅速，很多主要語種間的機器翻譯質量已經接近或達到人工翻譯的水平，神經機器翻譯已成為當前機器翻譯領域的主流模型。

統計機器翻譯和神經機器翻譯都屬於資料驅動方法，需要具備大規模、高質量的平行語料資源才能獲得好的翻譯效果。相比統計機器翻譯模型，神經機器翻譯模型不需要進行詞對齊、短語抽取、短語機率計算等處理步驟，而是採用深度神經網路學習源語言到目標語言的對映，因此，神經機器翻譯對平行語料資源的需求更加巨大。平行語料資源匱乏成為制約神經機器翻譯質量提升最主要的因素。

資料增強方法
擴充平行語料數量是提高資源匱乏語言神經機器翻譯質量最直接有效的方式之一。擴充平行語料的主要途徑包括：藉助雙語或多語詞嵌入、語言模型等，從單語資料、篇章級可比語料中自動抽取平行句對，利用回翻譯方法快速構建偽平行資料，以及針對神經機器翻譯訓練語料中詞分佈不均衡問題，基於低頻詞的資料自動增強方法等。

平行句對抽取：對於資源匱乏語言，獲取大量的平行資料是較為困難的，但獲取可比單語資料則相對簡單，因此從單語可比資料中自動抽取平行句對，成為了擴充套件機器翻譯平行語料的必然選擇。早期的平行句對抽取主要使用有監督方法，首先利用平行資料訓練一個句對抽取模型，然後利用該模型從可比單語資料中抽取平行句對。隨著雙語詞嵌入，特別是無監督雙語詞嵌入技術的發展，利用雙語或多語詞嵌入的平行句對抽取方法逐漸成為當前的主流方法。總體而言，由於抽取得到的平行句對數量有限且存在較大噪聲，平行句對抽取方法主要應用於改善已有翻譯系統，特別是無監督機器翻譯系統的效能。

偽平行資料生成：利用已有機器翻譯模型生成的偽平行語料庫可以提升機器翻譯系統的效能。該類方法的基本思想是利用已有的回翻譯系統對源語言或目標語言進行自動回譯，在此基礎上構建偽平行資料。初始的回翻譯系統一般由統計機器翻譯（Statistical Machine Translation，SMT）訓練獲得，或者直接使用雙語詞嵌入構建逐詞翻譯系統。同時為了不斷提升翻譯模型的效能，在資料生成過程中還使用了迭代回譯的思想，即反覆利用升級後的翻譯系統對偽平行資料進行過濾。目前迭代回譯已成為神經機器翻譯偽平行資料生成的標準方法，在很多機器翻譯評測任務和實際系統中得到了廣泛應用，取得了較好的效果。偽平行資料作為機器翻譯平行語料庫的有益補充，可以在一定程度上提升資源匱乏語言神經機器翻譯模型的效能。
資料增強：資料增強最初被用於提高深度學習方法在計算機視覺任務中的準確性。受該方法的啟發，近年來，機器翻譯語料庫資料增強研究方面也取得了積極的進展。與平行句對抽取和偽平行資料生成方法不同，機器翻譯資料增強是利用已有的平行句對自動生成新的平行句對，透過擴充套件語料庫的規模和豐富訓練資料的多樣性來提升資源匱乏語言機器翻譯的效能。

資料增強的核心問題主要包括兩個方面：一是要保證增強資料的語義一致性，也就是要保證生成的源句子和目標句子互為翻譯；二是要儘可能提升增強資料的多樣性，以便更好地提高翻譯模型的效能。目前主流的資料增強方法大多是基於替換的思想，首先從上下文中選擇一個單詞作為替換目標，隨後用替換詞的譯文對目標語言中的對應單詞進行替換，同時為了提高增強資料的多樣性，可以同時對一個句子中的多個單詞進行替換。替換詞一般選擇稀有詞或者實體詞等不易翻譯的詞。

基於替換的資料增強方法可以有效提高翻譯模型對詞和上下文資訊的學習，但當前的資料增強方法仍然需要平行資料的支援。在資源匱乏的條件下，少量的平行語料資源不能覆蓋單個語種複雜的語言現象，翻譯模型很難對該語言的句法特徵等進行全面和有效的學習。

學習演算法
除了擴充平行語料，提升資源匱乏語言機器翻譯效能的另一個思路是對通用的神經機器翻譯演算法進行改進，有效利用非平行資料和從其他資源豐富型語言中學習到的翻譯知識，來提升資源匱乏語言機器翻譯的效能。主要研究熱點包括：基於遷移學習的資源匱乏語言機器翻譯、基於聯合學習的多語言機器翻譯和零資源（zero-shot）翻譯、融合單語資料的半監督翻譯以及完全不使用平行資料的無監督翻譯等。
遷移學習：遷移學習是將已學到的知識遷移到一個新的相關任務以減少新任務對訓練資料的需求，因此遷移學習是緩解資源匱乏語言機器翻譯資料依賴的必然選擇之一。其基本思想是先利用資源豐富語言的資料集訓練一個翻譯模型（父模型），然後將學習到的模型引數傳遞給資源匱乏語言機器翻譯模型（子模型）作為模型的初始化引數，隨後透過資源匱乏語言的訓練資料對模型引數進行調優。遷移學習在計算機視覺、語音識別及情感分類、文字摘要等自然語言處理領域已取得了顯著的成效，對資源匱乏語言機器翻譯效能的提升也起到了積極的作用。隨著新的機器翻譯模型的提出以及新的預訓練語言模型的發展，遷移學習方法將在資源匱乏語言機器翻譯任務中發揮更大的作用。

多工聯合學習：在神經機器翻譯模型中，編碼器負責將源語言句子對映為分散式語義表示，解碼器負責將源端的分散式語義表示轉換為目標語言語句，如果不考慮注意力機制的影響，可以發現編碼器和解碼器都僅依賴於單一語言。直觀上看，不同翻譯系統中的相同源語言（例如，漢語到英語、漢語到越南語）可以共享相同的編碼器，並且相同的目標語言可以共享相同的解碼器（例如，漢語到英語、越南語到英語）。神經機器翻譯模型的這一特點為共享編碼器和解碼器的多語言聯合學習提供了可能。透過聯合學習可以將從資源豐富語言中學習到的知識應用於資源匱乏語言。基於聯合學習的多語言神經機器翻譯也成為解決資源匱乏問題的重要研究方向。針對該研究領域，相關研究機構開展了大量的研究工作，已經實現了一對多、多對一、多對多和零資源的神經機器翻譯模型，有效提升了資源匱乏語言神經機器翻譯的效能。神經機器翻譯的連續語義表示方法以及方便的引數共享機制為多語言、多工聯合學習提供了極大的便利，從目前的研究成果可以看出，該方法可以使資源匱乏語言翻譯從中受益，是未來的重點研究方向之一。
半監督學習：半監督神經機器翻譯學習是指同時利用有限的雙語訓練資料和大量的單語資料訓練翻譯模型，以緩解雙語平行資料不足帶來的模型訓練不充分的問題。單語資料可以是源語言或目標語言資料，也可以同時使用兩種資料。目前在相關研究領域主要使用基於自動編碼器的半監督學習方法和對偶學習方法，同時利用源端和目標端的單語資料提升機器翻譯模型效能，在學習過程中還使用迭代回譯方法不斷對模型進行最佳化。與偽平行資料生成方法類似，半監督學習也主要是透過回翻譯的方式將單語資料引入神經機器翻譯模型，以提高在資源匱乏語言對上的翻譯效能。但偽平行資料生成方法是透過回譯實現語料的擴充套件，不改變翻譯模型，而半監督方法主要是從模型最佳化的角度將單語資料應用於模型的訓練過程，透過引數調優提高機器翻譯模型的效能。大量研究表明，半監督學習可以有效提升資源匱乏語言神經機器翻譯的效能，也是未來的重點研究方向之一。

最新評論

劇多

小語種語料資源匱乏情況下的機器翻譯的解決方法一覽

相關內容