機器翻譯的前世今生（1）

首頁>資訊>火山翻譯2021-03-31 13:17

機器翻譯的前世今生（1）

我擅長進行自然語言處理，能支援55門語言互譯。曾在2020年國際機器翻譯大賽（WMT20）上殺出重圍，以顯著優勢在「中文-英語」等多個語向翻譯專案競賽上獲得世界冠軍。在和其他兄弟姐妹同時接受測評時，我也不露怯，還趁機又圈了一波粉...

你在各種場景都能見到我的身影：在大學生面對冗長的外語論文一籌莫展時；在影片製作者費勁地給影片分軸，無數次地「聽寫+暫停」時；在外國主播侃侃而談，而一旁的翻譯面露難色、有苦難言時，我都會及時出現，幫助大家解決各種翻譯問題。

知名日本藝術家村上隆首場中國直播，火山同傳提供智慧同傳字幕

早在古希臘時期就有人提出過用機器來進行語言翻譯。

到17世紀，笛卡爾（Descartes）和萊布尼茲（Leibniz）都試圖在統一的數字程式碼的基礎上來編寫詞典，提供無歧義語言。

20世紀30年代初，亞美尼亞裔的法國工程師阿爾楚尼（G.B. Artsouni）提出了用機器來進行語言翻譯的想法，並在1933年7月22日獲得了一項「翻譯機」的專利，叫做「機械腦」（mechanical brain）

1933年，前蘇聯發明家特洛揚斯基（П П ТРОЯНСКИЙ）設計了用機械方法把一種語言翻譯為另一種語言的機器，並在同年9月5日登記了他的發明。

特洛揚斯基的「選詞和印刷機」示意圖

1946年，電子計算機在美國問世，同年英國工程師布斯（A. D. Booth）和美國洛克菲勒基金會副總裁韋弗（W. Weaver）在討論電子計算機的應用範圍時，就提出了利用計算機進行語言自動翻譯的想法。

1949年，韋弗發表了一份以《翻譯》為題的備忘錄，正式提出了機器翻譯問題。在這份備忘錄中，他除了提出各種語言都有許多共同的特徵這一論點之外，還有兩點值得注意：

第一，他認為翻譯類似於解讀密碼的過程。

他說：「當我閱讀一篇用俄語寫的文章的時候，我可以說，這篇文章實際上是用英語寫的，只不過它是用另外一種奇怪的符號編了碼而已，當我在閱讀時，我是在進行解碼。」

第二，他認為原文與譯文「說的是同樣的事情」。

當把語言A翻譯為語言B時，就意味著，從語言A出發，經過某一「通用語言」（Universal Language）或「中間語言」（Interlingua），然後轉換為語言B，這種「通用語言」或「中間語言」，可以假定是全人類共同的。

時代要求往往推動著科技進步。鐵幕緩緩落下之際，特洛揚斯基已花費20年研究他的發明，後因心絞痛逝世。

1954年，美國對外聲稱已研發出能夠自動將60個俄語句子翻譯成英語的翻譯系統。雖然句子是經過精心挑選的，該系統事實上也只有250個詞及幾條翻譯規則。但這個系統的出現引發了大家對機器翻譯的熱烈討論，認為讓機器自動完成翻譯這個願望很快就能實現。軍備競賽的開始也讓加拿大、德國、法國及（特別是）日本都加入到機器翻譯競賽中。

如果給你一篇英文文章，如何將其翻譯成中文？查詞典！

我 -> （賓語）me；（主語）I來自 -> （現在時）come from；（第三人稱單數）comes from；（過去時）came from中國 -> China句式結構：漢語主謂賓 -> 英語主謂賓

==> 我來自中國 -> I come from China

翻譯員的翻譯過程

科學家開始研究翻譯員的工作，試圖讓計算機能夠重複翻譯行為。參考翻譯員的翻譯過程，科學家研發出一種機器翻譯系統，它透過研究源語言與目標語言的語言學資訊來進行，也就是基於詞典和語法等規則生成翻譯，這被稱為基於規則的機器翻譯（RBMT）。

*規則通常包含詞典、句法等，由語言學的專家制定。

基於規則的機器翻譯優點如下：

直觀、直接表達語言學共識規則比較靈活，系統理論上比較可控

缺點如下：

主觀性強、覆蓋性差、維護成本高引入新的規則容易造成衝突開發成本高，一個語言對應一個系統（語義障礙）自然語言的歧義無法解決

某市公安局宣傳語。究竟是「生活沒有出路，指望傳銷致富」還是「指望傳銷致富，生活沒有出路」？

1966年11月，ALPAC委員會公佈了一份名為《語言與機器》的報告，這份長達120頁的報告全面否定了機器翻譯的可行性，並宣稱「在近期或可以預見的未來，開發出實用的機器翻譯系統是沒有指望的」。

報告還指出，機器翻譯研究遇到了難以克服的「語義障礙」（semantic barrier）。重建巴別塔的工程遭遇了前所未有的挫折，美國政府對機器翻譯的支援停止了。

在冷戰期間，掌握英語的日本國民只佔少數，面對勢不可擋的全球化進展，日本開始積極地尋求一種高效的機器翻譯方法，讓語言不再成為日本與外界交流的障礙。

由於英日兩種語言的規則差別較大，基於規則的機器翻譯並不適用於英日翻譯。於是，在1984年，京都大學的長尾真提出使用現成的短語作為翻譯源而不是重複進行翻譯，該機器翻譯方法後被總結為「基於例項的機器翻譯」（EBMT）。

基於例項的機器翻譯的本質是「以翻譯例項為基礎，基於相似原理的機器翻譯」，其主要利用預處理過的雙語語料和翻譯詞典。該方法的顯著特點是忽略了語法和語義規則，轉而依賴大型的文字語料庫。

基於例項的翻譯過程通常包括三步：

在翻譯例項庫中搜索匹配片段。確定相應的譯文片段。利用類比思想，避免複雜的結構分析，從而重新組合譯文片段，以得到最終翻譯。

比如我們需要翻譯一個句子：「我為你感到高興。」

而在語料庫中已經儲存了一個類似句子：「我為她感到驕傲。」語料庫中也有這個類似句子的譯文。

為了翻譯第一句話，我們只需要找出兩句話的不同之處和相同之處，將不同之處進行替換即可得到最終翻譯結果。

最新評論

劇多

機器翻譯的前世今生（1）

相關內容