實時翻譯的技術突破是怎樣的？

首頁>Club>2021-02-22 20:45

實時翻譯的技術突破是怎樣的？

回覆列表

1 # 麵包c

問題基本上都出在聲訊號的收集和分析這方面。聲訊號要怎麼樣收集才能完美降噪和如何識別各種口音甚至方言。就像我講著一口廣式普通話，你說著日式英語一樣，系統要怎麼樣識別我們帶的口音是一項比較麻煩的工程，一旦這個問題能解決，後邊的翻譯也就迎刃而解了

2 # DeepTech深科技

入選理由：雖然現有硬體並不那麼好用，但谷歌 Pixel Buds 卻展示了實時翻譯的前景

技術突破：近實時翻譯適用於多種語言，而且使用起來很方便

重大意義：在全球化日益發展的今天，語言仍是交流的一大障礙

主要研究者：谷歌、科大訊飛、百度、騰訊、搜狗、清華大學、哈爾濱工業大學、蘇州大學等
成熟期：現在

《麻省理工科技評論》在2月21日正式揭曉2018年“全球十大突破性技術”，其中一項就是實時翻譯耳塞，不過，耳塞只是用以實現實時翻譯的硬體載具之一，除了耳塞，也有業者推出小型的翻譯機，但耳塞的便攜性、人體貼近性較高，而且耳塞幾乎是手機使用者人人必備，商業潛力還是較其他硬體來得大。

而這類的硬體是怎麼提供實時翻譯的？主要有三大核心：自動語音識別（Automatic Speech Recognition）＋機器翻譯（Machine Translation）＋語音合成（Speech Synthesis、或稱Text to Speech）。簡單來說，整個運作流程就是：耳機聽到對方講話的內容，第一步先辨識出這是什麼語言如英文、西班牙文等，並且把語音轉成文字，第二步利以翻譯引擎進行文字對文字的翻譯，把原始語言翻成目標語言，最後一步就是把翻出來的內容進行語音合成，播放出來。可以想成是集合了聽寫員、翻譯員、朗讀員三個角色於一身。
硬體要支援實時翻譯，麥克風就很關鍵，收音要夠清楚，語音識別度才會高，上多會使用指向性麥克風，並且搭配語音識別演算法，判斷聲音是來自講話者或周圍環境，進而強化人聲，降低環境噪音的干擾。目前自動語音識別框架多是使用深度神經網路（DNN，Deep Neural Network）、遞迴神經網路（RNN，Recurrent Neural Network）。

最重要的核心則是機器翻譯，翻得好或不好是決定使用者體驗的最大原因。機器翻譯的歷史悠久，初期是採取把語言規則寫進系統的方式，也就是以規則為主的機器翻譯（RBMT，Rule-based Machine Translation），到了80年代晚期，IBM 率先展開並提出統計式機器翻譯（SMT，Statistical Machine Translation）理論，一直到2016 年下旬 Google 正式發表翻譯服務上線以來最大改版，宣佈轉向採用類神經機器翻譯（NMT，Neural Machine Translation），也就是現在大家耳熟能詳的深度學習神經網路模型，以多層次的神經網路連結原文與譯文，輸出的字詞顧慮到全句文脈，一舉提升翻譯的水平，目前NMT是機器翻譯的主流。
而語音合成部分，現今的重點在於如何生成更逼真的語音、更像人類說話的口氣跟語調。目前DeepMind開發的WaveNet算是此領域的佼佼者，不僅考慮了音訊樣本，還要加入文字內容，甚至還可以做出像人類講話時的口氣停頓或是呼吸的聲音，讓WaveNet的語音合成更有“人味”。
3 # Aaron148573635

扯淡的技術！還實時翻譯！你就給我中文傳中文！人都能理解錯了！你告訴我如何程式設計？教機器不出錯！現在的聲音語義識別邏輯永遠別想什麼翻譯人類語言！人類的語言是最他媽不靠譜的！你不是難為機器麼

∧ 中秋節和大豐收的關聯？

∨ 我們天天講四大名著，不知道有多少人認真全部精讀過這四部書？為什麼很多人讀不下去？

熱門排行

劇多

實時翻譯的技術突破是怎樣的？