-
1 # 麵包c
-
2 # DeepTech深科技
入選理由:雖然現有硬體並不那麼好用,但谷歌 Pixel Buds 卻展示了實時翻譯的前景
技術突破:近實時翻譯適用於多種語言,而且使用起來很方便
重大意義:在全球化日益發展的今天,語言仍是交流的一大障礙
主要研究者:谷歌、科大訊飛、百度、騰訊、搜狗、清華大學、哈爾濱工業大學、蘇州大學等
成熟期:現在
《麻省理工科技評論》在2月21日正式揭曉2018年“全球十大突破性技術”,其中一項就是實時翻譯耳塞,不過,耳塞只是用以實現實時翻譯的硬體載具之一,除了耳塞,也有業者推出小型的翻譯機,但耳塞的便攜性、人體貼近性較高,而且耳塞幾乎是手機使用者人人必備,商業潛力還是較其他硬體來得大。
而這類的硬體是怎麼提供實時翻譯的?主要有三大核心:自動語音識別(Automatic Speech Recognition)+機器翻譯(Machine Translation)+語音合成(Speech Synthesis、或稱Text to Speech)。簡單來說,整個運作流程就是:耳機聽到對方講話的內容,第一步先辨識出這是什麼語言如英文、西班牙文等,並且把語音轉成文字,第二步利以翻譯引擎進行文字對文字的翻譯,把原始語言翻成目標語言,最後一步就是把翻出來的內容進行語音合成,播放出來。可以想成是集合了聽寫員、翻譯員、朗讀員三個角色於一身。
硬體要支援實時翻譯,麥克風就很關鍵,收音要夠清楚,語音識別度才會高,上多會使用指向性麥克風,並且搭配語音識別演算法,判斷聲音是來自講話者或周圍環境,進而強化人聲,降低環境噪音的干擾。目前自動語音識別框架多是使用深度神經網路(DNN,Deep Neural Network)、遞迴神經網路(RNN,Recurrent Neural Network)。
最重要的核心則是機器翻譯,翻得好或不好是決定使用者體驗的最大原因。機器翻譯的歷史悠久,初期是採取把語言規則寫進系統的方式,也就是以規則為主的機器翻譯(RBMT,Rule-based Machine Translation),到了80年代晚期,IBM 率先展開並提出統計式機器翻譯(SMT,Statistical Machine Translation)理論,一直到2016 年下旬 Google 正式發表翻譯服務上線以來最大改版,宣佈轉向採用類神經機器翻譯(NMT,Neural Machine Translation),也就是現在大家耳熟能詳的深度學習神經網路模型,以多層次的神經網路連結原文與譯文,輸出的字詞顧慮到全句文脈,一舉提升翻譯的水平,目前NMT是機器翻譯的主流。
而語音合成部分,現今的重點在於如何生成更逼真的語音、更像人類說話的口氣跟語調。 目前DeepMind開發的WaveNet算是此領域的佼佼者,不僅考慮了音訊樣本,還要加入文字內容,甚至還可以做出像人類講話時的口氣停頓或是呼吸的聲音,讓WaveNet的語音合成更有“人味”。
-
3 # Aaron148573635
扯淡的技術!還實時翻譯!你就給我中文傳中文!人都能理解錯了!你告訴我如何程式設計?教機器不出錯!現在的聲音語義識別邏輯永遠別想什麼翻譯人類語言!人類的語言是最他媽不靠譜的!你不是難為機器麼
回覆列表
問題基本上都出在聲訊號的收集和分析這方面。聲訊號要怎麼樣收集才能完美降噪和如何識別各種口音甚至方言。就像我講著一口廣式普通話,你說著日式英語一樣,系統要怎麼樣識別我們帶的口音是一項比較麻煩的工程,一旦這個問題能解決,後邊的翻譯也就迎刃而解了