在人際交往中,語言是最自然並且最直接的方式之一。隨著技術的進步,越來越多的人們也期望計算機能夠具備與人進行言語溝通的能力,因此,語音識別這一技術也越來越受到關注。尤其,隨著深度學習技術應用在語音識別技術中,使得語音識別的效能得到了顯著提升,也使得語音識別技術的普及成為了現實。
人工智慧最重要的就是語言。語言是人工智慧皇冠上的明珠,代表著人工智慧當中的最高水平,如果機器能夠和人對話,那這個機器肯定擁有很強的人工智慧。目前,智慧語音對話已經成為人工智慧領域最具前景、最具發展的技術領域。最近clubhouse在中國引發了一陣風潮,這款主打即時性的音訊社交軟體一時間火爆全網。clubhouse的爆紅,給新型的社交類產品帶來了新的流量紅利,尤其是以語音為媒介的社交軟體更是風靡全球。然而,這一切都離不開自動語音識別技術的支援。
自動語音識別技術,說白了就是利用計算機將語音訊號自動轉換為文字的一項技術。這項技術同時也是機器理解人類語言的第一個也是很重要的一個過程。
語音識別是一門交叉學科,所涉及的領域有訊號處理,模式識別、機率論和資訊理論、發生機理和聽覺機理,人工智慧等等。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通訊、汽車電子、醫療、家庭服務、消費電子產品等各個領域。在資訊高度化的今天,語音識別技術及其應用已成為資訊社會不可或缺的重要組成部分。
語音識別技術的發展史
語音識別技術的研究開始於20世紀50年代。1952年,AT&Tbell實驗室的Davis等人成功研製出了世界上第一個能識別十個英文數字發音的實驗系統:Audry系統。
60年代計算機的應用推動了語音識別技術的發展。動態規劃(Dynamic Planning,DP)和線性預測分析(Linear Predict,LP)兩大研究成果的問世,解決了語音訊號產生模型的問題,對語音識別技術的發展產生了深遠影響。
70年代,語音識別領域取得了突破性進展。線性預測編碼技術(Linear Predict Coding,LPC)被Itkura成功應用於語音識別,Sakoe和Chiba將動態規劃的思想應用到語音識別並提出看動態時間規整演算法,有效的解決了語言訊號的特徵提取和不等長語音匹配問題;同時提出了向量量化(VQ)和隱馬爾可夫模型(HMM)理論。在同一時期,統計方法開始被用來解決語音識別的關鍵問題,這為接下來的非特定人大詞彙量連續語音識別技術走向成熟奠定了重要基礎。
80年代,智慧語音產業迎來了新的突破發展,連續語音識別成為語音識別的研究重點之一。機率統計方法成為了語音識別研究方法的主流。1984年計算機第一次開,口說話,IBM釋出的語音識別系統在5000個詞彙量級上達到了95%的識別率。
20世紀90年代,隨著多媒體時代的來臨,迫切要求語音識別系統從實驗走向實用,許多發達國家如:美國、日本、韓國以及IBM、Apple、AT&T、NTT等著名歌手都為語音識別系統實用化的開發研究投以巨資。智慧語音產業開始進入產業化發展階段。1977年語音聽寫產品問世;1988年,成功開發出可識別上海話、廣東話和四川話等地方口音的語音識別系統;
2002年,美國首先啟動“全球自主語言開發專案”,2009年,微軟Win7 整合語音功能。
步入到21世紀10年代,智慧語音產業迎來了快速應用落地的發展局面。2011年,蘋果個人手機助理Siri誕生,2015年,首個可智慧打斷糾正的語音技術問世,2017年,智慧語音系統集中擴充套件深度學習應用技術取得突破性進展。
人機互動從理想走進現實
隨著語音識別技術的應用發展,人機互動從理想走進了現實。縱觀整個人工智慧市場領域,隨處可見人機互動的身影。從最開始的智慧音箱、到後面的智慧翻譯機、智慧錄音筆、智慧滑鼠,再到如今的智慧機器人。以機器為傳播媒介工具,透過語音識別技術,實現人機自然互動。人機互動理念的落地實施,是科技進步創新發展的最終歸宿。如今,人機互動越來越智慧便捷,人們也從真正意義上實現了人與機器對話溝通交流。
智慧翻譯機,語音識別技術落地最佳場景
眾所周知,各個國家由於語言文化的差異,導致了語言交流不通。當今世界是一個多元化、全球化的局面,合作交流日趨顯著。解決語言交流障礙已經成為了當下乃至未來很長一段時間的首要任務。智慧翻譯機的出現,解決了人們跨語種溝通交流的語言障礙。以翻譯機為傳播媒介工具,透過語音識別技術,實現人機自然互動,實時進行多國語言翻譯交流。
雲集智慧翻譯機106種語言實時翻譯交流,覆蓋近百個國家和地區,最大的限度的覆蓋落地免籤語言國家。翻譯精準,翻譯水平堪比專業的翻譯人員。伺服器遍及全球,響應速度快,0.5秒的響應速度,秒速翻譯。拍照翻譯、對話翻譯、語音翻譯、錄音翻譯、離線翻譯等多種翻譯模式隨意選擇,喜歡用哪種就用哪種。大尺寸螢幕,翻譯結果一目瞭然。外觀小巧精緻,機身比智慧手機略小,輕薄智慧,隨身攜帶方便。操作簡單,傻瓜式的操作,老人、小孩都能學會。無論是遠端與外國人溝通交流還是出國在外,都能無懼語言障礙。500人的實時群樂聊,不受時間、空間、地域的侷限。隨時隨地想聊就聊。
科技引領未來,語音識別技術的成熟發展,使我們的生活變得更加智慧化、多元化。語音指令操控將人類的雙手從勞動中解放出來。解放了生產力,釋放了生產力。受疫情的影響,無接觸式對話交流方式成為了當下最流行的互動方式。此外,我們從當前人工智慧語音識別技術的發展來看,語音識別技術雖然還不能完全解決無限制場景,無限制人群的通用識別問題,但是已經能夠在各個真實場景中普遍應用且得到規模驗證,為推動人機互動的程序,提供了強有力的技術支撐。