為什麼語音助手需要聯網才能正常工作？

首頁>Club>Theroadofreconstr...2021-04-20 07:43

為什麼語音助手需要聯網才能正常工作？

回覆列表

1 # 17看科技

智慧手機普及的同時，也是帶來了它的小尾巴，我們稱之為是智慧語音助手。像現在的很多智慧手機都是有著自己的智慧語音助手，比如蘋果的Siri，華為的小藝，小米的小愛同學等。

推出這個智慧語音助手的目的，則是為了更好的方便我們控制和使用手機，有時候不方便拿起手機的時候，我們是可以透過語音快速喚醒它們，讓它們幫助我們做一些事情，比如撥打電話給某某，定一個鬧鐘什麼的。
不過對於智慧語音助手的功能，有些使用者還是太高估了。讓它們做一些命令性的事情，問題是不大的，可要是讓它們和我們持續的進行對話，所回答的內容有時候根本牛頭不對馬嘴的。

好在現在的智慧語音助手要比之前強大很多了，能慢慢的明白什麼是搜尋，什麼是回答，在很多情況下，回答不出來的問題是會有兩個解決方案。一個是直接說回答不了，問題超綱了。

另外一個是直接搜尋其中重要的內容，這裡我們只能說智慧語音助手還需要進行很大改進，不然就會像雞肋一樣被使用者所拋棄的。然而，有一個問題不知道你們注意到沒有，在沒有網路的情況下，智慧語音助手還能好好的發揮嗎？

這裡我們用華為的小藝進行了實驗，手機解鎖以後，我們透過語音喚醒小藝，讓它回答一些簡單的問題基本是沒有問題的。當我們禁止它連線網路以後，再來問相同的問題，我們是得到了下面的圖片。
直接提示網路連線超時，請檢查網路設定，而且僅限於是文字交流，用語音交流的話是根本不能識別的。也就讓我們想到了上面的問題，如果智慧語音助手在沒有網路的情況下，是不能正常工作的。

原因應該是有這幾點，第一點是聯網以後，可以快速的識別我們的語言，我們所說的話立刻能以文字的形式顯示在手機上，包括我們說的英文也是可以識別的。第二點是明白了我們說的話以後，它是需要進行搜尋或者是回答。

這就涉及到它的學習能力，哪些問題是它能回答的，哪些是不能回答的。如果是不能回答，那麼它會立馬啟動搜尋程式，這一過程肯定是需要聯網的。或者你可以問它馬雲是誰。

給出的答案絕對是網頁上搜索到的。第三點是對遇到問題的反饋，我們的問題回答不上來的時候，應該是會有一種記憶機制在裡面，透過不斷的積累與多方面的學習，是慢慢的可以將這些問題解決的。
等到我們再一次詢問的時候，是可以回答上來的。不過這個時間會比較長，而且目前在市面上的智慧語音助手，沒有覺得哪個是非常的強大，它們的根本還在於學習，只能說智慧語音助手還有很長的路要走。

那麼你們對於手機智慧語音助手怎麼看的，覺得自己手機上的它功能夠強大嗎，另外在使用智慧音箱的時候，是否能達到你們的要求呢？

2 # 蜉蝣看天地

我們將語音助手看作一個人。一個人從學說話到能夠清晰的接受別人的資訊並作出回答需要經過很多次的學習和訓練：如爸爸媽媽反覆對寶寶說一些重複的話，於其他人交流等。這一個過程是比較漫長的，而且需要不斷重複。
語音助手的訓練過程也是如此，需要大量的訓練，以及不同的人與之交流上傳資料。顯然，這樣的訓練在單獨一個人的裝置中是無法完成的，我們的裝置也無法儲存雲端中如此多的資料，處理器的執行速度也不足以處理如此多的資料。因此目前語音助手只能交接到雲端，在雲端處理好之後再發到手機中，呈現給你。
3 # 姚鶴鶴

從iPhone4S開始，語音助手Siri成為了蘋果系列的標配，為使用者提供了一種新的人機互動體驗，而現如今語音助手已經成為了越來越多手機以及其他智慧電子終端的標配功能。

在使用過程中會發現，該功能必須聯網才能使用，之所以這麼設計，是受到手機端算力不足，儲存空間面對海量資源有限導致的，簡單來說就是在保證同等體驗的情況下，“臣妾做不到啊”。

為了解釋這個觀點，接下來按照以下幾個維度進行解釋：

語音助手的基本流程

主要技術的實現原理

雲端實現的產品優勢
語音助手的基本流程
要想弄清楚為什麼語音助手需要聯網才能使用，先要明白當前語音助手的背後的實現原理是什麼。

如上圖所示，簡單的繪製了語音助手的基本流程框架，其中ASR，NLP，TTS均為雲端服務，這三個環節的主要作用如下：

ASR（Automatic Speech Recognition），即自動語音識別技術，類似於人的耳朵，該環節會將接收到的語音訊號，轉換為文字訊號，這樣才能讓計算機做後續的處理。
NLP（Natural Language Processing），即自然語言處理，類似於人的大腦，該環節透過文字以及上下文邏輯理解客戶的意圖，並提供最佳答案回覆。

TTS（Text To Speech），即從文字到語音，類似於人的嘴巴，該環節會將NLP返回的文字結果轉換為語音訊號，並傳遞給播放器播放出來。

這三個技術環節構建起了整個語音對話的核心。

語音對話技術為什麼不能在手機或者其他智慧硬體端實現，而需要聯網才能使用，取決於這三個環節目前無法在保證使用者體驗的情況下在手機端離線實現。
主要技術的實現原理
以目前市面上已經商用化的語音對話實現技術來看，可以將ASR，NLP，TTS的資料簡單整理如下表所示：
看起來很懵？那就對了！

看上去非常簡單的語音互動，實際上主要的技術環節就涵蓋了表中的主要環節。從常見應用技術中可以看出，裡面多個環節均涉及到了機器學習、深度學習。同時對於音訊的處理中也需要大量的卷積操作。

聽不太懂也沒有關係，只要知道這個過程很難就可以了。手機端由於體積的考慮，成本的考慮，續航的考慮，重量的考慮，散熱的考慮等等，比起伺服器而言，尤其是支援GPU進行併發浮點運算的伺服器，運算資源是非常少的。

為了更形象的說明，使用2016年釋出的iPhone 7 Plus與2013年釋出的iMac14,1進行一場跑分比賽，具體結果如下表所示：

可以看出，一個領先兩年的旗艦手機，也無法與兩年前的PC機抗衡，更不用說伺服器端了。
因此在手機上支援上述表中的所有環節，實在是巧婦難為無米之炊。
雲端實現的產品優勢
目前整個語音對話因為種種原因，需要在雲端進行識別，該解決方案的思路就是用聯網依賴換產品體驗，這個產品體驗具體體現在什麼地方呢？

線上識別的ASR，可以提供更加準確的語音識別，降低因為語音識別造成的答非所問；

線上處理的NLP，可以提供海量資源，比起手機端的本地資源，可以視伺服器端的歌曲內容資源是無窮大的；

線上處理的TTS，更加擬人化，讀音準確，對於多音字的發音更加準確；

線上的資源方便及時進行升級，而不需要手機端修改任何東西。例如：最近網路的熱門網路用語，愛豆最新出的歌曲名稱等，產品和程式設計師均可以在雲端進行快速升級最佳化；
雲端由於優秀的處理能力，及時計算上網路鏈路的延時，也會比手機本地提供的離線語音對話服務更加快速。

到目前為止，可以較為清晰的明白這麼涉及的原理是什麼了。在產品的設計過程中，無法做到完美，及時喬布斯一樣的奇才，也在產品設計中面臨著各種妥協。
回味一下
我們在產品的設計中如果也面臨同樣的問題，也會面臨取捨，那麼有兩個關鍵因素需要明確：

使用者的核心訴求是什麼，為了滿足其核心訴求，使用者可以做妥協的程度有多少。

類似語音助手，雖然產品設計只有在聯網時才能使用，給使用場景做了很大的限制，但是比起一個離線的語音對話，聯網的語音對話更像是和一個不聾不啞，無所不知的智者交談。
解決方案的天花板不要限制了產品的想象力

類似語音助手，一個完全執行在本地的產品，處處將會受到硬體資源的影響而無法大展宏圖，如果是核心不可取代的產品，否則很容易淪為雞肋。

產品設計迎合社會發展趨勢

類似語音助手，隨著5G網路的普及，隨著人機對話技術的發展，隨著知識圖譜的逐步完善，“只能聯網才能使用”也許將不再是問題。

劇多

為什麼語音助手需要聯網才能正常工作？

相關內容