在許多的科幻電影中,機器人被描述的與人類無異:無論是其外觀,還是其說法方式,都看不出與人類的差別,甚至產生一段“人機戀”。不過就現階段而言,機器人尚未發展到這種程度,特別是若要機器人與人類產生戀情,聲音與交流將是非常關鍵的一環。
為了讓語音助手的發聲更像人類,從而能進一步提升這類產品對消費者的吸引力,眾多巨頭都做了很多努力,希望讓語音助手的發聲更自然,也更口語化,就像你在與真人交流那樣,從而為消費者帶來更真實、更貼近生活的語音助手。
谷歌用機器學習最佳化語音助手
谷歌近期就釋出了全新的AI語音合成器,一個名為“Cloud Text-to-Speech”的服務,能讓語音助手聽起來更自然更口語化,服務於需要語音合成服務的開發者或企業,無論是應用、網頁還是虛擬助理均可使用。其特別之處在於,“Cloud Text-to-Speech”透過谷歌旗下人工智慧子公司DeepMind開發的WaveNet來驅動。
據瞭解,DeepMind的AI語音合成技術是目前行業最先進、最可實現的技術之一:大部分語音合成器(包括Siri)都使用了“連接合成”技術——程式會儲存單個音節,然後再將其組合到一起,形成單詞和句子,雖然這種方法近年來不斷進步,但聽起來還是非常呆板生硬。相比之下,WaveNet使用了機器學習來從頭生成語音。
實際上,WaveNet分析了一個巨大人類語音資料庫的波形,並以每秒2.4萬個樣本的速度對其重新建立,從而能讓我們感受到一些微妙的變化,包括口音和唇音等。它之前已經被整合到Google Assistant中(儘管只支援英文和日文),現在則擁有了更多選擇。谷歌表示,新服務可提供12種語言的32種不同聲音能力,而且使用者可以定製高音和語速等細節。
微軟蘋果等也要讓語音助手像人類
據瞭解,微軟同樣利用機器學習等技術讓Cortana聲音更接近人類:Cortana會根據使用者當前對話情景進行情感分析,從而控制自己的語音和語調,產生相應語氣。此外,Cortana更像人也與其聲音來源(Jen Taylor,為《光環》遊戲Cortana配音)有關,“就閒聊部分,全部都是Jen Taylor的聲音;其他部分將由其他聲音混合使用”。
蘋果在iOS 11釋出時這樣評價SIri,“它很自然!一點都不像機器人!”這是因為和過去相比,siri說話時會在句子間加入更多的停頓,更多的長音,更輕快的語調變化,因此它將會比過去更流暢,更像“人”;此外在學會一門新語言的過程中,Siri團隊試圖找到每一個音所有的說法,比如連讀、輕讀、重音、長音、升調、降調等等。
語音助手的競爭很激烈
在人機互動方面,語音助手正在引領AI為主導的下一代人機互動時代,引發了眾多科技公司的競逐:國內的百度搜狗科大訊飛,以及國外的微軟谷歌蘋果亞馬遜等公司都非常重視語音互動技術,試圖讓語音互動變得更為實用,從而能爭奪新時代下的超級入口。據媒體報道,Spotify也正測試其語音助手,將讓消費領域的語音助手之爭變得更加激烈。
科技公司也瞄準了語音助手在企業領域的前景。前段時間,IBM正式釋出了沃森助手(Watson Assistant),可以置於多種平臺,如汽車、酒店或家電等。據IBM稱,Watson是一個企業助理,旨在幫助企業提高他們的消費者體驗。亞馬遜則於去年11月公佈了企業版Alexa,允許企業開發定製功能,並把Alexa置入各種產品中。可以預見,無論是技術研發,還是產品落地,各大公司都會針對語音互動技術展開激烈競逐。
語音助手走向成功仍需進化
雖然語音助手的發展正如火如荼,但必須要承認,語音助手想要真正成功仍需進化。比如亞馬遜Alexa智慧音箱發出的怪笑事件,就引發了不少使用者恐慌,凸顯出語音助手技術的不完善:特別是某些情況下,即使沒有語音喚醒,Alexa裝置也發出了莫名其妙怪笑聲。
語音助手不夠“智慧”也是老生常談的話題(目前的語音助手不過是個高階玩具),包括回答問題的準確性、理解使用者需求、提供個性化建議等等。事實上,依然有不少使用者並未接觸到語音助手,或折即使有時候,但頻率較低,都表明了語音助手還有較長的路要走。
寫在最後
隱私問題也是語音助手發展路上不容忽視的問題,比如Siri近期被曝出的“能在裝置鎖定時讀取隱藏資訊,並可能將讀取到的資訊公之於眾”的漏洞,就讓不用擔心:伴隨著語音助手的進一步普及,提供語音助手服務的公司真能保證隱私不被洩露嗎?若發生這類問題,又該如何是好呢?畢竟當語音助手足夠智慧時,消費者的許多隱私都會被它掌握,相信到時候隱私洩露的風險也將是使用者難以承受的。
在許多的科幻電影中,機器人被描述的與人類無異:無論是其外觀,還是其說法方式,都看不出與人類的差別,甚至產生一段“人機戀”。不過就現階段而言,機器人尚未發展到這種程度,特別是若要機器人與人類產生戀情,聲音與交流將是非常關鍵的一環。
為了讓語音助手的發聲更像人類,從而能進一步提升這類產品對消費者的吸引力,眾多巨頭都做了很多努力,希望讓語音助手的發聲更自然,也更口語化,就像你在與真人交流那樣,從而為消費者帶來更真實、更貼近生活的語音助手。
谷歌用機器學習最佳化語音助手
谷歌近期就釋出了全新的AI語音合成器,一個名為“Cloud Text-to-Speech”的服務,能讓語音助手聽起來更自然更口語化,服務於需要語音合成服務的開發者或企業,無論是應用、網頁還是虛擬助理均可使用。其特別之處在於,“Cloud Text-to-Speech”透過谷歌旗下人工智慧子公司DeepMind開發的WaveNet來驅動。
據瞭解,DeepMind的AI語音合成技術是目前行業最先進、最可實現的技術之一:大部分語音合成器(包括Siri)都使用了“連接合成”技術——程式會儲存單個音節,然後再將其組合到一起,形成單詞和句子,雖然這種方法近年來不斷進步,但聽起來還是非常呆板生硬。相比之下,WaveNet使用了機器學習來從頭生成語音。
實際上,WaveNet分析了一個巨大人類語音資料庫的波形,並以每秒2.4萬個樣本的速度對其重新建立,從而能讓我們感受到一些微妙的變化,包括口音和唇音等。它之前已經被整合到Google Assistant中(儘管只支援英文和日文),現在則擁有了更多選擇。谷歌表示,新服務可提供12種語言的32種不同聲音能力,而且使用者可以定製高音和語速等細節。
微軟蘋果等也要讓語音助手像人類
據瞭解,微軟同樣利用機器學習等技術讓Cortana聲音更接近人類:Cortana會根據使用者當前對話情景進行情感分析,從而控制自己的語音和語調,產生相應語氣。此外,Cortana更像人也與其聲音來源(Jen Taylor,為《光環》遊戲Cortana配音)有關,“就閒聊部分,全部都是Jen Taylor的聲音;其他部分將由其他聲音混合使用”。
蘋果在iOS 11釋出時這樣評價SIri,“它很自然!一點都不像機器人!”這是因為和過去相比,siri說話時會在句子間加入更多的停頓,更多的長音,更輕快的語調變化,因此它將會比過去更流暢,更像“人”;此外在學會一門新語言的過程中,Siri團隊試圖找到每一個音所有的說法,比如連讀、輕讀、重音、長音、升調、降調等等。
語音助手的競爭很激烈
在人機互動方面,語音助手正在引領AI為主導的下一代人機互動時代,引發了眾多科技公司的競逐:國內的百度搜狗科大訊飛,以及國外的微軟谷歌蘋果亞馬遜等公司都非常重視語音互動技術,試圖讓語音互動變得更為實用,從而能爭奪新時代下的超級入口。據媒體報道,Spotify也正測試其語音助手,將讓消費領域的語音助手之爭變得更加激烈。
科技公司也瞄準了語音助手在企業領域的前景。前段時間,IBM正式釋出了沃森助手(Watson Assistant),可以置於多種平臺,如汽車、酒店或家電等。據IBM稱,Watson是一個企業助理,旨在幫助企業提高他們的消費者體驗。亞馬遜則於去年11月公佈了企業版Alexa,允許企業開發定製功能,並把Alexa置入各種產品中。可以預見,無論是技術研發,還是產品落地,各大公司都會針對語音互動技術展開激烈競逐。
語音助手走向成功仍需進化
雖然語音助手的發展正如火如荼,但必須要承認,語音助手想要真正成功仍需進化。比如亞馬遜Alexa智慧音箱發出的怪笑事件,就引發了不少使用者恐慌,凸顯出語音助手技術的不完善:特別是某些情況下,即使沒有語音喚醒,Alexa裝置也發出了莫名其妙怪笑聲。
語音助手不夠“智慧”也是老生常談的話題(目前的語音助手不過是個高階玩具),包括回答問題的準確性、理解使用者需求、提供個性化建議等等。事實上,依然有不少使用者並未接觸到語音助手,或折即使有時候,但頻率較低,都表明了語音助手還有較長的路要走。
寫在最後
隱私問題也是語音助手發展路上不容忽視的問題,比如Siri近期被曝出的“能在裝置鎖定時讀取隱藏資訊,並可能將讀取到的資訊公之於眾”的漏洞,就讓不用擔心:伴隨著語音助手的進一步普及,提供語音助手服務的公司真能保證隱私不被洩露嗎?若發生這類問題,又該如何是好呢?畢竟當語音助手足夠智慧時,消費者的許多隱私都會被它掌握,相信到時候隱私洩露的風險也將是使用者難以承受的。