首頁>科技>

《鋼鐵俠》裡的AI管家賈維斯,想必大家都不陌生,這樣可以像人一樣和自己對話的AI管家,我們是不是都想擁有一個?

賈維斯之所以可以像人一樣和我們對話,必然離不開語音識別技術的加持。

如今,從語音輸入法到智慧家居等,生活中到處都可以透過語音進行人機互動。

擁有一個賈維斯的夢想好像越來越近了!

為了讓這個夢想更近一步,學習好語音識別技術勢在必行

今天,博文菌就給大家推薦一本語音識別領域的扛鼎之作——《人工智慧:語音識別理解與實踐(精裝版)》,該書被列入“國家出版基金支援專案”,併入選為《人工智慧出版工程》系列叢書。

—— 全新升級 ——

2014-2019年,隨著工業界對自然口語互動系統的應用熱情空前高漲,以及研究界在基於深度學習的語音和語言處理技術上的大幅進步,一系列新的甚至顛覆性的理論、技術、演算法應用產生了,這使得語音識別系統在經典大詞彙連續語音識別任務上的錯誤率大幅下降,甚至逼近了人類水平。

同時,基於深度學習的自然語言處理技術也取得了長足進展,尤其是任務型口語對話系統的各個模組都廣泛採用了深度學習技術並有了提升。

本書作為《解析深度學習:語音識別實踐》的續作,在它的基礎上做了大量改寫,並對內容有大幅補充,詳細總結了最新的語音識別演算法及應用技術,以及在口語對話系統研究中基於深度學習的自然語言處理技術。

—— 第四代語音識別技術 ——

作者在背景材料中充分證實了自20世紀90年代早期起,語音識別領域研究者提出的深度動態生成模型(dynamic generative models)的豐富性,同時將其與最近快速發展的深度鑑別性模型在統一的框架下進行了比較。

書中以迴圈神經網路和隱動態模型為例,對這兩種截然不同的深度模型進行了全方位有見地的優劣比較。這為語音識別中的深度學習發展和其他訊號及資訊處理領域開啟了一個新的激動人心的方向。

以深度學習為主要內容的第四代技術是本書所詳細闡述的,特別是DNN和深度生成模型的無縫結合,將使得知識擴充套件可以在一種最自然的方式下完成。

總的來說,本書可能成為語音識別領域工作者在第四代語音識別技術時代的重要參考書。

全書不但巧妙地涵蓋了一些基本概念,使讀者能夠理解語音識別全貌,還對近兩年興盛起來的強大的深度學習方法進行了深入地介紹。

讀完本書,讀者將可以看清前沿的語音識別是如何構建在深層神經網路技術上的,可以滿懷自信地去搭建識別能力達到甚至超越人類的語音識別系統。

—— 兩個技術體系的梳理 ——

雖然人類的語音感知與語言認知天然地作為一個完整系統在工作,但我們仍然經常聽到一種被廣泛傳播的錯誤理解:語音識別與自然語言處理是兩個獨立的技術體系

本書從完整的口語對話系統角度,梳理了語音識別與自然語言理解的相互關係,介紹了口語對話系統的基本概念、自然語言理解與口語理解的異同,以及對話狀態跟蹤與語義理解的異同等。

對於深度學習在理解和對話中的應用,不僅介紹了基於純文字的理解和對話互動的深度學習技術,還介紹瞭如何在帶有錯誤的語音識別結果上做更好的語言理解和對話管理的相關處理框架與應用技術。

這些深度學習技術是未來構建認知型口語互動系統的關鍵。

我們相信,本書對語音識別、語言理解和口語對話給出了一個更為完整的技術圖譜,它將促進真實世界的人機智慧口語互動系統的技術發展,也將有益於機器學習、智慧語音及語言處理領域的研究者和實踐者。

希望本書能夠帶你開啟語音識別的大門,遇見未來世界!

關於本書作者

● 俞棟,電氣電子工程師學會會士(IEEE Fellow)、國際計算機學會傑出科學家(ACM Distinguished Scientist)。現任騰訊人工智慧實驗室副主任、騰訊公司傑出科學家,香港中文大學(深圳)、上海交通大學、浙江大學等多所高校的客座/兼職教授。在基於深度學習的語音識別和分離技術上進行了一系列開創性工作,極大地推動了語音處理領域的發展。

● 鄧力,人工智慧、機器學習和語音語言訊號處理獲得者著名專家,曾任微軟首席人工智慧科學家和深度學習技術中心研究經理。研究方向包括自動語音與說話者識別、口語識別與理解、語音–語音翻譯、機器翻譯、語言模式、統計方法與機器學習、聽覺和其他生物資訊處理、深層結構學習、類腦機器智慧、影象語言多模態深度學習,商業大資料深度分析等,在相關領域做出了重大貢獻。

● 俞凱,上海交通大學計算機科學與工程系教授,思必馳公司創始人、首席科學家。清華大學自動化系學士、碩士,劍橋大學工程系博士。

● 錢彥旻,上海交通大學計算機科學與工程系副教授,博士生導師,上海交大–思必馳聯合實驗室副主任。華中科技大學學士、清華大學博士、英國劍橋大學工程系博士後,上海市青年英才揚帆計劃獲得者。

▊《人工智慧:語音識別理解與實踐(精裝版)》

俞棟 鄧力 俞凱 錢彥旻 著

本書全面系統地展示了語音識別、語言理解和口語對話技術的完整技術圖譜,具有非常強的前瞻性,對促進真實世界的人機智慧口語互動技術的發展有積極的促進作用;對於從事機器學習、智慧語音及語言處理領域的研究人員和實踐人員而言,是一本非常有價值的案頭參考。

4
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 殺雞用牛刀!大資料除了“殺熟”,還能用來“抓嫖”?