首頁>科技>

非同步導讀:

在《自然語言處理實戰》譯者序中,王斌先生提到自2008年翻譯第一本書《資訊檢索導論》到現在,已經整整過去12年了。12年來,他從中科院的一名老員工變成了工業界的一名“老”員工,而自然語言處理領域也發生了十分劇烈的變化。

NLP學者們從早期質疑深度學習到全面擁抱深度學習僅僅經歷了兩三年時間。而工業界則將這一舉動推進得更加徹底:深度學習已經全面應用於工業界的許多NLP場景中。

當前深度學習已經成為NLP學術研究和工業應用中不可或缺的一件利器。與此同時,被譽為“人工智慧領域皇冠上的明珠”的NLP也迎來了屬於自己的黃金時代,在包括人機對話、機器翻譯、自動寫作、機器閱讀等在內的諸多NLP應用中都取得了一系列令人欣喜的進步。

正因為深度學習和NLP密不可分,近年來有關“深度學習+NLP”的課程和書籍不斷湧現。《自然語言處理實戰》就是其中的一本。和其他“實戰”類書籍一樣,它既有基礎理論也有程式設計實戰,而這種搭配特別適合初學者入門,可以作為現代NLP從業者的第一本入門書。

自然語言處理實戰

利用Python理解、分析和生成文字

自然語言處理(NLP)目前已經是AI行業中應用非常火爆的領域,儘管自然語言處理的應用早已在各行業中開發,但它仍然是一個非常新的概念。

如今,小米AI實驗室作為國內頂級的人工智慧實驗室之一,擁有能力卓越的成員以及豐富的NLP應用實踐處理經驗。認真做事的小米NLP團隊還在業餘時間翻譯並出版了《自然語言處理實戰》。

《自然語言處理實戰》翻譯團隊

01

“團隊帶來的最大財富莫過於團隊各個成員都身懷絕技,不管遇到什麼問題,都可以從團隊獲得支援”

小米NLP團隊

王斌,小米AI實驗室主任,NLP首席科學家,本科、碩士畢業於武漢大學,博士畢業於中科院計算所。加入小米之前在中科院從事NLP及資訊檢索的研發工作,曾為中科院研究員、博導。目前主要負責小米AI實驗室的技術研發和落地工作。史亮,小米AI實驗室NLP團隊高階軟體工程師,本科畢業於武漢大學,免試到中科院計算所碩博連讀,獲得博士學位。目前主要負責小米NLP平臺的研發工作。魯驍,小米AI實驗室NLP團隊高階軟體工程師,本科、碩士畢業於華中科技大學,博士畢業於中科院計算所。目前主要從事大規模文字分類、內容過濾相關的研發工作。唐可欣,小米AI實驗室NLP團隊軟體工程師,本科畢業於西安電子科技大學,碩士畢業於法國巴黎高科電信學院。目前主要從事意圖理解、情感分析方面的研發工作。Q:“NLP首席科學家為何選擇小米的故事”我想大家一定很感興趣,王老師可以說說當初是什麼吸引到了您做出這麼重要的選擇嗎?王斌:首先,我非常認可小米的價值觀。我以前做學問、做專案、帶學生、翻譯書、上課總想盡自己能力做到最好,可以說基本沒想過功利性的回報。這一點上我覺得和小米骨子裡的價值觀是非常吻合的。其次,個人認為小米公司的發展空間很大。加入小米之前,我就用過小米的很多產品。周圍也有很多親戚同事朋友是米粉。我好多年前用過一個小米3手機,到今天都還能用。一方面,從我自己和周邊的反饋看,小米產品深入人心;另一方面,入職之前我也認真學習過小米的商業模式,個人覺得非常有前景。第三,雖然排在第三,但也許是最重要的。小米有雷總,我們非常自豪的武大校友。作為校友,我一直在關注雷總。我們上學時就用過他開發的“黃玫瑰”防毒軟體,碩士畢業論文就是用WPS輸入完成的。包括後面雷總在金山、小米的事蹟,我都非常清楚。雷總是我們做技術的人的楷模,滿滿正能量,非常靠譜。小米還有我的師兄崔寶秋,他技術水平很高,但是非常謙遜低調。他和我聊了很多,讓我對公司技術方面有了更深入更全面的瞭解。我覺得有這些靠譜的學長們在,公司技術氛圍一定不錯,技術能力一定靠譜。公司廣泛的業務場景,也讓我感覺有很大的用武之地。第四,人工智慧發展到今天,和資料、場景都密不可分。公司正好有這兩方面的優勢,我個人的興趣也是技術落地,所以走出這一步也順理成章。Q: 其他老師當初為什麼選擇小米AI實驗室NLP團隊?團隊帶給大家最大的財富是什麼?可以取2-3件事與我們分享嗎? 史亮:個人覺得選擇職業最重要的是三觀相符,首先要認可公司的行事風格,其次要喜歡公司的產品,再次從事的工作契合個人的興趣,這三點,小米是比較符合個人預期的。團隊帶來的最大財富莫過於團隊各個成員都身懷絕技,都是特定領域的專家,不管遇到什麼問題,都可以從團隊獲得支援,作為工程師,填“坑”就是進步的階梯。魯驍:小米是一個可以踏實做事的地方,在這裡可以感受到大家對技術的真誠熱愛,堅持做可以實際落地的技術創新,讓使用者能享受到科技帶來的美好生活。團隊給我帶來最大的財富,就是有機會結識了一群非常優秀的老師同學,彼此信賴,共同成長,為了共同的目標一起努力前行。唐可欣:我加入小米的主要原因有兩個,一是小米有著行業領先的NLP技術,不管是將分詞、詞性標註等基礎研究應用於實際生產,還是在人機對話領域有著“小愛同學”這樣的行業爆款,都證明了NLP技術在小米大有可為。二是緣於雷總的那句“與使用者交朋友”,我人生的第一部智慧手機是小米1青春版,當時也要守在官網預約搶貨,至今我還記得剛拿到手機時的感動與驚豔,後來陸陸續續這麼多年,我也看著小米一步步成長、成為世界500強,加入小米是令我非常榮幸的事。團隊給我最大的財富就是讓我認識了一群專業優秀、生活風趣可愛的良師益友,讓我在舒適的環境下工作生活。Q: 作為國內頂尖的 AI 實驗室,小米人工智慧部AI實驗室在自然語言處理方面近期有哪些新研究?王斌:小米AI實驗室主要從事計算機視覺、語音、聲學、NLP、知識圖譜和機器學習等AI技術的研發及業務落地,整個實驗室大概每年有100多項技術成果落地到公司的各項業務和產品中,核心的AI技術已經基本實現了全面自研。很多技術也透過開源的方式進行開放共享。在NLP方面,我們主要從事MiNLP平臺構建、機器翻譯、人機對話、智慧問答、自動寫作、多模態理解、內容過濾、情感分析等相關的研發工作。MiNLP平臺是我入職2年來帶領團隊精心打造的一個產品,效果還是非常不錯的。目前MiNLP已經推出3.0版本,也已經應用到公司30多個業務中,日呼叫量達到80億次,獲得了業務方的不少讚譽。MiNLP在11月中旬已經開源了中文分詞模組,後續將按模組陸續開源。由於公司的國際化程序不斷加快,機器翻譯是我們一個重要的研究方向,目前我們能夠處理包括中英日韓德等語言在內近30個語言對之間的線上和離線翻譯,特別是離線翻譯,我們積累了非常豐富的實戰經驗。目前翻譯技術廣泛用在公司的各項業務和產品中。人機對話、智慧問答內置於小愛同學產品中,每天有大量的使用者訪問。文字創作、多模態內容理解、內容過濾、情感分析等技術我們也在投入研發,也應用到大量的實際場景中。此外,團隊還在NLP模型蒸餾等方面做了大量的工作,支撐了各項NLP業務的實際線上效能。

02

“NLP的應用面非常廣,內容、使用者、商品、甚至圖片影片的標籤都是基於NLP技術來實現的只要有文字內容的地方就有NLP的需求”

Q: 可以聊聊咱們NLP團隊遇到的最大的難題或者困境,以及團隊是如何解決或者嘗試解決的嗎?王斌:每天都在面臨各種挑戰……其實所有的困難都可以總結為兩點:效果是否達到預期、效能是否達到要求。在設計NLP模型的時候,我們往往需要平衡效果和效能。一般而言,好的效果往往意味著模型的複雜度較高,導致處理效能會差一些,很多時候我們不得不簡化模型設計,提升處理效能。在處理具體任務的時候,我們需要綜合分析任務的難度、請求併發量、請求延時、系統算力等指標,努力找到這樣一個平衡點,在給定的效能約束下,儘可能提升模型效果。針對單模型,我們可以使用剪枝、蒸餾、量化等技術,同時我們還可以使用整合學習技術,進一步提升模型效果。Q:很多觀點說,NLP在深度學習浪潮下沒有商業化進展,你們贊成嗎?你們認為NLP的知識困境在於什麼?王斌:現在有很多觀點動輒就說NLP在近些年趨勢不好之類的話,我個人非常不贊成這類觀點。對於某些領域來說,深度學習確實大大提高了其技術水平,打個比方說,原來這些領域的技術水平離及格還很遠,就10來分的水平,現在可能猛增到40到50來分,提高幅度很大,在某些方面已經表現出落地的可能。而對於NLP領域來說,可能以前的技術水平就有70來分,落地已經非常廣泛了。深度學習來了之後,NLP技術水平可能有些提高,但是幅度相對前面那些領域沒有那麼大。當然,我這種比喻可能不是特別貼切,但是大概想表達的意思就是,NLP的應用面非常廣,而且很早並且一直在各領域發揮著十分積極的作用,只要有文字內容的地方就有NLP的需求。以網際網路公司為例,和NLP相關的技術崗位包括內容搜尋、商品推薦、廣告推薦、機器翻譯、人機對話、智慧問答、內容稽核、評論抽取等等場景相關的崗位,另外,近年來特別火爆的智慧語音助手,比如我們公司的小愛同學、蘋果的Siri等等。除了語音互動之外,智慧語音助手的內部基本全都是NLP的處理流程,包括如何判斷語音識別結果是不是有錯、使用者的話是不是有意義、使用者的意圖到底是聽音樂聊天開裝置還是問問題、使用者情緒是高興還是不開心、使用者如果是聽音樂歌手和歌名是什麼、使用者的問題雖然百變能不能歸一為等價問題、如何給使用者合適的回覆讓其滿意等等等等。以小愛同學為例,這裡面的NLP模組有幾十個。還有,近年來,隨著文字生成技術的不斷髮展,和生成相關的崗位也出現了不少,比如各個領域的自動寫作也都需要NLP方面的人才。再比如,還有很多打標籤的場景,比如內容、使用者、商品、甚至圖片影片的標籤主要都是基於NLP技術來實現的。所以說,NLP的應用場景是非常非常多的。這裡只以網際網路公司為例,實際很多公司都有大量NLP技術應用場景。應該來說,做NLP的不愁沒地方用。當然,由於NLP技術對人的視聽感官刺激沒有那麼大,很多使用者可能無法直接感受到NLP技術。這也是可能有些人持有問題中的觀點的原因。從目前網際網路公司招聘的崗位看,NLP崗位數目仍然名列前茅。這也折射出NLP的應用價值。Q: 我看這本書有深度學習內容,是否可以舉例說說目前在NLP中應用深度學習的最佳實踐有哪些?王斌:預訓練模型的出現,全方位提升了自然語言處理水平,在算力和效能滿足要求的前提下,我們建議基於預訓練模型+微調的方法,設計面向特定任務的NLP模型,這樣可以獲得一個相對較好的baseline。不過好的模型只是必要條件,往往離正式上線使用,還有一段距離,這樣的差距往往體現在效能和效果兩個方面。前面提到,效能方面,我們可以採取模型蒸餾、剪枝、量化等方法進行最佳化;效果方面,要想進一步獲得提升,需要我們理解業務邏輯,深入分析業務資料,針對badcase進行改進,根據業務特點“對症下藥”。並不存在萬金油的NLP模型,針對特定任務的進行分析和模型設計,也是每一個NLP工程師的必備技能之一。

03

“翻譯的初衷就是希望這本好書能給更多的人分享”

Q: 什麼時候開始翻譯《自然語言處理實戰》一書的?翻譯的初衷(動機)是什麼?王斌:應該是2019年6月份左右開始翻譯的,翻譯的初衷就是希望這本好書能給更多的人分享。Q: 《自然語言處理實戰》有哪些特色?它帶給您最大的收穫是什麼?王斌:這本書有幾個特點。一是理論內容相對比較簡潔、通俗易懂,這是Manning出版社《實戰》類書籍的一個基本特色,也是這類書籍和理論教材類書籍的一個主要區別之處。第二個特點是理論和實戰的搭配相得益彰,理論一開始不必一定理解得特別透,透過程式說話,反過來再加深對理論的理解。第三個特點是本書介紹的深度學習模型雖然不算特別多,但是基本覆蓋最基礎的深度學習模型,能夠為後續學習奠定非常堅實的基礎。第四個特點是,本書給出的案例均來自實際應用場景,讀者透過實踐能夠深刻了解當前的NLP應用情況。本書的程式碼主要基於Python來完成,這對一般讀者來說也非常方便。第五個特點是本書給出了大量資源連結,便於讀者統一查詢和學習使用。對於我最大的收穫是系統地重新學習回顧了深度學習+NLP的知識,學習中加深了對這些知識的理解,也對這些實際的案例有了更深層的認識。Q: 您最希望將《自然語言處理實戰》推薦給誰看?為什麼?王斌:一種是NLP的初學者,特別適合他們入門。因為這本書既介紹了一些傳統知識,也介紹了最新的深度學習知識。另一種是NLP從業者,但是對深度學習不太熟,可以作為他們進入深度學習的指導書。這本書透過簡單的理論指導加程式碼實踐,對這些人幫助很大。04

“不斷地深入公司重要業務場景用NLP技術為公司創造價值”

Q: 小米AI實驗室NLP團隊未來有哪些工作計劃?想要達成什麼目標?

王斌:除了上面提到的NLP平臺和技術之外,我們還會不斷地深入公司重要業務場景,比如如何用NLP技術進一步提高產品的質量、服務和銷量,我們希望用NLP技術為公司帶來更加巨大的價值。

Q: 根據你們的理解,學習自然語言處理的核心能力應該包括哪些方面?

王斌:一個相對完整的核心能力至少應該包括資料資源、基礎演算法、應用技術三個方面。

資料資源對演算法效果起到確定性的作用。基礎演算法部分又可以分為資料預處理、分詞、詞性標註、命名實體識別、結構句法分析、依存句法分析等模組,主要從詞法、句法層面對自然語言進行處理。應用技術在詞法、句法分析結果的基礎上,進一步從語義層面對自然語言進行理解,具體又可以分為主題分類、文字匹配、關係抽取、文字摘要、情感分析、多模態理解等。

專訪作者好書推薦▼▼▼自然語言處理實戰 利用Python理解、分析和生成文字

[美]霍布森•萊恩(Hobson Lane) ,科爾•霍華德(Cole Howard) ,漢納斯•馬克斯•哈普克(Hannes Max Hapke) 著;

史亮 ,魯驍 ,唐可欣 ,王斌 譯

京東

內容簡介:

本書是介紹自然語言處理(NLP)和深度學習的實戰書。NLP已成為深度學習的核心應用領域,而深度學習是NLP研究和應用中的必要工具。

本書面向中高階Python開發人員,兼具基礎理論與程式設計實戰,是現代NLP領域從業者的實用參考書。

17
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 社群團購紅利時代過去了?市場監管總局:九不得