回覆列表
  • 1 # 鎂客網

    什麼是自然語言處理?就是對一個詞或是幾段話進行處理,從而做到一種“理解”。

    為什麼說自然語言處理是人工智慧的核心呢?最根本的原因在於——自然語言處理是語音互動的關鍵,是體現“智慧”的核心。細細講來,主要有兩個原因:

    首先,語音互動是當前最為主流的人機互動途徑。

    語音助理、智慧音箱、智慧機器人、語音搜尋……我們可以清楚地感受到,語音互動已然成為了智慧時代人機互動的主流途徑。

    什麼是互動?簡單來講就是基於一句話一件事的理解,兩個人之間言語的往來。既然說到理解,那就不是由簡簡單單的語音識別就能夠應付得了的,而是涉及到了“自然語言處理”,對識別出來的話進行斷句並聯繫上下文進行理解。如此這般,讓人工智慧跟人類一樣“理解”語句,才能準確理解使用者下達的指令,從而準確的執行任務,實現一個順暢的語音互動過程。

    其次,自然語言處理是體現人工智慧“智慧”的關鍵。

    此前,“人工智慧之父”馬文·明斯基曾表示人工智慧領域最終要解決的技術難題就是“語義分析”。圖靈機器人聯合創始人兼COO郭家也說過,人腦是讓人類擁有無限智慧的原因,是真正體現“智慧”的一個表現。

    當前,人工智慧更多的還是在“學習”人類,對於其“智慧”的表現,我們現在更多的是看其在與人類的互動中是否能真正做到既準確又自然。這個的實現,就需要做到“理解”,也就是自然語言理解。

  • 2 # Ada禕禕

    自然語言相比圖片、語音來說,更難被機器識別

    與其說自然語言處理是人工智慧的核心,不如說自然語言處理是人工智慧的核心技術之一。自然語言處理是人工智慧的核心,但是不代表人工智慧的核心就只有自然語言處理了。其實,對於如今來說,不能說是自然語言處理了更準確的應該是自然語言理解(自然語言處理的範疇大於自然語言理解)。只不過自然語言在處理的時候,相對於語音和圖片來說更復雜一點,因為自然語言是一種非常非常抽象的東西,就算是我們人類在也會有看不懂理不清文字含義的時候,更不用說計算機了,所以自然語言理解是人工智慧的一大挑戰,如果能夠讓計算機像人類一樣去理解文字了,何愁機器不智慧呢?對於圖片或者語音,它們的圖譜訊號或者畫素訊號可以直接作為輸入餵給機器,而對於自然語言來說,是需要進行轉換的,也就是我們常說的詞向量,一種實數向量,這樣才會被機器識別,但是經歷了轉換操作,就會有誤差的存在。

    也可以從人工智慧的角度來思考這個問題:

    人工智慧的發展歷程

    人工智慧是一種資料驅動的技術,是因為目前網際網路的發展,到達了一個資訊爆炸時代,人們就會想法設法地去充分利用這些資料,在開發利用這些資料的過程中,人工智慧隨之火起來。

    人工智慧產品及應用

    透過人工智慧產品研發圖,可以看出,資訊處理是核心,而自然語言處理就是資訊處理的核心,綜之,自然語言處理就可以作為人工智慧的核心。

    人工智慧標註體系

    透過上圖可以看出,實際上,核心技術不只是自然語言處理,還有計算機視覺等,自然語言處理只是解決關於“文字資訊”處理的核心。

  • 3 # 演算法小智

    自然語言處理的目的是處理文字資訊,當然了語音,圖片,影片其實都是可以轉換成文字的(圖片合影片可以透過語言描述進行轉換,這也是當前多模態訓練的流行之處)。那麼什麼是處理文字呢?通常來說處理文字是指獲取文字的特徵,資訊,以及語義和語義關係,因為這是我們從本質上理解文不可或缺的東西。如果我們讓理解了文字,理解了自然語言,機器可以做什麼呢?1. 機器可以和人類進行溝通對話。2. 可以聽懂人類的指令。3.可以將指令轉換成具體的操作行為。4. 甚至可以表達自己的思想。

    而人類之所以稱作高階動物就在於我們可以有深度的溝通,和思考,建立文化和歷史。機器一旦有了語言的組織和表達能力,也就可以做到自己獨立的理解和思考問題了。對於人工智慧來說,真正獨立的思想就是機器未來的核心。當然了機器具備思想到底會不會給人類帶來危害,這就是另外一個話題了。

    自主學習知識有人可能會問,獨立思考就思考,為什麼需要理解文字呢?其實人類所暢想的人工智慧,就是需要它能夠像人類一樣可以自主學習知識,而知識無非是透過語音,文字和影片進行傳播的,這三種流資訊其實都是可以轉換到文字上面或者說可以和文字繫結的。我們希望機器能夠做到抽取資訊,理解資訊,吸收資訊,從而組織資訊,表達資訊。這些都屬於自然語言的領域,例如 分詞,實體識別可以抽取資訊,關鍵詞,語義解析可以幫助理解文字,而文字生成,機器翻譯等可以去生成文字等等。總而言之,資訊的關鍵在於文字,文字的首要在於語義,而智慧的核心在於讓機器進行語義理解,我認為我的回答有理有據抓住了要害。是個不可多得的好答案。
  • 4 # 人民郵電出版社

    非科班出身,自學擼出中文分詞庫HanLP,在GitHub標星1.5萬,成為最受歡迎的自然語言處理專案。他將學習經驗總結成書《自然語言處理入門》,幫助小白快速入門NLP。

    針對題主的提問,HanLP自然語言處理類庫的開發者何晗的經驗很值得借鑑。

    截至 2019 年 11月初,HanLP專案在 GitHub Star 數達到了 15.6 K,超過了賓夕法尼亞大學的 NLTK、斯坦福大學的 CoreNLP。

    貼上GitHub地址:https://github.com/hankcs/HanLP

    何晗在開發這款 NLP 工具包時,還是上海外國語大學一名日語專業的大二學生,HanLP專案脫胎他大學時接的一份兼職,何晗也因緣從一個非科班專業的小白逐步成長為NLP領域的專家。如今,正在攻讀CS博士的他(研究方向:句法分析、語義分析與問答系統),結合自己的學習歷程和HanLP的開發經驗創作出版了《自然語言處理入門》一書,得到了周明、劉群、王斌等業內頂級 NLP 專家的推薦。

    一、初學者,請避開自學NLP的常見誤區有的初學者排斥基礎理論——認為學校教的都是沒用的,公司裡都用不到;有的初學者對基礎理論敬而遠之——認為理論太高深了,自己基礎不好,學了也白學;有的初學者,特別是已經工作的程式設計師,基本方向正確但學習路徑錯誤,比較容易走極端:在工作很忙的情況下,只是抱著經典書籍苦啃,直到筋疲力盡專案也毫無進展,從而喪失了學習NLP的興趣;或者,俗稱調庫小能手,跟風潮流,缺少理論基礎,缺乏獨立思考能力(比如,認為深度學習最牛,其他的基礎理論都是垃圾;認為CNN/RNN/BERT會調參就行了)。

    而實際上,自然語言處理是計算機科學、人工智慧和語言學學科的交集,這三方面的學科知識都是需要儲備的,基礎理論的學習必不可少。但很多初學者都是在工作之後才入坑NLP,既難以靜下心來啃書啃課,又缺少很好的老師傳授知識經驗。所以,有效可行的入門方式就是從工程切入,遵循這樣的邏輯:延遲載入,只在使用的時候才去載入必要的資料:

    你首先看到的是一個摸得著的實際問題,為了解決該問題才去接觸一個具體的方案;為了理解這個方案,才會引入必要的背景知識;為了實現這個方案,才會引入相關細節;為了克服這個方案的問題,才會過渡到新的方案。二、想快速入門NLP,邊學邊做療效好

    何晗入門NLP,讀過的經典書有:《統計自然語言處理》(宗成慶 著)(對應語言學知識)、《統計學習方法》(李航 著)(對應人工智慧知識),《挑戰程式設計競賽》(秋葉拓哉、鹽田陽一、北川宜稔 著)(對應計算機演算法知識)。

    不過,在看經典書籍的過程中,他發現,學習自然語言處理並不需要完全把這幾本書看透,最好是可以邊看書邊做專案。這些書都是非常牛的好書,然而可惜的是,看完書中的章節,不知該如何應用其中的知識點,即使實現了文章中提到的模型,也很難直接將其運用於工程專案。

    想必很多初學者都面臨類似的學習困惑。為了解決這個問題,何晗動手寫了《自然語言處理入門》,目的就是希望學習者看完一章後,便可以將知識點直接用於專案,適合NLP初學者入門並快速佈置到生產環境中。成效快,痛苦小,疑問少。

    何晗在《自然語言處理入門》一書中,以自己的HanLP開源專案為案例,程式碼對照公式講解每一個演算法每一個模型,讓入門者帶著工程思維理解NLP的知識要點,試圖在目前市面上艱深晦澀的教科書和簡單的入門書之間作出平衡。

    《自然語言處理入門》帶領學習者從基本概念入手。逐步介紹中文分詞、詞性標註、命名實體識別、資訊抽取、文字聚類、文字分類、句法分析這幾個熱門問題的演算法原理和工程實現。透過對多種演算法的講解和實現,比較各自的優缺點和適用場景。這些實現並非教學專用,而是生產級別的成熟程式碼,可以直接用於實際專案。

    在理解這些熱門問題的演算法後,這本書會引導學習者根據自己的專案需求拓展新功能,最終達到理論和實踐上的同步入門。

    何晗認為,NLP的學習路徑,應該尊重一般人的認知規律,而不是學術上的綱目順序,以此為宗旨來編排圖書的內容。因此,面向普通程式設計師,這本書內容分為以下三大部分:

    第一部分介紹一些字串演算法,讓普通程式設計師從演算法的角度思考中文資訊處理。

    第二部分由易到難地講解一些常用的機器學習模型,讓演算法工程師晉級為機器學習工程師。由中文分詞貫穿始終,構成一種探索式的遞進學習。這些模型也並非侷限於中文分詞,會在第三部分應用到更多的自然語言處理問題上去。

    第三部分新增了許多與文字處理緊密相關的演算法,讓機器學習工程師進化到自然語言處理工程師。特別地,最後一章介紹了當前流行的深度學習方法,起到擴充套件視野、承上啟下的作用。學習者可根據自身情況,靈活跳過部分章節。

    何晗在自學過程中走過不少彎路,深知數學語言的艱深晦澀,並且痛恨羅列公式故作高深的文章,所以他在書中只保留了必不可少的公式和推導,並且公式與程式碼相互印證。配套程式碼由Java和Python雙語言寫成,與GitHub上最新程式碼同步更新,所以你只要具備基本的程式設計經驗,就可以跟隨書本零起點入門。

    此外,何晗還總結出一份最為詳盡的NLP+ML“雙生樹”思維導圖,導圖中的關聯知識點不僅涵蓋NLP領域的核心知識,甚至涉及許多前沿研究和應用,印刷尺寸寬60cm,高74cm,隨書附贈供學習者參考。

    三、進階NLP的學習資料和工具推薦推薦讀這些經典書籍:多讀論文,推薦用Google Scholar和Papers檢索:克服語言障礙,推薦用歐路詞典:追蹤前沿動態,推薦NLP-progress,在各項NLP任務上的排行榜

    網址:https://nlpprogress.com/

    一箇中肯的建議:NLP沒有通用的解法,演算法不夠,語料來補演算法不是萬能的。(想想:一兩個百分點對實際業務有多少幫助,又增加了多少成本?)不要完全相信論文。(a. 不要相信不公開原始碼的論文; b. 不要相信公開原始碼但資料預處理作假的論文; c. 即使能跑出作者宣稱的分數,請考慮:模型是否能泛化到你的行業領域? 又增加了多少成本?)語料極其重要。(a. 語料幾乎可以把準確率提升到你期望的任何水準,只要數量質量足夠; b. 目前通用語料幾乎都是新聞,誰能標註出行業語料,誰就是大王; c. 深度學習時代,無標註的純文字語料也大有用場; d. 軟體工程2.0:用資料程式設計。)

  • 5 # 天籟人2

    自然語言系統作為天擎引能計劃與擎天啟能工程的總稱,是當今世界高階技術論壇競爭與經濟交流的焦點和社會、科學探索研究的戰略思想前沿和理論指導生產與實踐的主線和關鍵,我們有沒有必要建立一個自然語言論壇來進行廣泛宣傳和指導實踐,生產與科研,以擴大我們的自主智慧財產權和它在國際高層論壇上的戰略主導權和發言權是建設網站的關鍵技術和經驗。

  • 中秋節和大豐收的關聯?
  • 為什麼只有博派擁有領導模組?