首頁>Club>
6
回覆列表
  • 1 # 程式猿的雕刻時光

    NLP的中文意思是自然語言處理,目的是希望計算機能夠理解人類語言,併為人類提供智慧服務。NLP是一個相關技術的集合,有很多不同的技術所組成,所以NLP文字前期處理的方法有多種型別。

    這裡我列舉絕大多數情況下NLP任務文字前期的處理方法,同時由於中文語言環境和英文非常不同,所以以中文NLP為例進行說明。

    文字編碼處理,由於中文的編碼有多種型別,比如:UTF-8,gb2312等等,需要統一文字的編碼,避免各種異常錯誤。

    文字中文分詞,雖然文字是由“字”來構成的,但“單字”是沒有語義資訊的,中文語法是由“詞”構成的基礎單位,需要將文字進行分詞,才能夠進行後續的處理,比如:關鍵詞挖掘、文字相似度和詞向量。

    分詞可以用N-Gram切分,也可以根據詞典切分(jieba:Python中文分詞包),需要根據實際的需求進行選擇。

    文字也需要對句子進行切分,這比較簡單,主要依靠標點符號就可以完成切分。

    中文分詞是NLP的基礎,也是NLP的核心,很多NLP任務都依賴中文分詞的結果,也就是NLP文字前期處理的主要方法。

    https://www.toutiao.com/i6757934198884925963/

    文章中有對中文分詞進行詳細的講解。

    希望以上內容能夠幫助到大家,多謝!

  • 中秋節和大豐收的關聯?
  • 學生應該買ipad2018還是買ipad pro?