NLP文字前期處理的方法有哪些？

首頁>Club>自然捲小美2021-03-11 14:18

NLP文字前期處理的方法有哪些？

6

回覆列表

1 # 程式猿的雕刻時光

NLP的中文意思是自然語言處理，目的是希望計算機能夠理解人類語言，併為人類提供智慧服務。NLP是一個相關技術的集合，有很多不同的技術所組成，所以NLP文字前期處理的方法有多種型別。

這裡我列舉絕大多數情況下NLP任務文字前期的處理方法，同時由於中文語言環境和英文非常不同，所以以中文NLP為例進行說明。
文字編碼處理，由於中文的編碼有多種型別，比如：UTF-8，gb2312等等，需要統一文字的編碼，避免各種異常錯誤。

文字中文分詞，雖然文字是由“字”來構成的，但“單字”是沒有語義資訊的，中文語法是由“詞”構成的基礎單位，需要將文字進行分詞，才能夠進行後續的處理，比如：關鍵詞挖掘、文字相似度和詞向量。

分詞可以用N-Gram切分，也可以根據詞典切分（jieba：Python中文分詞包），需要根據實際的需求進行選擇。

文字也需要對句子進行切分，這比較簡單，主要依靠標點符號就可以完成切分。

中文分詞是NLP的基礎，也是NLP的核心，很多NLP任務都依賴中文分詞的結果，也就是NLP文字前期處理的主要方法。
https://www.toutiao.com/i6757934198884925963/
文章中有對中文分詞進行詳細的講解。

希望以上內容能夠幫助到大家，多謝！

相關內容

∧ 中秋節和大豐收的關聯？

∨ 學生應該買ipad2018還是買ipad pro？

熱門排行