NLP的中文意思是自然語言處理,目的是希望計算機能夠理解人類語言,併為人類提供智慧服務。NLP是一個相關技術的集合,有很多不同的技術所組成,所以NLP文字前期處理的方法有多種型別。
這裡我列舉絕大多數情況下NLP任務文字前期的處理方法,同時由於中文語言環境和英文非常不同,所以以中文NLP為例進行說明。
文字編碼處理,由於中文的編碼有多種型別,比如:UTF-8,gb2312等等,需要統一文字的編碼,避免各種異常錯誤。
文字中文分詞,雖然文字是由“字”來構成的,但“單字”是沒有語義資訊的,中文語法是由“詞”構成的基礎單位,需要將文字進行分詞,才能夠進行後續的處理,比如:關鍵詞挖掘、文字相似度和詞向量。
分詞可以用N-Gram切分,也可以根據詞典切分(jieba:Python中文分詞包),需要根據實際的需求進行選擇。
文字也需要對句子進行切分,這比較簡單,主要依靠標點符號就可以完成切分。
中文分詞是NLP的基礎,也是NLP的核心,很多NLP任務都依賴中文分詞的結果,也就是NLP文字前期處理的主要方法。
https://www.toutiao.com/i6757934198884925963/
希望以上內容能夠幫助到大家,多謝!
NLP的中文意思是自然語言處理,目的是希望計算機能夠理解人類語言,併為人類提供智慧服務。NLP是一個相關技術的集合,有很多不同的技術所組成,所以NLP文字前期處理的方法有多種型別。
這裡我列舉絕大多數情況下NLP任務文字前期的處理方法,同時由於中文語言環境和英文非常不同,所以以中文NLP為例進行說明。
文字編碼處理,由於中文的編碼有多種型別,比如:UTF-8,gb2312等等,需要統一文字的編碼,避免各種異常錯誤。
文字中文分詞,雖然文字是由“字”來構成的,但“單字”是沒有語義資訊的,中文語法是由“詞”構成的基礎單位,需要將文字進行分詞,才能夠進行後續的處理,比如:關鍵詞挖掘、文字相似度和詞向量。
分詞可以用N-Gram切分,也可以根據詞典切分(jieba:Python中文分詞包),需要根據實際的需求進行選擇。
文字也需要對句子進行切分,這比較簡單,主要依靠標點符號就可以完成切分。
中文分詞是NLP的基礎,也是NLP的核心,很多NLP任務都依賴中文分詞的結果,也就是NLP文字前期處理的主要方法。
https://www.toutiao.com/i6757934198884925963/
文章中有對中文分詞進行詳細的講解。希望以上內容能夠幫助到大家,多謝!