回覆列表
-
1 # 小小猿愛嘻嘻
-
2 # 程式猿的雕刻時光
jieba是一個非常易用的Python中文分詞包,但jieba的分詞準確率受限於詞典的質量。在一些情況下,jieba分詞的準確率無法滿足業務需要,我們的解決方法要麼最佳化詞典,要麼找到其它優秀的中文分詞工具。pkuseg是北京大學開源分詞工具,其亮點是領域細分的中文分詞工具,簡單易用,在分詞準確率方面得到了提高。
這裡羅列一下pkuseg的3個特點:
多領域分詞。不同於以往的通用中文分詞工具,此工具包同時致力於為不同領域的資料提供個性化的預訓練模型。根據待分詞文字的領域特點,使用者可以自由地選擇不同的模型。 我們目前支援了新聞領域,網路領域,醫藥領域,旅遊領域,以及混合領域的分詞預訓練模型。在使用中,如果使用者明確待分詞的領域,可載入對應的模型進行分詞。如果使用者無法確定具體領域,推薦使用在混合領域上訓練的通用模型。各領域分詞樣例可參考 example.txt。更高的分詞準確率。相比於其他的分詞工具包,當使用相同的訓練資料和測試資料,pkuseg可以取得更高的分詞準確率。支援使用者自訓練模型。支援使用者使用全新的標註資料進行訓練。安裝方法非常簡單就是使用Python的包管理工具pip。
pip3 install -U pkuseg使用方法也非常簡單,基本可以做到開箱即用:
import pkuseg# 以預設配置載入模型seg = pkuseg.pkuseg()# 分詞text = seg.cut("我來到了清華大學‘)print(text)更多詳細的使用教程可以訪問pkuseg的github。
https://www.toutiao.com/i6757934198884925963/
-
3 # 軟體測試開發技術棧
jieba 中文分詞——做最好的Python中文分片語件,這也是我們最常用的中文分詞模組,其具備如下特點:
精確模式:試圖將句子最精確地切開,適合文字分析。全模式:把所有的可以成詞的詞語都掃描處理,速度非常快,但是不能解決歧義。搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,適合用於引擎分詞。支援繁體分詞。支援自定義詞典。接下來,我們以具體例子來介紹下如何應用中文切詞實現提取句子中的中文詞。
對如下文字檔案實現中文分詞,並且分詞結果中不包含字母、標點、中英文停詞(如,an、and一定、一方面)等內容,同時支援特定含義片語的切分(如“中國夢”、"青花瓷",不能分切分成"中國","夢","青花”,"瓷"),分詞結果輸出至txt格式檔案中。
整體程式碼設計1.設定中文停詞表,如下:
2.設定自定義字典3.使用jieba模組的精確分詞模式cut()進行分詞處理。
4.透過正則過濾非中文數字內容。
5.透過停詞表過濾掉停詞內容。
原始碼分享分詞結果如下:
這裡簡單介紹2箇中文分詞包,一個是jieba,一個是snownlp,這2箇中文分詞包都可以完成中文分詞、詞性標註、關鍵詞提取等功能,下面我簡單介紹一下這2個包的安裝和使用,實驗環境win10+python3.6+pycharm5.0,主要內容如下:
jieba中文分詞:這個大部分人都應該聽過,應用比較廣泛,可以完成常見的詞性標註、關鍵詞提取,使用起來非常方便,下面我簡單介紹一下這個庫:
1.安裝jieba,這個直接在cmd視窗輸入命令“pip install jieba”就行,如下:
2.安裝完成後,就可以進行簡單的測試了,測試程式碼如下,這裡完成了分詞、詞性標註、提取關鍵詞的功能:
程式執行截圖如下,已經成功分詞、標註詞性及提取關鍵詞:
snownlp中文分詞:這也是一箇中文分詞包,所有演算法都是作者自己實現,可以快速處理中文文字,包括分詞、分句、詞性標註、情感分析、關鍵詞提取、tf、idf等,下面我簡單介紹一下這個庫:
1.安裝snownlp,這個直接在cmd視窗輸入命令“pip install snownlp”就行,如下,可能需要等待一會兒:
2.安裝完成後,我們就可以進行簡單的從測試了,主要程式碼如下,包括分詞、詞性標註等功能:
程式執行截圖如下:
至此,我們就完成了jieba和snownlp這2箇中分分詞包的介紹和使用。總的來說,整個過程很簡單,只要你有一定的python基礎,熟悉一下相關示例和程式碼,很快就能掌握的,當然,你也可以使用其他中分分詞包,像hulac,corenlp等,網上也有相關教程和資料,感興趣的可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言。