python中怎樣處理漢語的同義詞？

首頁>Club>2021-02-15 11:46

回覆列表

1 # 影片好笑

python中文分詞：結巴分詞中文分詞是中文文字處理的一個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點：基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)採用了動態規劃查詢最大機率路徑, 找出基於詞頻的最大切分組合對於未登入詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi演算法安裝（Linux環境）下載工具包，解壓後進入目錄下，執行：python setup.py install模式預設模式，試圖將句子最精確地切開，適合文字分析全模式，把句子中所有的可以成詞的詞語都掃描出來，適合搜尋引擎介面元件只提供jieba.cut 方法用於分詞cut方法接受兩個輸入引數：第一個引數為需要分詞的字串cut_all引數用來控制分詞模式待分詞的字串可以是gbk字串、utf-8字串或者unicodejieba.cut返回的結構是一個可迭代的generator，可以使用for迴圈來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉化為list 例項#! -*- coding:utf-8 -*-import jiebaseg_list = jieba.cut("我來到北京清華大學", cut_all = True)print "Full Mode:", " ".join(seg_list)seg_list = jieba.cut("我來到北京清華大學")print "Default Mode:", " ".join(seg_list)

熱門排行