python3怎麼使用結巴分詞？

首頁>Club>2021-02-15 11:48

回覆列表

1 # 使用者4237129090866

下面這個程式是對一個文字檔案裡的內容進行分詞的程式：test.py[python] view plain copy#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #匯入jieba模組 def splitSentence(inputFile, outputFile): fin = open(inputFile, "r") #以讀的方式開啟檔案 fout = open(outputFile, "w") #以寫得方式開啟檔案 for eachLine in fin: line = eachLine.strip().decode("utf-8", "ignore") #去除每行首尾可能出現的空格，並轉為Unicode進行處理 wordList = list(jieba.cut(line)) #用結巴分詞，對每行內容進行分詞 outStr = "" for word in wordList: outStr += word outStr += "/ " fout.write(outStr.strip().encode("utf-8") + "\n") #將分詞好的結果寫入到輸出檔案 fin.close() fout.close() splitSentence("myInput.txt", "myOutput.txt") 寫完程式之後，在Linux重點輸入：python test.py即可執行程式進行分詞。輸入的檔案內容如下所示：經過結巴分詞後，輸出結果如下所示：注意：第11行的 jieba.cut()返回的結構是一個可迭代的generator，可以用list(jieba.cut(...))轉化為list

熱門排行