下面這個程式是對一個文字檔案裡的內容進行分詞的程式:test.py[python] view plain copy#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #匯入jieba模組 def splitSentence(inputFile, outputFile): fin = open(inputFile, "r") #以讀的方式開啟檔案 fout = open(outputFile, "w") #以寫得方式開啟檔案 for eachLine in fin: line = eachLine.strip().decode("utf-8", "ignore") #去除每行首尾可能出現的空格,並轉為Unicode進行處理 wordList = list(jieba.cut(line)) #用結巴分詞,對每行內容進行分詞 outStr = "" for word in wordList: outStr += word outStr += "/ " fout.write(outStr.strip().encode("utf-8") + "\n") #將分詞好的結果寫入到輸出檔案 fin.close() fout.close() splitSentence("myInput.txt", "myOutput.txt") 寫完程式之後,在Linux重點輸入:python test.py即可執行程式進行分詞。輸入的檔案內容如下所示:經過結巴分詞後,輸出結果如下所示:注意:第11行的 jieba.cut()返回的結構是一個可迭代的generator,可以用list(jieba.cut(...))轉化為list
下面這個程式是對一個文字檔案裡的內容進行分詞的程式:test.py[python] view plain copy#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #匯入jieba模組 def splitSentence(inputFile, outputFile): fin = open(inputFile, "r") #以讀的方式開啟檔案 fout = open(outputFile, "w") #以寫得方式開啟檔案 for eachLine in fin: line = eachLine.strip().decode("utf-8", "ignore") #去除每行首尾可能出現的空格,並轉為Unicode進行處理 wordList = list(jieba.cut(line)) #用結巴分詞,對每行內容進行分詞 outStr = "" for word in wordList: outStr += word outStr += "/ " fout.write(outStr.strip().encode("utf-8") + "\n") #將分詞好的結果寫入到輸出檔案 fin.close() fout.close() splitSentence("myInput.txt", "myOutput.txt") 寫完程式之後,在Linux重點輸入:python test.py即可執行程式進行分詞。輸入的檔案內容如下所示:經過結巴分詞後,輸出結果如下所示:注意:第11行的 jieba.cut()返回的結構是一個可迭代的generator,可以用list(jieba.cut(...))轉化為list