回覆列表
  • 1 # lanfengz2

      文字分類的步驟

      典型的文字分類過程可以分為三個步驟:

      文字表示(Text Representation)

    這一過程的目的是把文字表示成分類器能夠處理的形式。最常用的方法是向量空間模型,即把文字集表示成詞-文件矩陣,矩陣中每個元素代表了一個詞在相應文件

    中的權重。選取哪些詞來代表一個文字,這個過程稱為特徵選擇。常見的特徵選擇方法有文件頻率、資訊增益、互資訊、期望交叉熵等等,[Yang &

    Pedersen , 1997 ]對這幾種方法做了比較。為了降低分類過程中的計算量,常常還需要進行降維處理,比如LSI。2

      分類器構建(Classifier Construction)

    這一步驟的目的是選擇或設計構建分類器的方法。沒有一種通用的方法可以適用所有情況。不同的方法有各自的優缺點和適用條件,要根據問題的特點來選擇一個分

    類器。我們會在後面專門講述常用的方法。選定方法之後,在訓練集上為每個類別構建分類器,然後把分類器應用於測試集上,得到分類結果。

      效果評估(Classifier Evaluation)

      在分類過程完成之後,需要對分類效果進行評估。評估過程應用於測試集(而不是訓練集)上的文字分類結果,常用的評估標準由IR領域繼承而來,包括查全率、查準率、F1值等等。對於某一類別i,查全率ri=li/ni,其中ni為所有測試文件中,屬於第i類的文件個數;li是經分類系統輸出分類結果為第i類且結果正確的文件個數。查準率pi=li/mi,其中mi是經分類系統輸出分類結果為第i類的文件個數,li是經分類系統輸出分類結果為第i類且結果正確的文件個數。F1值為查全率和查準率的調和平均數,即:。

    相對於最簡單的訓練集-測試集評估方法而言,還有一種稱為k-fold cross validation的方法,即把所有標記的資料劃分成k個子集,對於每個子集,把這個子集當作訓練集,把其餘子集作為測試集;這樣執行k次,取各次評估結果的平均值作為最後的評估結果。

  • 中秋節和大豐收的關聯?
  • 形容太陽很大天氣炎熱的詞語?