回覆列表
  • 1 # 使用者105109377865

    第一步,你要有中文的資料集;第二步,資料集要準備成weka能處理的結構,這很好做到,你把資料集壓縮了就行了,因為它要求的格式是,一個類別的檔案放一個資料夾下。但是還有一個問題,你的機器往往沒那麼多記憶體去處理這個資料集,那麼你可以選幾個類別出來,在每個類別中放幾十個文件來做就可以了。第三步,分詞。第四步,使用weka wiki中的例子將資料集轉換成arff格式。weka是一種機器學習演算法的集合,它可以用於分類,預測等。由於weka支援的資料格式是arff或csv的格式,因此在進行weka實驗的時候必須進行資料的預處理。一般,我們可以在EXCEL裡面匯入TXT,然後另存為.CSV格式的檔案(這個格式WEKA也是可以識別的),然後開啟WEKA,–》TOOL–》 arffviewer中開啟剛才的.CSV檔案,另存為.arff就OK了!

  • 2 # 使用者4758571095622

    你需要在檔案的開頭按照arff格式加上資料的屬性 比如

    @RELATION iris

    @ATTRIBUTE sepallength REAL

    @ATTRIBUTE sepalwidth REAL

    @ATTRIBUTE petallength REAL

    @ATTRIBUTE petalwidth REAL

    @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

    @DATA

    5.1,3.5,1.4,0.2,Iris-setosa

    然後直接修改後綴為arff格式就可以了

  • 中秋節和大豐收的關聯?
  • 庫裡首談單賽季402記三分神蹟,“這項紀錄應該會保持一段時間”,對此你怎麼看?