首頁>Club>
4
回覆列表
  • 1 # catinwater

    一:數據預處理

    在進行數據挖掘時,我們會用到R中的很多擴展包,各自有不同的函數和功能。如果能將它們綜合起來應用就會很方便。caret包(Classification and Regression Training)就是為了解決分類和回歸問題的數據訓練而創建的一個綜合工具包。下面的例子圍繞數據挖掘的幾個核心步驟來說明其應用。

    二:特徵選擇

    在進行數據挖掘時,我們並不需要將所有的自變量用來建模,而是從中選擇若干最重要的變量,這稱為特徵選擇(feature selection)。一種算法就是後向選擇,即先將所有的變量都包括在模型中,然後計算其效能(如誤差、預測精度)和變量重要排序,然後保留最重要的若干變量,再次計算效能,這樣反復迭代,找出合適的自變量數目。這種算法的一個缺點在於可能會存在過度擬合,所以需要在此算法外再套上一個樣本劃分的循環。在caret包中的rfe命令可以完成這項任務。

    三:建模與參數優化

    在進行建模時,需對模型的參數進行優化,在caret包中其主要函數命令是train。

    四:模型預測與檢驗

    模型建立好後,我們可以利用predict函數進行預測。

  • 中秋節和大豐收的關聯?
  • 成功幾率是什麼意思?