一:數據預處理
在進行數據挖掘時,我們會用到R中的很多擴展包,各自有不同的函數和功能。如果能將它們綜合起來應用就會很方便。caret包(Classification and Regression Training)就是為了解決分類和回歸問題的數據訓練而創建的一個綜合工具包。下面的例子圍繞數據挖掘的幾個核心步驟來說明其應用。
二:特徵選擇
在進行數據挖掘時,我們並不需要將所有的自變量用來建模,而是從中選擇若干最重要的變量,這稱為特徵選擇(feature selection)。一種算法就是後向選擇,即先將所有的變量都包括在模型中,然後計算其效能(如誤差、預測精度)和變量重要排序,然後保留最重要的若干變量,再次計算效能,這樣反復迭代,找出合適的自變量數目。這種算法的一個缺點在於可能會存在過度擬合,所以需要在此算法外再套上一個樣本劃分的循環。在caret包中的rfe命令可以完成這項任務。
三:建模與參數優化
在進行建模時,需對模型的參數進行優化,在caret包中其主要函數命令是train。
四:模型預測與檢驗
模型建立好後,我們可以利用predict函數進行預測。
一:數據預處理
在進行數據挖掘時,我們會用到R中的很多擴展包,各自有不同的函數和功能。如果能將它們綜合起來應用就會很方便。caret包(Classification and Regression Training)就是為了解決分類和回歸問題的數據訓練而創建的一個綜合工具包。下面的例子圍繞數據挖掘的幾個核心步驟來說明其應用。
二:特徵選擇
在進行數據挖掘時,我們並不需要將所有的自變量用來建模,而是從中選擇若干最重要的變量,這稱為特徵選擇(feature selection)。一種算法就是後向選擇,即先將所有的變量都包括在模型中,然後計算其效能(如誤差、預測精度)和變量重要排序,然後保留最重要的若干變量,再次計算效能,這樣反復迭代,找出合適的自變量數目。這種算法的一個缺點在於可能會存在過度擬合,所以需要在此算法外再套上一個樣本劃分的循環。在caret包中的rfe命令可以完成這項任務。
三:建模與參數優化
在進行建模時,需對模型的參數進行優化,在caret包中其主要函數命令是train。
四:模型預測與檢驗
模型建立好後,我們可以利用predict函數進行預測。