樹模型(又稱決策樹或者樹結構模型):基本思想和方差分析中的變異分解極為相似。
目的(基本原則):將總研究樣本透過某些牲(自變數取值)分成數個相對同質的子樣本。每一子樣本因變數的取值高度一致,相應的變異/雜質儘量落在不同子樣本間。所有樹模型的演算法都遵循這一基本原則。
不同樹模型差異:差異在於對變異/雜質的定義不同。比如P值、方差、熵、Gini指數(基尼指數)、Deviance等作為測量指標。
樹模型分類:根據預測的因變數型別,樹結構模型可以分為分類樹、迴歸樹兩大類。
常用演算法:
CHAID(卡方自互動偵測決策樹)—Chi-squared Automatic Interaction Detector
CRT(分類迴歸樹)—Classification Regression Tree;
C5.0以資訊熵的下降速度作為確定最佳分支變數和分割閥值的依據。面對資料遺漏和輸入欄位很多的問題時非常穩健。
QUEST:Quick、Unbiased、Efficient Statistical Tree的縮寫。
決策樹需要計算結點的純度來選擇最具顯著性的切分(split)。通常,CART以Gini,C5以資訊增益(熵),CHAID以卡方。雖然存在這樣的差別,但他們樹形狀的不同更為重要一些。
C5起源於計算科學領域,講究小樣本上的重複測試比較(cross validation),進一步地,C5會進行規則(Rule Set)的概化以自動產生更為簡潔的規則表達形式。犧牲一些精度來換取更好記的規則,對於業務人員來說無疑是值得的。
樹模型(又稱決策樹或者樹結構模型):基本思想和方差分析中的變異分解極為相似。
目的(基本原則):將總研究樣本透過某些牲(自變數取值)分成數個相對同質的子樣本。每一子樣本因變數的取值高度一致,相應的變異/雜質儘量落在不同子樣本間。所有樹模型的演算法都遵循這一基本原則。
不同樹模型差異:差異在於對變異/雜質的定義不同。比如P值、方差、熵、Gini指數(基尼指數)、Deviance等作為測量指標。
樹模型分類:根據預測的因變數型別,樹結構模型可以分為分類樹、迴歸樹兩大類。
常用演算法:
CHAID(卡方自互動偵測決策樹)—Chi-squared Automatic Interaction Detector
CRT(分類迴歸樹)—Classification Regression Tree;
C5.0以資訊熵的下降速度作為確定最佳分支變數和分割閥值的依據。面對資料遺漏和輸入欄位很多的問題時非常穩健。
QUEST:Quick、Unbiased、Efficient Statistical Tree的縮寫。
決策樹需要計算結點的純度來選擇最具顯著性的切分(split)。通常,CART以Gini,C5以資訊增益(熵),CHAID以卡方。雖然存在這樣的差別,但他們樹形狀的不同更為重要一些。
C5起源於計算科學領域,講究小樣本上的重複測試比較(cross validation),進一步地,C5會進行規則(Rule Set)的概化以自動產生更為簡潔的規則表達形式。犧牲一些精度來換取更好記的規則,對於業務人員來說無疑是值得的。