回覆列表
-
1 # 北航秦曾昌
-
2 # 小肥崔
不是說不會過擬合,RF也會過擬合,只不過是訓練輪數相近的情況下,RF相對其它模型更不容易過擬合。
道理很簡單,直觀地說。每個基學習器學到的都是訓練集的子集。而"過擬合"通俗地來講就是擬合了整個訓練集的大部分資料。所以只訓練子集顯然更難做到擬合該子集以外的其它資料。
不是說不會過擬合,RF也會過擬合,只不過是訓練輪數相近的情況下,RF相對其它模型更不容易過擬合。
道理很簡單,直觀地說。每個基學習器學到的都是訓練集的子集。而"過擬合"通俗地來講就是擬合了整個訓練集的大部分資料。所以只訓練子集顯然更難做到擬合該子集以外的其它資料。
過擬合、高方差的問題發生在機器學習演算法被允許無用地探究非常複雜的假設空間,將抽樣誤差也進行擬合,最終得出帶有誤導性的複雜答案。
過擬合發生的原因通常有:
· 相對於訓練資料行數來說過多的自由引數
· Boosting的次數過多
· 神經網路層數過多
· 樹的深度過大
· 在SGD型別的演算法中迭代次數過多
事實上所有高度複雜的機器學習模型都有過擬合的傾向,但是題主的問題可以理解為為什麼在樹的數量增加時隨機森林不會過擬合。
隨機森林相比於單個決策樹不容易過擬合。過擬合的主要原因是模型學習了過多樣本中的隨機誤差,但是隨機森林隨機選擇樣本和特徵,並且將很多的隨機樹進行平均,從而將隨機誤差也進行了平均。
總的來說,整合方法可以大幅度地減小預測方差到近乎零從而提高整體的準確率。如果我們將單個隨機模型的期望泛化錯誤的方差定義為下圖:
因此,一個整體的期望泛化錯誤的方差可以寫為:
公式中的p(x)是基於來自兩個獨立的種子(seeds)的相同資料訓練出的隨機模型預測值的皮爾遜相關係數。如果我們增加隨機森林中決策樹的數量,反目M增大,並且當p(x)<1時整體的方差減小。因此整體的方差將會嚴格小於單個模型的方差。
簡單來說,增加整體中單個隨機模型的數量永遠不會增加泛化錯誤。