先驗知識:
提升樹的最佳化目標: ,其中yi為真實label,為第m-1個模型,為殘差。
——公式來自 李航《統計學習方法》P148
平方誤差損失函式
當L為平方誤差損失函式時,,
帶入提升樹,為
其中,。
可以看出來,損失函式的最小化可以看作讓 r 儘量等價於殘差。
r是什麼呢,,使用平方誤差損失函式時的殘差值。
其他損失函式
平方誤差損失函式的殘差,其他損失函式卻不一定是,那麼有一個通用的殘差嗎?
大佬Freidman提出了梯度提升樹(gradient boosting),這裡就是使用損失函式的負梯度作為殘差的近似值。
為什麼損失函式的負梯度作為殘差的近似值?
回到損失函式。
我們將f(x)而不是θ作為自變數。根據梯度下降法,可以得到損失函式引數的更新公式:
,
同時,因為提升樹的定義:.
於是,就可以得到殘差等於負梯度。
先驗知識:
提升樹的最佳化目標: ,其中yi為真實label,為第m-1個模型,為殘差。
——公式來自 李航《統計學習方法》P148
平方誤差損失函式
當L為平方誤差損失函式時,,
帶入提升樹,為
其中,。
可以看出來,損失函式的最小化可以看作讓 r 儘量等價於殘差。
r是什麼呢,,使用平方誤差損失函式時的殘差值。
其他損失函式
平方誤差損失函式的殘差,其他損失函式卻不一定是,那麼有一個通用的殘差嗎?
大佬Freidman提出了梯度提升樹(gradient boosting),這裡就是使用損失函式的負梯度作為殘差的近似值。
為什麼損失函式的負梯度作為殘差的近似值?
回到損失函式。
我們將f(x)而不是θ作為自變數。根據梯度下降法,可以得到損失函式引數的更新公式:
,
同時,因為提升樹的定義:.
於是,就可以得到殘差等於負梯度。