回覆列表
  • 1 # 羽樂生涯

    梯度消失的根源—深度神經網路和反向傳播。目前最佳化神經網路的方法都是基於反向傳播的思想,即根據損失函式計算的誤差透過梯度反向傳播的方式,指導深度網路權值的更新最佳化。

    梯度消失與梯度爆炸問題。兩種情況下梯度消失經常出現,一是在深層網路中,二是採用了不合適的損失函式,比如sigmoid。梯度爆炸一般出現在深層網路和權值初始化值太大的情況下。神經網路的反向傳播是逐層對函式偏導相乘,因此當神經網路層數非常深的時候,最後一層產生的偏差就因為乘了很多小於1的偏導數而越來越小,最終趨於0,從而導致層數比較淺的權重沒有更新,這就是梯度消失。梯度爆炸由於初始化權值過大,前面層比後面層變化的更快,導致權值越來越大,以至於溢位,導致NaN值。

    當使用sigmoid啟用函式時,更普遍出現的是梯度消失問題,僅僅在很窄的範圍內會出現梯度的爆炸問題。

    解決梯度消失問題的手段:加入BN層,使用不同的啟用函式(ReLu),使用殘差結構,使用LSTM網路結構等;

    解決梯度爆炸問題的手段:加入BN層,使用不同的啟用函式,梯度剪下(限制梯度範圍),權重正則化,使用LSTM網路,重新設計網路模型(減小層數、學習率、batch_size)。

  • 中秋節和大豐收的關聯?
  • 什麼詞語的意思是彼此遮蓋而互相襯托?