深度學習中的batch的大小對學習效果有何影響？

首頁>Club>darva叫西林2020-12-22 03:35

深度學習中的batch的大小對學習效果有何影響？

12

回覆列表

1 # 圍棋啟蒙教育

摘抄以下一段我覺得比較好的解釋。總du的來說個人覺zhi得對於效果的影響主要還是收斂性的好壞。而對於訓練過程來說的話應該還是跟訓練的代價，也就是速度相關。

深度學習的最佳化演算法，說白了就是梯度下降。每次的引數更新有兩種方式。

第一種，遍歷全部資料集算一次損失函式，然後算函式對各個引數的梯度，更新梯度。這種方法每更新一次引數都要把資料集裡的所有樣本都看一遍，計算量開銷大，計算速度慢，不支援線上學習，這稱為Batch gradient descent，批梯度下降。
另一種，每看一個數據就算一下損失函式，然後求梯度更新引數，這個稱為隨機梯度下降，stochastic gradient descent。這個方法速度比較快，但是收斂效能不太好，可能在最優點附近晃來晃去，hit不到最優點。兩次引數的更新也有可能互相抵消掉，造成目標函式震盪的比較劇烈。

為了克服兩種方法的缺點，現在一般採用的是一種折中手段，mini-batch gradient decent，小批的梯度下降，這種方法把資料分為若干個批，按批來更新引數，這樣，一個批中的一組資料共同決定了本次梯度的方向，下降起來就不容易跑偏，減少了隨機性。另一方面因為批的樣本數與整個資料集相比小了很多，計算量也不是很大。

相關內容

∧ 中秋節和大豐收的關聯？

∨ 感覺自己總在教男朋友怎麼對自己好，怎麼辦？

熱門排行