神經網路是十分強大的學習模型,尤其是對於視覺與語音識別問題,這與神經網路表達任意計算的能力密切相關。但是想要完全理解神經網路的效能、它是如何在動態環境中的一系列決策中下最終決定的仍然是十分困難的。神經網路的非直觀屬性可以總結為以下幾點:
首先這是一個黑箱子問題。因為我們在複雜的決策過程中涉及到非常多的層數,我們很難理解網路真正的思路。儘管科研人員做出了很多努力,比如下圖中的“深度視覺化工具箱”是被研發來一步步弄清神經網路是怎樣訓練的工具之一,但神經網路的內部對我們來說仍然十分複雜。
神經網路也經常犯低階錯誤。下圖是神經網路對抗性事例的例子。來自紐約大學和谷歌研究所的研究團隊發現網路中具有對抗性的示例會與網路的高度泛化能力產生矛盾。現在研究者仍然沒有查找出網路是否可以泛化良,又是怎樣被對抗性示例擾亂的。
神經網路的損失函式是非凸函式(如圖所示)。在最佳化神經網路時,損失函式會有一些區域性最大值與區域性最小值,這表明它總體來說既不是凹面也不是凸面。這個問題是一個研究小組在解決高維非凸最佳化問題時發現的。
神經網路會在訓練不佳時表現最佳。在權空間(weight-space)中,平底最小值是重要的連通區域,即與出現機率不大的過擬合相關聯,此區域內的失誤也大致保持不變。在股票市場預測的應用中,有平底最小值搜尋演算法的的網路表現明顯優於使用傳統反向傳播和權值衰減的演算法。但是最近一片關於深度學習大批次訓練的報告發現,大批次的訓練再找到更精確的最小值的同時,泛化能力減弱。換句話說只有當考慮進訓練演算法之後泛化才可能更出色。
神經網路是十分強大的學習模型,尤其是對於視覺與語音識別問題,這與神經網路表達任意計算的能力密切相關。但是想要完全理解神經網路的效能、它是如何在動態環境中的一系列決策中下最終決定的仍然是十分困難的。神經網路的非直觀屬性可以總結為以下幾點:
首先這是一個黑箱子問題。因為我們在複雜的決策過程中涉及到非常多的層數,我們很難理解網路真正的思路。儘管科研人員做出了很多努力,比如下圖中的“深度視覺化工具箱”是被研發來一步步弄清神經網路是怎樣訓練的工具之一,但神經網路的內部對我們來說仍然十分複雜。
神經網路也經常犯低階錯誤。下圖是神經網路對抗性事例的例子。來自紐約大學和谷歌研究所的研究團隊發現網路中具有對抗性的示例會與網路的高度泛化能力產生矛盾。現在研究者仍然沒有查找出網路是否可以泛化良,又是怎樣被對抗性示例擾亂的。
神經網路的損失函式是非凸函式(如圖所示)。在最佳化神經網路時,損失函式會有一些區域性最大值與區域性最小值,這表明它總體來說既不是凹面也不是凸面。這個問題是一個研究小組在解決高維非凸最佳化問題時發現的。
神經網路會在訓練不佳時表現最佳。在權空間(weight-space)中,平底最小值是重要的連通區域,即與出現機率不大的過擬合相關聯,此區域內的失誤也大致保持不變。在股票市場預測的應用中,有平底最小值搜尋演算法的的網路表現明顯優於使用傳統反向傳播和權值衰減的演算法。但是最近一片關於深度學習大批次訓練的報告發現,大批次的訓練再找到更精確的最小值的同時,泛化能力減弱。換句話說只有當考慮進訓練演算法之後泛化才可能更出色。
神經網路會忘記學過什麼。如果學習是循序漸進的形式進行,比如可以前進地並自適應地學習,將會是非常重要和有意義的。但是迄今的神經網路沒沒有達到這一能力,它們一般是在一次性得到所有資料的前提下完成多個任務,在學習任務幾位術後,網路會為了進行新的任務將既得知識覆蓋。在認知科學中,這一特性被叫做災難性遺忘,也是神經網路的極大侷限之一。