神經網路是什麼？

首頁>Club>彬2022-08-13 01:50

神經網路是什麼？

回覆列表

1 # 論智

以分類垃圾郵件為例。

如果用傳統程式做，怎麼做？

容易想到的一個思路是在郵件中搜索一些關鍵詞，比如“代開發票”之類的，然後給每個關鍵詞分配一個分數，再將這些特徵的分數加起來，得到一個總分。將這個總分和一個目標分數比較，大於這個分數結果為真（分類為垃圾郵件），小於這個分數結果為假（分類為正常郵件）。
Boolean detectSpam(f1, f2, ..., fn) {

if (w1 * f1 + w2 * f2 + ... + wn * fn > t) {

return true;

} else {

return false;

}

}

其中，f1 ... fn 代表匹配到的關鍵詞，w1 ... wn 代表相應的分數。

正如你所說：
傳統程式就是迴圈判斷什麼的
那上面就是一個判斷。detectSpam是分類一封郵件的，將它應用到所有郵件上，不正是迴圈嘛。所以說，這是一個標準的傳統程式。

好了，現在我們給上面提到的東西起些新名字。分配的分數，我們起名叫權重，目標分數，我們起名叫閾值。最後我們再把返回的布林值（true、false）改成數字1和0。
那麼上面的detectSpam變成了什麼，感知器（perceptron）！

所以說，你可以將感知器看成傳統程式中某類具有一些特定性質的函式。感知器接受多個輸入，計算一個多項式的值（輸入乘以權重並相加），返回一個輸出（1或0）。

之所以叫感知器，是因為它借鑑了神經末梢接受外部的輸入，決定是否激動的思路。

由於感知器主要是計算多項式的值，那麼從直覺上，線性不可分的問題，比如異或(XOR)函式，就無法轉化成感知器的形式。

但實際上，感知器並沒有這麼弱，將感知器組合一下，就可以表達異或函式。

我們準備兩個閾值為 0 的感知器，一個是x-y, 另一個是-x+y，將輸入分別發給這兩個感知器：
然後再將輸出提供給一個閾值為 0 的x+y感知器：

比較輸入和最終輸出，可以看到我們的這三個感知器運算的結果是符合異或的定義的。

這裡，前兩個感知器(x-y和-x+y)是第一層，最後一個感知器(x+y)是第二層。由此我們看到，透過組合感知器，可以構成一個分層的神經網路，分層的神經網路可以解決線性不可分問題。

但是感知器還是看起來很弱啊。異或函式這麼簡單的問題，都要這麼複雜才能搞定。而稍微正常一點的程式語言，異或函式都能很直接地定義。我們何必要自廢武功用感知器和神經網路呢？直接用傳統程式不行嗎？

實際上，感知器和神經網路看起來很弱，但它也有優點：

感知器的“介面”很齊整，每個感知器都有多個輸入，返回一個結果，這就使得它們組合起來很容易。
感知器內部都是在進行多項式運算，而不像傳統程式一樣千變萬化，因此最佳化起來很容易（特別是現在我們有很強勁的擅長浮點運算的GPU）。

感知器的運算結果只取決於它的輸入，因此可以很容易地以分散式的方式跑。

上面那個例子中x-y, -x+y, x+y的確定，來自於我們對異或函式的理解。假設我們對異或函式一無所知，感知器的結構決定了，我們比較容易透過暴力的方式（所謂訓練神經網路）來嘗試各種權重和閾值。相反，我們不太可能透過暴力的方式生成字串恰巧撞對異或函式的一般定義。

神經網路分層的結構，意味著我們可以逐層嘗試，來逼近預期的結果。

以上只是神經網路的基本原理。實際使用的神經網路要複雜很多。
比如，我們的感知器只能輸出 0 或者 1，而既然是暴力嘗試，那我們就希望整個網路對引數的調整敏感一點。這時候我們就不再比較多項式的值和閾值來輸出 0 或者 1，而是將閾值轉化成偏置加到多項式上，並使用一個啟用函式對多項式的結果進行處理，得到一個浮點數。最簡單的啟用函式是 ReLU, 定義很簡單 max(0, n). ReLu 雖然簡單，但出奇地好用。

同時，實際工程中使用的神經網路，無論是規模還是結構一般都非常複雜。

2 # Ada禕禕

首先要搞清楚的是神經網路是一種模型，也可以理解為是一種技術，是順應時代發展而產生的一種技術（或模型）。我們目前所處的時代是網際網路資訊時代，也就是說，隨著網際網路的發展，大量的資訊資料日益增長，在這個背景之下，我們可以有大量的資料來訓練神經網路了，逐漸取代了之前的傳統的機器學習方法或者基於規則的方法。也就是說明了，神經網路是一種資料驅動的技術，它的訓練是依賴於大量資料的，如果你沒有可用來訓練模型的大量資料，與其使用神經網路模型還不如使用傳統的機器學習模型。
其實，神經網路很早很早之前就被提出了，只不過當時沒有如今這麼多資料的支援，導致其效能不好，所以被沒落了，機器學習技術反而在當時比較盛行，而如今，時代變了，正所謂三十年河東，三十年河西，神經網路終於成了如今計算機領域的霸主。

神經網路的一大好處就是，省去了傳統機器學習方法中繁瑣而敏感的人工特徵設計（即特徵工程）這一過程，完全靠計算機透過各種神經網路結構，以及餵給它大量的資料，自行學習特徵（至於它學到了哪些特徵，我們是不清楚的，這就是我們常說的，神經網路是一種黑盒技術，反正我們根據模型的結果，知道它學到了某些特徵）。

其實，神經網路的原理就是模仿人類的大腦的神經元的學習過程。每當我看到神經網路這個名詞，我就會想到小嬰兒，把還沒訓練前的神經網路比作新生兒，神經網路的訓練過程，類似於每天給小baby不停的重複“爸爸”“媽媽”，經過一段時間的訓練，它就學會了，看到媽媽的時候，會喊媽媽，看到爸爸的時候，喊爸爸，至於小寶寶到底是怎麼學會的，你也不是特別清楚，反正你會，“哇哦，好神奇”。當然也會有出錯的時候，沒有任何一個模型會百分之百的正確。
在現實的應用中，你會根據不同的任務設定，選擇不同的神經網路結構，比如CNN,RNN,LSTM.所有的神經網路結構都是來自於任務的需要。而且會隨著時間隨著科技的進步，神經網路結構越來越高能。
3 # 東北振興

人工神經網路，顧名思義，是一個可以說是仿生學的概念。人類發現神經元之間相互協作可以完成資訊的處理和傳遞，於是提出了人工神經網路的概念，用於進行資訊處理。

4 # 李沉舟

腦的神經細胞網路節點為140億×1萬個
*聰明與否取決於神經細胞的細密度

一個人聰明與否與腦袋的重量無關，也不由腦袋的褶皺數量決定，而是由神經細胞的網路決定。神經細胞具有好幾個如樹枝一般延伸而出的樹狀突起，而其中有一條特別長，稱之為軸突。軸突會與其他神經細胞的樹突或胞體結合，負責傳達資訊。這個結合的部分稱為突觸（Synapse），突觸實際上並沒有黏合，而是有20～30奈米的間隙。連線點沒有接觸，是無法傳遞資訊（電位訊號）的，因此需要一種稱為神經傳導物質的化學物質為媒介，將電位訊號轉化成化學訊號，越過間隙來傳遞。
將神經細胞互相連線的突觸，在每個神經細胞中有100～100 000個不等，平均來說約為10 000個。大腦的神經細胞有140億個，也就是說全部有140億×1萬個突觸，它們在腦部構築成一個複雜的網路世界。
5 # 矽釋出

人工神經網路（ANNs）或連線系統是計算系統，其模糊地受到構成動物腦的生物神經網路的啟發。這些系統透過考慮例項“學習”（即逐步提高效能），通常沒有特定於任務的程式設計。例如，在影象識別中，他們可能會透過分析手動標記為“貓”或“無貓”的示例影象並使用結果識別其他影象中的貓來識別包含貓的影象。他們沒有任何先驗知識就這樣做關於貓，例如，他們有毛皮，尾巴，鬍鬚和貓般的面孔。相反，他們從他們處理的學習資料中演變出自己的一套相關特徵。
人工神經網路基於一組稱為人造神經元（在動物腦中的生物神經元的簡化版本）的連線單元或節點。人造神經元之間的每個連線（簡化版本的突觸）可以將訊號從一個傳輸到另一個。接收訊號的人工神經元可以處理它，然後發出訊號傳遞與之相連的人造神經元。

在常見的ANN實現中，人造神經元之間的連線處的訊號是實數，並且每個人造神經元的輸出透過其輸入之和的非線性函式來計算。人工神經元和連線通常具有隨著學習進行而調整的權重。重量增加或減少連線處訊號的強度。人造神經元可能有一個閾值，只有當彙總訊號超過該閾值時才會傳送訊號。通常，人造神經元是分層組織的。不同的層可能會對其輸入執行不同型別的轉換。訊號從第一個（輸入）到最後一個（輸出）層傳播，可能在多次穿越層之後。
ANN方法的最初目標是以與人類大腦相同的方式解決問題。然而，隨著時間的推移，注意力集中在匹配具體任務上，導致生物學的偏差。人工神經網路已用於各種任務，包括計算機視覺，語音識別，機器翻譯，社交網路過濾，遊戲板和影片遊戲以及醫療診斷。

6 # 智東西

下面我們來點通俗易懂的幾個概念。如果想系統性學習，建議買一些相關的書籍看一看。
神經網路
神經網路技術是機器學習下屬的一個概念，本質上是從資訊處理的角度對人腦神經元網路進行抽象模擬，從而建立計算模型。

基於神經連線的計算模型在上世紀40年代開始受到重視，大量的訓練資料（包括影象、影片和語音）成功的實現了資料分析。在深度學習發展之前，神經網路通常只有3到5層，和幾十個神經元/節點；深度學習之後，神經網路擴充套件到7到10層，甚至更多層，模擬神經元數目增至百萬量級，從而面向更為複雜的問題實現更為可靠的處理。當下興起的人工智慧，主要就是大規模的深度學習。
具體來看，神經網路有三類主要形式：

1.1 前饋神經網路

前饋神經網路（Feed forward neural networks）是最常見的人工神經網路。在這種結構下，資訊只向一個方向（向前）移動，即從輸入層經過“隱藏層”到輸出層，沒有迴圈網路。首個單節神經網路在1958年提出，經過計算能力和訓練演算法的大發展，前饋神經網路展現出了更高的效能水平。

1.2 迴圈神經網路

迴圈神經網路(Recurrent neural networks)指結構中包含節點定向連線成環（loops）的人工神經網路，非常適合於處理（手寫、文字、語音形式的）任意時序的輸入序列。2016年11月，牛津研究報告顯示，基於神經網路（和卷積神經網路）的系統在唇語識別應用中實現了95%的準確率（有經驗的人類唇語者準確率近52%）。
1.3 卷積神經網路

卷積神經網路（Convolutional neural networks）是一種深度前饋人工神經網路，其邏輯結構受動物視覺大腦皮層的啟發，對於大型影象處理（視覺感知任務）有出色表現。

▲最好的AI系統識別能力已經超過人類
7 # 企業上雲那些事

更多科技資訊，盡在雲棲科技聯播~
摘要：對神經網路概念還很朦朧？來看看阿里技術大牛的分享！神經網路的演化；感知機模型；前饋神經網路；反向傳播；深度學習基礎知識；1.神經網路的演變
在我們深入研究神經網路的歷史發展之前，讓我們首先介紹神經網路的概念。神經網路主要是一種計算模型，它以簡化的水平模擬人類大腦的運作。這種型別的模型使用大量計算神經元，這些神經元透過加權連線層連線。每層神經元都能夠執行大規模平行計算並在它們之間傳遞資訊。
下面的時間表顯示了神經網路的演變：

神經網路的起源甚至可以追溯到計算機本身的發展之前，第一個神經網路出現在20世紀40年代。本文將透過一些歷史來幫助每個人更好地理解神經網路的基礎知識。

第一代神經網路神經元作為驗證者：這些神經元的設計者只是想確認他們可以構建用於計算的神經網路。但，這些網路不能用於訓練或學習，它們只是充當邏輯閘電路。它們的輸入和輸出是二進位制的，權重是預定義的。

神經網路發展的第二階段發生在20世紀50年代和60年代：這涉及Roseblatt關於感知機模型的開創性工作和Herbert關於學習原理的工作。
2.感知機模型
我們上面提到的感知機模型和神經元模型相似但有一些關鍵差異。感知機模型中的啟用演算法可以是中斷演算法或S形演算法，並且其輸入可以是實數向量而不是神經元模型使用的二進位制向量。與神經元模型不同，感知機模型能夠學習。接下來，我們將討論感知機模型的一些特殊特性。
我們可以將輸入值（x1...xn）視為N維空間中的座標，而wTx-w0=0是N維空間中的超平面。顯然，如果wTx-w0<0，則該點低於超平面，而如果wTx-w0> 0，則該點落在超平面之上。

感知機模型對應於分類器的超平面，並且能夠分離N維空間中的不同型別的點。看下圖，我們可以看到感知機模型是線性分類器：

感知機模型能夠輕鬆地對AND，OR和NOT等基本邏輯運算進行分類。

我們可以透過感知機模型對所有邏輯運算進行分類嗎？答案當然不是。例如，透過單個線性感知機模型很難對異或運算進行分類，這是神經網路在第一個峰值之後很快進入開發的低點的主要原因之一。包括明斯基在內的一些大牛就感知機模型的主題討論了這個問題。然而，很多人在這個問題上誤解了作者。
實際上，像明斯基這樣的作者指出，可以透過多層感知機模型實現異或運算;然而，由於學術界缺乏有效的方法來研究當時的多層感知機模型，神經網路的發展已經進入了第一個低點。

下圖直觀地顯示了多層感知機模型如何實現異或操作：
3.前饋神經網路
進入20世紀80年代，由於感知機模型神經網路的表達能力侷限於線性分類任務，神經網路的發展開始進入多層感知機階段。而經典的多層神經網路是前饋神經網路。

從下圖中可以看出，它涉及輸入層，具有未定義數量的節點的隱藏層和輸出層。

我們可以透過多層感知機模型表達任何邏輯運算，但這引入了三層之間的加權學習問題。當xk從輸入層傳輸到隱藏層上的加權vkj，然後透過像sigmoid這樣的啟用演算法時，我們可以從隱藏層中檢索相應的值hj。同樣，我們可以使用類似的操作使用hj值從輸出層匯出yi節點值。為了學習，我們需要來自w和v矩陣的加權資訊，以便我們最終可以獲得估計值y和實際值d。
如果你對機器學習有基本的瞭解，你就會明白為什麼我們使用梯度下降來學習模型。將梯度下降應用於感知機模型的原理相當簡單，如下圖所示。首先，我們必須確定模型的損失。

該示例使用平方根損失並尋求縮小模擬值y與實際值d之間的差距。為了方便計算，在大多數情況下，我們使用根關係E=1/2（dy）^2 = 1/2（df（x））^2。

根據梯度下降原理，加權更新週期的比率為：wj←wi+α（d-f（x））f"（x）xi，其中α是我們可以手動調整的學習率。
4.反向傳播
我們如何學習多層前饋神經網路中的所有引數？頂層的引數非常容易獲得，我們可以透過比較計算模型輸出的估計值和實際值之間的差異並使用梯度下降原理來獲得引數結果來實現引數。當我們嘗試從隱藏層獲取引數時，問題出現了。即使我們可以計算模型的輸出，我們也無法知道預期值是什麼，因此我們無法有效地訓練多層神經網路。這個問題長期困擾著研究人員，它導致20世紀60年代以後神經網路的發展不足。
後來，在70年代，科學家獨立地引入了反向傳播演算法的想法。這種演算法背後的基本思想實際上非常簡單，即使當時沒有辦法根據隱藏層的預期值進行更新，也可以透過從隱藏層傳遞的錯誤來更新隱藏層和其他層之間的權重。在計算梯度時，由於隱藏層中的所有節點都與輸出層上的多個節點相關，因此前一層上的所有層都被累積並一起處理。

反向傳播的另一個優點是我們可以同時對同一層上的節點執行梯度和加權，因為它們是不相關的。我們可以用偽程式碼表示反向傳播的整個過程如下：

接下來，我們來談談反向傳播神經網路的一些其他特性。反向傳播實際上是一個鏈規則，它可以很容易地推廣任何具有對映的計算。根據梯度函式，我們可以使用反向傳播神經網路來生成區域性最佳化解決方案，但不是全域性最佳化解決方案。然而，從一般的角度來看，反向傳播演算法產生的結果通常是令人滿意的最佳化解決方案。下圖是反向傳播演算法的直觀表示：
在大多數情況下，反向傳播神經網路將在範圍內找到最小的可能值;但是，如果我們離開那個範圍，我們可能會發現更好的價值。在實際應用中，有許多簡單有效的方法可以解決這類問題，例如，我們可以嘗試不同的隨機初始化方法。而且，在實踐中，在現代深度學習領域中經常使用的模型中，初始化方法對最終結果具有顯著影響。迫使模型離開最佳化範圍的另一種方法是在訓練期間引入隨機噪聲或使用遺傳演算法來防止訓練模型停止在非理想的最佳化位置。

反向傳播神經網路是一種優秀的機器學習模型，在談到機器學習時，我們不禁注意到機器學習過程中經常遇到的基本問題，即過度擬合的問題。過度擬合的一個常見表現是，在訓練期間，即使模型的損失不斷下降，測試組中的損失和錯誤也會增加。有兩種典型方法可以避免過度擬合：
提前停止：我們可以提前分離驗證組，並在訓練期間針對此已經驗證的組進行執行。然後我們可以觀察到模型的損失，如果損失已經在驗證組中停止但仍然在訓練組中下降，那麼我們可以提前停止訓練以防止過度擬合。正則化：我們可以在神經網路中為權重新增規則。目前流行的dropout方法涉及隨機丟棄一些節點或側面。我們可以將這種方法視為正則化的一種形式，在防止過度擬合方面非常有效。
儘管神經網路在20世紀80年代非常流行，但不幸的是，它們在20世紀90年代進入了發展的另一個低谷。許多因素促成了這一低估區。例如，支援向量機，它是20世紀90年代的流行模型，在各種主要會議上登臺亮相，並在各種領域得到應用。支援向量機具有出色的統計學習理論，易於直觀理解。它們也非常有效併產生近乎理想的結果。

在這種轉變中，支援向量機背後的統計學習理論的興起對神經網路的發展施加了不小的壓力。另一方面，從神經網路本身的角度來看，即使你可以使用反向傳播網路在理論上訓練任何神經網路，在實際應用中，我們注意到隨著神經網路中層數的增加，難度訓練網路成倍增長。例如，在20世紀90年代初，人們注意到在具有相對大量層的神經網路中，通常會看到梯度損失或梯度爆炸。
例如，梯度損失的一個簡單例子是神經網路中的每個層都是S形結構層，因此在反向傳播期間它的損失被連結成S形梯度。當一系列元素串在一起時，如果其中一個漸變非常小，則漸變將變得越來越小。實際上，在傳播一層或兩層之後，該梯度消失。梯度損失導致深層中的引數停止變化，使得很難獲得有意義的結果。這是多層神經網路很難訓練的原因之一。

學術界已經深入研究了這個問題，並得出結論，處理它的最簡單方法是改變啟用演算法。在開始時，我們嘗試使用整流啟用演算法，因為S形演算法是一種索引方法，很容易引起梯度損失問題。另一方面，整流取代了sigmoid函式並替換了max（0，x）。從下圖中我們可以看出，估計值大於0的梯度為1，這可以防止梯度消失的問題。但是，當估計值低於0時，我們可以看到梯度再次為0，因此ReLU演算法必須是不完美的。後來，出現了許多改進的演算法，包括Leaky ReLU和Parametric Rectifier（PReLU）。當估計x小於0時，我們可以將其轉換為類似0的係數。
隨著神經網路的發展，我們後來提出了許多方法來解決在結構層面上傳遞梯度的問題。例如，Metamodel、LSTM模型和現代影象分析使用多種跨層連結方法來更容易地傳播漸變。
5.深度學習基礎
從20世紀90年代到2006年發展的第二個低谷期，之後神經網路再次進入群眾視角，這次影響力比以前更大。神經網路興起期間的一個重大事件是Hinton包括Salahundinov在內在多個學術論壇提交的多層神經網路（現在稱為“深度學習”）的論文。

其中一個論文解決了為神經網路設定初始化值的問題。簡單來說，解決方案是將輸入值視為x，將輸出值視為解碼x，然後透過此方法找到更好的初始化點。另一篇論文提出了一種快速訓練深度神經網路的方法。實際上，有許多因素促成了神經網路的普及，例如，計算資源的巨大增長和資料的可用性。在20世紀80年代，由於缺乏資料和計算資源，很難訓練大規模的神經網路。
神經網路的早期興起是由三個巨人驅動的，即Hinton，Bengio和LeCun。Hinton的主要成就是Restricted Boltzmann Machine和Deep Autoencoder，Bengio的主要貢獻是使用元模型進行深度學習的一系列突破。這也是深度學習取得重大突破的第一個領域：

2013年，基於元模型的語言建模已經能夠勝過當時最有效的方法 -機率模型。LeCun的主要成就是與CNN有關的研究。深度學習在NIPS、ICML、CVPR、ACL等一些重要的峰會上，吸引了不少關注。其中包括Google Brain，Deep Mind和Facebook AI的出現，這些都將他們的研究中心放在深度學習領域。
深度學習進入爆發期後的第一個突破是在語音識別領域。在我們開始使用深度學習之前，所有的模型都是在先前定義的統計資料庫上進行的。2010年，微軟使用深度學習神經網路進行語音識別，我們從下圖中可以看出，兩個錯誤指標都下降了2/3，這是一個明顯的改善。基於最新的ResNet技術，微軟已將該指標降至6.9％，並逐年實現了改進提升。

在影象分類領域，CNN模型在2012年經歷了ImageNet形式的重大突破。在ImageNet中，影象分類使用海量資料集進行測試，然後分類為1000種類型。在應用深度學習之前，由於Hinton和他的學生在2012年使用CNN所做的工作，影象分類系統的最佳錯誤率為25.8％（2011年），僅降低了10％。
從圖中我們可以看出，自2012年以來，該指標每年都經歷了重大突破，所有這些突破都是使用CNN模型實現的。

這些巨大的成就在很大程度上歸功於現代系統的多層結構，因為它們允許獨立學習和透過分層抽象結構表達資料的能力。抽象的特徵可以應用於各種任務，對深度學習的當前流行做出了重大貢獻。

接下來，我們將介紹兩種經典和常見型別的深度學習神經網路：一種是卷積神經網路（CNN），另一種是遞迴神經網路（RNN）。
卷積神經網路
卷積神經網路有兩個核心概念。一個是卷積，另一個是池化（pooling）。在這一點上，有些人可能會問我們為什麼不簡單地使用前饋神經網路而選擇CNN。例如，以1000x1000影象為例，神經網路在隱藏層上將擁有100萬個節點。那麼，前饋神經網路將具有10 ^ 12個引數。在這一點上，系統幾乎不可能學習，因為它需要絕對大量的估算。
但是，大量影象具有這樣的特徵：如果我們使用CNN對影象進行分類，那麼由於卷積的概念，隱藏層上的每個節點只需要連線並掃描影象的一個位置的特徵。如果隱藏層上的每個節點連線到10 * 10個估算，則最終引數數量為1億，如果可以共享多個隱藏層訪問的本地引數，則引數數量會顯著減少。

看下圖，前饋神經網路和CNN之間的區別顯然很大。影象中的模型從左到右依次為完全連線、正常、前饋、完全連線的前饋和CNN建模神經網路。我們可以看到，可以共享CNN神經網路隱藏層上節點的連線權重引數。

另一個操作是池化。CNN將在卷積原理的基礎上在中間形成隱藏層，即池化層。最常見的池化方法是Max Pooling，其中隱藏層上的節點選擇最大輸出值。因為多個核心正在池化，所以我們在中間獲得了多個隱藏層節點。
有什麼好處？首先，池化進一步減少了引數的數量，其次，它提供了一定量的平移不變性。如圖所示，如果影象中顯示的九個節點之一要經歷轉換，則在池化層上生成的節點將保持不變。

CNN的這兩個特性使其在影象處理領域中流行，並且已成為影象處理領域的標準。下面的視覺化汽車的例子是CNN在影象分類領域中應用的一個很好的例子。在將汽車的原始影象輸入CNN模型後，我們可以透過卷積和ReLU啟用層傳遞一些簡單粗糙的特徵，如邊緣和點。我們可以直觀地看到它們距離最上面的輸出層的輸出影象越近，它們越接近汽車的輪廓。此過程將最終檢索隱藏的圖層表示並將其連線到分類圖層，之後它將接收影象的分類，如影象中顯示的汽車、卡車、飛機、船舶和馬。

下圖是LeCun和其他研究人員在早期手寫識別領域使用的神經網路。該網路在20世紀90年代在美國郵政系統中得到應用，有興趣的讀者可以登入LeCun的網站檢視手寫識別的動態過程。
雖然CNN在影象識別領域已經變得非常受歡迎，但它在過去兩年中也成為文字識別的工具。例如，CNN是目前文字分類最佳解決方案的基礎。在確定一段文字的類別方面，所有人真正需要做的是從文字中的關鍵詞中尋找指示，這是一項非常適合CNN模型的任務。

CNN具有廣泛的實際應用，例如在調查、自動駕駛汽車、分段和神經風格中。神經風格是一個不錯的應用程式。例如，App Store中有一個名為Prisma的流行應用程式，它允許使用者上傳影象並將其轉換為不同的樣式。例如，它可以轉換為Van Goh的Starry Night風格，這個過程在很大程度上依賴於CNN。
遞迴神經網路
至於遞迴神經網路背後的基本原理，我們可以從下圖中看到，這種網路的輸出不僅依賴於輸出x，還依賴於隱藏層的狀態，隱藏層的狀態根據先前的輸入x進行更新。展開的影象顯示了整個過程，來自第一個輸入的隱藏層是S（t-1），它影響下一個輸入X（t）。遞迴神經網路模型的主要優點是我們可以在順序資料操作中使用它，如文字，語言和語音，其中當前資料的狀態受先前資料狀態的影響，使用前饋神經網路很難處理這種型別的資料。
說到遞迴神經網路，我們不能提出我們前面提到的LSTM模型。LSTM實際上並不是一個完整的神經網路，簡而言之，它是RNN節點經過複雜處理的結果。LSTM具有三個門，即輸入門，遺忘門和輸出門。

這些門中的每一個用於處理單元中的資料並確定單元中的資料是否應該被輸入，遺忘或輸出。

最後，我們來談談神經網路的跨學科應用，這種應用正在獲得廣泛認可。該應用程式涉及將影象轉換為影象的文字描述或描述它的標題，我們可以首先使用CNN模型來描述具體的實現過程，以提取有關影象的資訊並生成矢量表示。稍後，我們可以將該向量作為輸入傳遞給已經訓練過的遞迴神經網路，以產生影象的描述。

8 # 中關村線上

神經網路是一種以人腦為模型的機器學習，簡單地說就是創造一個人工神經網路，透過一種演算法允許計算機透過合併新的資料來學習。

神經網路簡單說就是透過一種演算法允許計算機透過合併新的資料來學習

雖然現在有大量的人工智慧演算法，但是神經網路能夠執行深度學習。當大腦的基本單位是神經元時，人工神經網路的基本組成部分是一個感知器，這個感知器可以完成簡單的訊號處理，然後連線到一個大的網狀網路中。利用深度學習的神經網路任務的一個常見例子是物件識別任務，在該任務中，神經網路呈現出大量特定型別的物件，如貓或路標，而計算機透過分析所呈現影象中的反覆出現的模式，學會對新影象進行分類。
神經網路如何學習

與其他演算法不同的是，具有深度學習能力的神經網路不能直接程式設計完成任務。相反，他們就像孩子發育中的大腦一樣，他們需要學習這些資訊。一般學習方法有三種：

1.監督學習：這種學習策略是最簡單的，因為有一個標記的資料集，計算機要經過這些資料集，然後對演算法進行修改，直到它能夠處理資料集以獲得所需的結果。

2.無監督學習：如果沒有可供學習的標記資料集，則使用此策略。神經網路分析資料集，然後用代價函式告訴神經網路它離目標有多遠。然後，神經網路進行調整，以提高演算法的準確性。

3.強化學習：在該演算法中，對神經網路的正向結果進行強化，對一個負結果進行懲罰，迫使神經網路隨著時間的推移而學習。
神經網路的歷史

雖然神經網路確實代表了強大的現代計算機技術，但這個想法可以最早可以追溯到1943年。芝加哥大學的兩名研究人員，神經生理學家沃倫·麥卡洛和數學家沃爾特·皮特在論文《神經活動內在思想的邏輯微積分》中闡述了神經元的啟用是大腦活動的基本單位的理論。

神經網路現在已經可以進行“筆跡識別”

20世紀50年代的神經網路是計算機神經網路研究的黃金期，這個階段產生的感知器實現了基於蒼蠅複眼的視覺模式識別。1959年，斯坦福大學的兩名研究人員開發了MADALINE(多個自適應線性單元)，一個神經網路超越理論，並承擔一個實際的問題。MADALINE被專門用於減少電話線上回聲的數量，以提高語音質量，而且非常成功，直到現在它仍然在商業上使用。1975年，第一個多層網路被開發出來，為神經網路的進一步發展鋪平了道路，雖然一些人在十年前就認為這是不可能的成就；1982年，當普林斯頓大學教授約翰·霍普菲爾德發明了聯想神經網路時，人們對神經網路產生了極大的興趣，聯想神經網路的創新之處在於資料可以雙向傳播，至此人工神經網路得到了廣泛的普及和發展。
筆跡識別是一個可以透過人工神經網路處理的真實世界問題的一個例子。人類可以用簡單的直覺識別筆跡，但對計算機的挑戰是，每個人的筆跡是獨特的，有不同的風格，甚至字母間距不同，因此很難一致識別。例如，第一個字母，一個大寫字母A，可以描述為三條直線，其中兩條在頂部的頂點相交，第三條在另兩條中間相交，對人類來說是有意義的，但是用計算機演算法來表達這一點是一種挑戰。

採用人工神經網路方法，向計算機提供已知手寫體字元的訓練示例，這些字元以前被標記為它們對應的字母或數字，然後透過該演算法，計算機學會識別每個字元，並且隨著字符集的資料集的增加，準確性也隨之提高。手寫識別有各種各樣的應用，例如在郵政服務中自動讀取信件地址，減少銀行支票上的欺詐行為，用於筆式計算的字元輸入。
神經網路可以對金融市場進行預測

人工神經網路的另一類問題是對金融市場的預測。這也被稱為“演算法交易”，目前已適用於所有型別的金融市場，從股票市場，大宗商品，利率和各種貨幣。在股票市場的情況下，交易者利用神經網路演算法尋找被低估的股票，對現有的股票模型進行改進，並利用深度學習方面對其演算法進行最佳化，以適應市場的變化，現在有一些公司專門研究神經網路股票交易演算法，例如MJ交易系統。

人工神經網路演算法以其固有的靈活性，繼續應用於複雜模式識別和預測問題。除了上面的例子外，這還包括各種不同的應用，如社交媒體影象上的面部識別、用於醫學成像的癌症檢測以及商業預測。
9 # 繁星落石

神經網路只是說網路結構的執行方式和結構與人腦神經類似，但是實際工作原理卻並非完全相同，只是借鑑了神經運作的原理罷了。而且神經網路主要提供的是一種非線性的數學表示式解析，對於傳統演算法而言，可能可以比較容易實現線性的或是較為簡單的非線性關係，卻難以將兩者組合起來，現在神經網路提供了一種切實可行又快速穩定的尋找這種表達方式的方法。

10 # AI極課

神經網路旨在透過構建多層次（輸入層、隱層、輸出層）的機器學習模型和海量訓練資料來學習更有用的特徵，能夠構建複雜的人工智慧模型，從而模擬人腦解決人工智慧問題。2006年Hinton等人提出“深度學習”神經網路以後，人工智慧在技術上經過5-8年的沉澱後獲得突破性進展，自2012年以來，以“卷積神經網路（CNNs）”和“遞迴神經網路（RNN）”為主的深度學習模型使得複雜任務分類準確率大幅提高，相比其他演算法效果和效率改善顯著，從而推動了以影象處理、語音識別以及語義理解技術為核心的人工智慧的的快速發展。
神經網路的目標旨在用簡單的獨立結構構建出複雜的數學模型。在單獨的節點和節點之間是簡單的線性模型，而當層數變多，節點數變多的時候，整個模型構建出了非線性的特徵，具有強大的數學模型效果，透過資料學習出適合特定資料的網路引數，從而適應極為複雜的現實情況。深度學習用通俗的說法來看，就是層數較多的神經網路。最基礎的神經網路模型是前饋神經網路，這是最基礎的模型，其他的神經網路結構的邏輯結構和訓練方式都基於這個模型。神經網路模型可以看作是一個黑箱子，外部很多觀測到的特徵，這些特徵按照模型要求作為輸入節點，資料在這些節點中按照自己的特徵輸入，這個模型的目的是透過一個較為複雜的結構得到目標值。其實不用把神經網路想得有多麼高深，其實中間的每個節點的連線只是最簡單的線性方程。我用通俗的方式打個比方，如果我們把一個人的特徵進行數學表達，然後判斷他是什麼性別，我們用神經網路可以這樣來表示，中間的黑箱就是神經網路：
這個黑箱過程是一個很複雜的結構，這些結構就是所謂的隱層節點，隱層節點相互之間連線是透過線性結構連線的，他們可以是一層也可以是多層，每一層的節點數可以是任意的，當調整好結構之後，資料就可以根據訓練資料學習出特定的模型，這個模型中隱含了資料的模式，在未來遇到不曾遇到的資料之後這些資料就會透過學習到的結構得出想要解決的目標。在這裡，對輸入端特徵的選取和把目標問題轉化成模型的輸出是需要去嘗試的，當可以將實際問題轉化成神經網路能夠處理的問題之後，隱層結構的構建也是需要經驗的。

神經網路最重要的幾個概念就是前向反饋，反向反饋，權重更新，具體來說我可以用單層神經網路的訓練過程做一個解釋。

我們給定了樣本的輸入值x,樣本的輸出值y,神經網路的權重w，這個單層的神經網路可以表現為如下形式：
我們在神經網路中的每一個步驟都有一個權重w，那利用這組輸出權重與我們的樣本輸出值會形成一個誤差值

我們現在要做的是，根據這個誤差來自動調整我們的權重，並且權重變化方向是收斂結果走的，這裡我們用了梯度下降方法。

這是某一個節點的梯度變化過程：

儘管這是單層的訓練過程，多層神經網路的過程是一個疊加，我們所謂的卷積神經網路是在維影象上用一個卷積操作做了一個節點的編碼，過程也是類似的。

現在所謂的深度學習就是層數很深的神經網路，近年來隨著計算效能的提升，神經網路結構的發展，很多過去的人工智慧任務得以用神經網路end-to-end得實現。其實這個過程沒有大家想的這麼複雜，曾經在愛丁堡大學從零手寫DNN，CNN，那一段經歷加深了我的理解。
11 # Morning丁先生

我的理解可歸結為一句話，"深度神經網路"是計算機對時空因果的認知模型。請參考我的文章《深度神經網路模型的思考和直觀理解-卷積小白的隨機世界》

神經網路的輸入

對於神經網路的輸入，我們稱之為樣本和樣本集合。比如我們有：

學生1：性別1，年齡1，身高1，體重1，成績1

學生2：性別2，年齡2，身高2，體重2，成績2
學生3：性別3，年齡3，身高3，體重3，成績3

學生4：性別4，年齡4，身高4，體重4，成績4

… …

學生N：性別N，年齡N，身高N，體重N，成績N

如何看待這些資料呢？

A 每個樣本在時空中是一個存在，樣本是"樣本當下一段區域性時空本身"的因果世界的因；

學生A是男的，以後會結婚。身高較高會成為一名籃球運動員，但他必須為此減肥，因為體重太大。同時他學習成績很好，為了籃球放棄了考大學的機會，而遭受父母的訓斥。可見，每一個樣本都是時空的存在，都是一個因果世界。

B 樣本是"所隸屬的一個更大範圍的一個因果世界當下一段區域性時空"的一個區域性存在，或者說是區域性的偏差（或者說區域性的整體）
如上圖，樣本所隸屬的更大的因果世界可以是"當前的樣本集合"，樣本的集合形成一個因果曲線。在這個更大的因果世界裡，樣本本身的存在是沒有意義的。比如，樣本集合有1000000個數據，如果去掉"學生１"的資料，或者再更換為其他"學生ｘ"的資料，不影響樣本集合因果世界的因果關係。因此，在當前這個這種情況下，"樣本的意義"不在於這個由於意識主觀採樣而生成的"本身這個區域性存在"，而在於"作為整體的一部分的區域性，即偏差，即斜率，即梯度"。

對於一個樣本，這個樣本雖然遵循上面"B"中的描述，屬於一個更大範圍因果世界的區域性整體。但，這個更大範圍的因果世界背後是"橫向和縱向多重時空交錯和巢狀的時空世界"。

比如，一對夫妻存在於如下圖所示的"父輩身高，家鄉經濟水平，受教育程度，所在城市，飲食習慣…"多重的因果世界裡，他們生養了一個學生，這個學生的出生是隨機的，如果我們把這個學生的身高，成績，體重等，作為一個取樣的樣本，那麼這個樣本就呈現了一個因果世界。因此，我們可以把後者的因果世界看作前者多重因果世界的一個映象
D 樣本作為存在的意義在於它作為隨機空間的一個部分，即機率。也可以說樣本作為存在的意義在於它作為整體因果曲線的偏差，即斜率。所以，機率和斜率本體相同。

神經元模型的建立

神經網路是計算機的一種自學習模型，可以比喻成一個人。一個人在孩提時如果能夠閱讀和背誦"孝經"，然後在生活中不斷的輸入關於"孝"的認知和觀察到"孝"的行為。那麼，長大後，他就會明白"孝"的道理，產生愛自身，孝敬父母的行為。這體現了人擁有一個"學習機制（模型）"。

計算機的輸入，是上面提到的樣本資料（關於"孝"的感知和行為觀察的輸入），然後學習樣本資料背後的因果關係（人透過時空模型進行學習）。然後，可以對其他取樣輸出符合因果關係的預測（輸出符合"孝道"因果的行為）
神經元啟用函式的意義

在神經網路中，每一個神經元關聯一個"啟用函式"。啟用函式的意義在於人的時空因果的"優勝劣汰法則"和"得失法則"。

"優勝劣汰法則"和"得失法則"是以時空存在為前提的，比如：恐龍的消失，生物進化，對舊封建帝制的捨棄而帶來的民主自由社會的新生。在人的時空世界，"存在"對於時空因果世界來說是樣本，是時空因果的映象。那麼，時空存在（比如：恐龍）的"優勝劣汰"，"得失對偶"也是時空因果的映象。

試想，恐龍和人類對於宇宙來說沒有什麼不同，都是宇宙因果世界的樣本，映象。但，在人的"時空模型下"，恐龍樣本集合不存在了，而隨之而來的是人類樣本世界，這是恐龍的淘汰和捨棄，這是人類的優勝和新生。而啟用函式就是對時空存在這一過程的建模。
"深度神經網路"的資料結構和搜尋演算法

從上面章節中我們體會，"時空存在"是背後"時空因果世界"的映象，時空因果世界的意義在於"因果關係"，而這個因果關係對映成為時空存在的偏差，或者時空存在的機率。

比如：學生A的身高180CM。此時，180CM本身沒有意義；它的意義在於從出生時的身長和當下的身高的偏差，在於和身高為190CM的學生B的落差。學生A的成績為100分。此時100分本身沒有意義；它的意義在於是否每次都能考試100分，即一次的100分取樣不能夠呈現學生A的學習能力這一因果，必須依靠機率。

因此，對於"深度神經網路"模型，輸入是樣本，而真正輸入的樣本的偏差，梯度和樣本的機率。也就是說"深度神經網路"模型的資料結構是偏差，梯度和機率。即，ＢＰ神經網路，卷積神經網路，貝葉斯神經網路。
另外，神經網路在學習過程中，反覆不斷的吸收樣本的偏差資訊，梯度資訊和機率資訊，還原樣本背後的因果世界模型。這一過程，就是梯度下降演算法，反向傳播演算法，模擬退火演算法，遺傳演算法，等。

12 # 傳智教育官方賬號

在這篇⽂章中，我們將從頭開始實現⼀個簡單的3層神經⽹絡。假設你熟悉基本的微積分和機器學習概念，例如：知道什麼是分類和正規化。理想情況下，您還可以瞭解梯度下降等最佳化技術的⼯作原理。

但是為什麼要從頭開始實施神經⽹絡呢？它可以幫助我們瞭解神經⽹絡的⼯作原理，這對於設計有效模型⾄關重要。

1.1 ⽣成資料集這⾥我們⾸先⽣成後⾯要⽤的資料集。⽣成資料集可以使⽤scikit-learn (http://scikit-learn.org/)⾥⾯的 make_moons (http://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html)函式
這個資料集有兩個類別，分別是⽤紅⾊和藍⾊表示。我們的⽬標是使⽤機器學習的分類器根據x, y座標預測出正確的類別。注意這⾥的資料並不是線性可分的。我們不能畫⼀條直線把這個資料集分成兩個類別。這就意味著，線性分類器，⽐如邏輯迴歸⽆法對我們的資料進⾏擬合，換⾔之就是⽆法⽤線性分類器對這個資料集進⾏分類。除⾮⼿動構造⾮線性特徵，⽐如多項式。事實上這正是神經⽹絡的主要優點之⼀。使⽤神經⽹絡我們不⽤去做特徵⼯程 (http://machinelearningmastery.com/discover-feature-engineering-how-to-engineerfeatures-and-how-to-get-good-at-it/)。神經⽹絡的隱藏層會⾃動的學習這些特徵。
1.2 邏輯迴歸這⾥為了演示，我們使⽤邏輯迴歸進⾏分類。輸⼊是資料集⾥的x, y座標，輸出是預測的類別（0或者1）。為了⽅便我們直接使⽤ scikit-learn 中的邏輯迴歸

這個圖顯示了透過邏輯迴歸學習到的決策邊界。這⾥的直線已經儘可能的把資料集分成兩部分，但是分的效果還是不理想，還是有些分錯類別的。

1.3 訓練神經⽹絡

現在我們構建⼀個3層神經⽹絡，其中包含⼀個輸⼊層，⼀個隱藏層和⼀個輸出層。輸⼊層中的節點數由我們的資料的維數確定的，這⾥是2。輸出層中的節點數由我們擁有的類別數量決定，這⾥也是2。因為我們只有兩個類實際上只⽤⼀個輸出節點可以預測0或1，但是有兩個可以讓⽹絡更容易擴充套件到更多的類。⽹絡的輸⼊將是x和y座標，其輸出將是兩個機率，⼀個⽤於類別0，⼀個⽤於類別1。神經⽹絡如圖所示：
我們可以選擇隱藏層的維度也就是節點數。隱藏層的節點越多，得到的神經⽹絡功能就越複雜。但更⾼的維度需要付出代價。⾸先，學習⽹絡引數和預測就需要更多的計算量。同時更多引數也意味著我們得到的模型更容易過擬合。

如何選擇隱藏層的⼤⼩？雖然有⼀些指導⽅針，但實際上具體問題需要具體分析，稍後我們將改變隱藏層中的節點數量來檢視它如何影響我們的輸出。

我們需要為隱藏層選擇啟用函式。啟用功能將層中的輸⼊轉換為相應的輸出。⾮線性啟用函式允許我們擬合⾮線性假設。常⻅的啟用函式有tanh (https://reference.wolfram.com/language/ref/Tanh.html), sigmoid (https://en.wikipedia.org/wiki/Sigmoid_function), 或者 ReLUs (https://en.wikipedia.org/wiki/Rectifier_ (neural_networks))。這⾥我們將使⽤ tanh ，這個函式有個很好的屬性就是它的導數可以使⽤本身的函式值計算。的導數是。這很有⽤，這樣我們只⽤計算⼀次，然後重新使⽤它的值來獲得導數。
因為我們希望神經⽹絡最終輸出機率值，所以輸出層的啟用函式使⽤softmax (https://en.wikipedia.org/wiki/Softmax_function)這只是將原始分數轉換為機率的⼀種⽅法。同時如果熟悉邏輯函式，可以認為softmax可以做多分

。 1.3.1 ⽹絡如何做預測呢？

我們的⽹絡使⽤前向傳播進⾏預測，這些只是⼀堆矩陣乘法和我們在上⾯定義的啟用函式的應⽤。如果是我們⽹絡的⼆維輸⼊，那麼我們按照下⾯的順序計算得到預測（也是⼆維的），如

注意我們的⽬標是找到最⼩化損失函式的引數。

我們可以使⽤梯度下降 (http://cs231n.github.io/optimization1/)來找到它的最⼩值。我將實現最流⾏的梯度下降版本，也稱為具有固定學習速率的批次梯度下降。
諸如 SGD（隨機梯度下降）或⼩批次梯度下降之類的變化通常在實踐中表現更好。 decay the learning rate over time (http://cs231n.github.io/neural-networks-3/#anneal)。

梯度下降需要我們求損失函式引數的導數： , , , 。為了計算這些梯度，我們使⽤著名的反向傳播演算法，這是⼀種從輸出開始有效計算梯度的⽅法。

這⾥不會詳細介紹反向傳播的⼯作原理，⽹上有許多解釋的很好的⽂章這⾥ (http://colah.github.io/posts/2015-08-Backprop/)或這⾥ (http://cs231n.github.io/optimization-2/)。
應⽤反向傳播公式，得到⼀下內容：

1.3.4 隱藏層⼤⼩為3的神經⽹絡

下⾯來看看如果我們訓練隱藏層⼤⼩為3的⽹絡會發⽣什麼。

這看起來很不錯。我們的神經⽹絡能夠找到⼀個成功分離兩個類別的決策邊界。

2 改變隱藏的圖層⼤⼩

在上⾯的示例中，我們設定了隱藏層⼤⼩3，接著看看改變隱藏層⼤⼩對結果的影響。
13 # 寧教授網路空間元宇宙

神經網路是深度學習中的一種演算法數學模型，是模仿動物神經網路行為特徵而建造的。神經網路由很多層構成，每層都有很多神經元，每一層都可以從資料中分析學習，最後這些層的輸出結果就是預測結果。神經元是一個簡單的數學函式。每個神經元的輸出會作為輸入傳遞給神經網路下一層中的神經元。單個神經元模型結構如下圖：

∧ 中秋節和大豐收的關聯？

∨ 戲說的有哪些電視劇？

熱門排行

劇多

神經網路是什麼？