人工神經網路的本質（物理或數學意義）是什麼？

首頁>Club>nature7782022-09-04 05:20

人工神經網路的本質（物理或數學意義）是什麼？

回覆列表

1 # 鎂客網

從數學的角度講，人工神經網路的本質從機器學習的過程可理解為透過引數求最佳解得過程。同樣也是一個負反饋的過程，以最簡單的負反饋神經網路bp神經網路(back propagation)為例，其本質可以形象的理解為這樣一個過程：

我們假設這個剛搭建的好的機器人叫“小明”（假設他剛出生），他的硬體軟體等我們不需要考慮的部分全部是最先進的，小明的大腦裡現在是最純淨的，除了一個學習的演算法什麼都沒有，就像一個剛出生的嬰兒一樣。
現在，小明餓了，想吃東西。那麼如何才能吃到東西呢？在什麼都不知道的情況下，小明開始探索如何才能不餓。他可能會伸手，或者笑、哭，於是母親餵了他吃的，從邏輯上可以這麼理解：

然後他每次餓了，都開始伸手-笑-哭，然後就有吃的了。突然，有一天他自己也不知道怎麼搞的，直接哭了。然後---有吃的了！！！這時他才明白這一個邏輯：

這時候，機器人“小明“明白，其實達到一個目的很簡單，但是需要不斷嘗試。

再後來，小明又餓了，這回他懶得動，稍微小哭了一下等吃的，結果媽媽沒來喂他！這是為啥？然後他就哭的超級大聲，媽媽看他這樣子以為是病了，急衝衝的送她去診所，結果啥病也沒有，小明迷惑，這是為什麼？邏輯可以這麼理解：
然後他把哭聲再稍微降低以點，變成了很正常的哭，這時媽媽終於恍然大悟，喂他吃的。小明終於明白，想吃東西，首先需要哭，然後若哭聲小，不起作用，需要調大哭聲，若哭聲過大，會起反作用，需要把哭聲再降小一點，就有吃的了。

以上就是人工神經網路的本質，透過不斷嘗試引入各種參量，最終得到允許誤差範圍內的解，並透過引入參量係數，最終得到最優解——餵食=哭。透過負反饋機制，當參量所佔權重過小，以當前參量所得結果為參考依據適當增加參量權重比例，增加的比例的係數隨機。透過第二次的結果和第一次的結果選擇更合適的權重係數，最後經過不斷的“嘗試“得到最優解。

以上過程即是bp負反饋神經網路的演算法思想。

2 # 帖木兒

看了幾個回答，都不錯，不過問題問的是“數學本質”，我覺得回答們似乎都太“技術性”了。

Deep Learning 的數學本質在我看來異常簡單，就是兩個基本的數學問題：找特徵，求極值。

這個“特徵”就是數學裡常說的特徵值，特徵方程，特徵向量… 都一樣，一般來說“特徵”就是反映一種函式的“不變性”。
最簡單的，一張照片裡光線好不好？有沒有明顯的邊界？前者可以定義一個特徵值：亮度的均值。後者可以定義另一個特徵值：梯度。

以往傳統的機器學習理論，這樣的特徵需要演算法設計者去“想出來”，這就像解幾何題，你得想出怎麼畫輔助線。想不出來，你就解不出題。

不幸的是大量人工智慧實際場景裡，最頂尖的演算法設計師也常常束手無策。這就是深度神經網路理論的一個出發點：為什麼要人去找特徵？為什麼不用演算法自己去找？

這是一個重大的理論突破，類比於笛卡爾發明解析幾何：從此不再需要“輔助線”，徹底代數化。

那麼面對那麼多種可能的特徵函式，那麼多種可能引數選擇，機器怎麼選擇呢？這就是第二個問題：求極值。
這也是個異常基礎的數學問題：極值點就是（偏）導數=0。

只不過人工智慧場景裡函式變數常常以百萬計，所以有很多“技術性問題”需要最佳化。比如梯度下降法等。

所以總結一下，深度神經網路就是一個“自動的特徵提取器”，其數學本質只涉及兩點：

- 特徵函式，CNN裡採用統一的卷積形式（為什麼？因為簡單啊，而且對應的數學工具多）。

- 求極值：就是逼近/找到（偏）導數=0的引數向量。
3 # 手機使用者57610903150

神經網路本質是一個程式或運算，其結構特徵決定其是對某問題或系統的高效表示，所以我認為神經網路有其一般物理基礎而並非僅對人腦的模擬。類似的物理系統是描述多體量子態的tensor network。可認為一般的物件都可由一個程式高效生成，如一幅影象，這個生成程式就可表達為一個神經網路。所以物件和網路結構有對應性。自然世界由那些可用深度網路表達的物件構成，而不可表達的物件在自然界出現的機率極小

4 # 小AI諮詢

作者曾經寫過系列文章《神經網路與深度學習概述》，其中在《第二章神經網路的概念及感知機模型》，從生物和數學方面都有一定介紹。

神經網路全稱人工神經網路（Artificial Neural Network, ANN），與之相對應的是生物神經網路（Biological Neural Network, BNN），將模擬生物神經網路的數學模型統稱為人工神經網路模型。
生物神經系統與生物神經元
大量生物神經元的廣泛、複雜連線，形成生物神經網路

實現各種智慧活動

智慧（intelligence）

觀察、學習、理解和認識的能力

理解和各種適應性行為的能力

智慧是個體有目的的行為、合理的思維、以及有效的適應環境的綜合能力，也可以說是個體認識客觀事物和運用知識解決問題的能力

生物神經元(neuron)是基本的資訊處理單元
生物神經系統
生物神經元是基本的資訊處理單元。

生物神經元

樹突(dendrites)：接收來自外接的資訊

細胞體(cell body)：神經細胞主體，資訊加工
軸突(axon)：細胞的輸出裝置，將訊號向外傳遞，與多個神經元連線

突觸（synapsse)：神經元經突觸向其它神經元（胞體或樹突）傳遞訊號

生物神經元的基本特徵

神經元之間彼此連線

神經元之間的連線強度決定訊號傳遞的強弱

神經元之間的連線強度可以隨訓練改變：學習、遺忘、疲勞

神經網路中各神經元之間連線的強弱，按外部的激勵訊號做自適應變化

興奮與抑制

訊號可以起興奮作用，也可以起抑制作用

一個神經元接受訊號的累積效果（綜合大小，代數和）決定該神經元的狀態(興奮、抑制)

每個神經元可以有一個“閾值”
人工神經網路的組成與結構
人工神經網路是由大量處理單元經廣泛互連而組成的人工網路，用來模擬腦神經系統的結構和功能。而這些處理單元我們把它稱作人工神經元。

人工神經網路可看成是以人工神經元為節點，用有向加權弧連線起來的有向圖。在此有向圖中，人工神經元就是對生物神經元的模擬，而有向弧則是軸突—突觸—樹突對的模擬。有向弧的權值表示相互連線的兩個人工神經元間相互作用的強弱。

神經元及神經網路模型
感知機模型
感知機模型，其基礎就是單個神經元模型

感知機的學習是有監督的學習，學習的問題歸結為求權重係數W = (w1, w2, …, wn)和閾值θ 的問題

基本思想：逐步將訓練集中的樣本輸入到網路中，根據當前輸出結果和理想輸出結果之間的差別來調整網路中的權重值
感知機模型

感知器模型無法解決“異或”（XOR）問題，即感知器模型無法解決非線性可分問題。

設啟用函式f(x)為階梯函式：

階梯函式

由於單層感知器的輸出為：

y(x1,x2) = f(ω1×x1+ω2×x2-θ)

用感知器實現簡單邏輯運算的情況如下：

“與”運算（x1∧x2）

令ω1= ω2=1，θ=2，則 y=f(1×x1+1×x2-2)

顯然，當x1和x2均為1時，y的值1；而當x1和x2有一個為0時，y的值就為0。

“或”運算（x1∨x2）

令ω1= ω2=1, θ =0.5，則y = f(1×x1+1×x2-0.5)
顯然，只要x1和x2中有一個為1，則y的值就為1；只有當x1和x2都為0時，y的值才為0。

“非”運算（～X1）

令ω1 =-1， ω2=0， θ=-0.5，則 y = f((-1)×x1+1×x2+0.5))

顯然，無論x2為何值，x1為1時，y的值都為0；x1為0時，y的值為1。即y總等於～x1。

“異或”運算（x1 XOR x2）

如果“異或”（XOR）問題能用單層感知器解決，則ω1、 ω2 和θ 必須滿足如下方程組：

ω1+ω2-θ＜0

ω1+0-θ≥0

0+0-θ＜0

0+ω2-θ≥0

顯然，該方程組是無解，這就說明單層感知機是無法解決異或問題。
神經網路模型（多層感知機Multi-Layer Perception）
在單層感知器的輸入部分和輸出層之間加入一層或多層處理單元，就構成了二層或多層感知器

多層感知器克服了單層感知器的許多缺點，原來一些單層感知器無法解決的問題，在多層感知器中就可以解決。例如，應用二層感知器就可以解決異或邏輯運算問題
5 # 科技觀察局局長

人工神經網路(深度學習)的本質是一種數值運算，是從微觀角度模擬或者描述人的思維運作，即給一個輸入，經過複雜的數值計算，得到一個輸出。

6 # 書說世界

(1)非侷限性因為人工神經網路的整個識別過程是基於全部輸入神經元以及閾值等共同決定的。神經元之間的聯絡結構是圖形結構"應，各神經元之間彼此作用，相互影響，人工神經網路自適應的模擬訓練中常常就是對類比與大腦的神經元之間的對資訊相互作用、提取特徵、最終聯想的過程。

(2)非線性自然界中事物的普遍聯絡都是非線性的，並不是簡單因素的加權組合，也就不能用用簡單的線性組合來刻劃彼此因素事件間的關聯。人工神經網路是模擬大腦的各神經元對事物識別記憶的原理。可以透過自適應，自我修復的過程實現對事物的判斷。根據具體的應用設定適當的閾值往往會使得訓練過程更加的趨於收斂，具有更好的效能，同時往往更好的收斂並能在容錯性和儲存容量上有很大的提高。
(3)非凸性人工神經網路因為在自適應的訓練過程中，其訓練過程中的自適應過程常受特定的狀態函式影響。此函式因為是非凸性，導致可能存在不同的極值點，就有可能在訓練過程中陷入區域性收斂從而導致結果不理想，也就是說存在收斂過快的情況，系統訓練結果可能存在演化多樣性。

(4)非常定性人工神經網路因具有較強的自適應、自學習能力，能夠在處理資訊的過程中不斷地改變自身的值。
7 # 物理學博士

差不多。人工神經網路是從人腦得到啟示，建立的數學模型，靠計算機的強大計算力和大資料，解決具體的問題。
人工神經網路中，一個神經元是一個半線性的數學模型，所有的輸入和權重一起線性疊加，最後非線性地對映到0和1之間。由大量神經元組成的神經網路，是一個複雜的非線性模型。人工智慧的學習過程，從數學上看，本質上是一個最佳化問題：調整這個模型裡的大量引數，使得它能夠符合大量已知資料的結果。如果能得到和已有經驗的好的符合，就學習好了。這個模型就可以用來解決實際問題了。
這樣說起來，人工智慧沒啥神秘的。很可能，人類的智慧也沒啥神秘的，機制和這個演算法差不多。

劇多

人工神經網路的本質（物理或數學意義）是什麼？

相關內容