回覆列表
-
1 # 矽釋出
-
2 # 改變259541880
在端到端的強化學習中端到端的過程換言之,整個過程涉及沒有模組化的單層或迴圈神經系統,網路透過強化學習〈RL〉進行訓練這種方法已經提出了很長時間,但在學習翫Atari影片遊戲〈20l3_15)的成功結果中得到了重新激勵。
RL通常需要顯式設計狀態空間和動作空間,而從狀態空間到動作空間的眏射是學習的,因此RL一直限於僅僅為了行動而學習,並且人類設計師必須設計如何從感測器訊號構成狀態空間,並且在學習之前給出如何為每個動作產生運動命令。
端到端的RL擴充套件了RL
該方法起源於TD_GammO(1992)。透過使用分層神經網路的TD來學習自我遊戲期間的遊戲情況的評估。
-
3 # Cherubines27
端到端學習的重點是:“忽略中間的過程用單個神經網路代替它.”
例如傳入一張圖片,中間透過一個複雜的神經網路進行處理(這個神經網路可用cnn 做Encoder 得到code, 再用rnn做Decoder)得到一段文字這就是典型的end to end。
中間這個過程中不需要人為干預。只要滿足這種情形就可以說它是端到端學習了。
在圖片傳入前,你做了特徵工程的操作,仍然不影響它是一個端到端的學習。
凡是那些不是用數學推導來的概念,都不用太較真。
在端到端的強化學習中,端到端的過程,換言之,整個過程涉及沒有模組化的單層或迴圈神經網路。網路透過強化學習(RL)進行訓練。這種方法已經提出了很長時間,但在學習翫Atari影片遊戲(2013-15)的成功結果中得到了重新激勵。AlphaGo(2016)就採用端到端監督學習而不需要樣本(通常是手動標記的)資料。
RL通常需要顯式設計狀態空間和動作空間,而從狀態空間到動作空間的對映是學習的。因此,RL一直限於僅僅為了行動而學習,並且人類設計師必須設計如何從感測器訊號構造狀態空間,並且在學習之前給出如何為每個動作產生運動命令。RL中經常使用神經網路來提供非線性函式逼近以避免維數崩潰。同時使用遞迴神經網路,主要是為了避免混疊感知或部分可觀測馬爾科夫決策過程(POMDP)。
端到端的RL擴充套件了RL。
該方法起源於TD-Gammon(1992)。[15]在步步高中,透過使用分層神經網路的TD()來學習自我遊戲期間的遊戲情況的評估。四個輸入用於板上給定位置的給定顏色的數量,共198個輸入訊號。在內建零知識的情況下,網路學會了在中等水平上玩遊戲。
從2013年左右開始,Google DeepMind在影片遊戲和Go(AlphaGo)遊戲中展示了令人印象深刻的學習成果。他們使用深度卷積神經網路,在影象識別中顯示出優越的結果。他們用4幀幾乎原始的RGB畫素(84×84)作為輸入。網路是根據RL進行訓練的,獎勵代表了比賽得分變化的標誌。所有49場比賽都是使用相同的網路架構和最少的先驗知識進行Q學習,在幾乎所有的比賽中表現都優於競爭方法,並且在與專業人類遊戲測試人員相媲美或更高的水平上執行。它有時被稱為Deep-Q網路(DQN)。在AlphaGo中,深度神經網路不僅可以透過強化學習進行訓練,還可以透過監督學習和蒙特卡洛樹搜尋進行訓練。