回覆列表
  • 1 # 矽釋出

    在端到端的強化學習中,端到端的過程,換言之,整個過程涉及沒有模組化的單層或迴圈神經網路。網路透過強化學習(RL)進行訓練。這種方法已經提出了很長時間,但在學習翫Atari影片遊戲(2013-15)的成功結果中得到了重新激勵。AlphaGo(2016)就採用端到端監督學習而不需要樣本(通常是手動標記的)資料。

    RL通常需要顯式設計狀態空間和動作空間,而從狀態空間到動作空間的對映是學習的。因此,RL一直限於僅僅為了行動而學習,並且人類設計師必須設計如何從感測器訊號構造狀態空間,並且在學習之前給出如何為每個動作產生運動命令。RL中經常使用神經網路來提供非線性函式逼近以避免維數崩潰。同時使用遞迴神經網路,主要是為了避免混疊感知或部分可觀測馬爾科夫決策過程(POMDP)。

    端到端的RL擴充套件了RL。

    該方法起源於TD-Gammon(1992)。[15]在步步高中,透過使用分層神經網路的TD()來學習自我遊戲期間的遊戲情況的評估。四個輸入用於板上給定位置的給定顏色的數量,共198個輸入訊號。在內建零知識的情況下,網路學會了在中等水平上玩遊戲。

    從2013年左右開始,Google DeepMind在影片遊戲和Go(AlphaGo)遊戲中展示了令人印象深刻的學習成果。他們使用深度卷積神經網路,在影象識別中顯示出優越的結果。他們用4幀幾乎原始的RGB畫素(84×84)作為輸入。網路是根據RL進行訓練的,獎勵代表了比賽得分變化的標誌。所有49場比賽都是使用相同的網路架構和最少的先驗知識進行Q學習,在幾乎所有的比賽中表現都優於競爭方法,並且在與專業人類遊戲測試人員相媲美或更高的水平上執行。它有時被稱為Deep-Q網路(DQN)。在AlphaGo中,深度神經網路不僅可以透過強化學習進行訓練,還可以透過監督學習和蒙特卡洛樹搜尋進行訓練。

  • 2 # 改變259541880

    在端到端的強化學習中端到端的過程換言之,整個過程涉及沒有模組化的單層或迴圈神經系統,網路透過強化學習〈RL〉進行訓練這種方法已經提出了很長時間,但在學習翫Atari影片遊戲〈20l3_15)的成功結果中得到了重新激勵。

    RL通常需要顯式設計狀態空間和動作空間,而從狀態空間到動作空間的眏射是學習的,因此RL一直限於僅僅為了行動而學習,並且人類設計師必須設計如何從感測器訊號構成狀態空間,並且在學習之前給出如何為每個動作產生運動命令。

    端到端的RL擴充套件了RL

    該方法起源於TD_GammO(1992)。透過使用分層神經網路的TD來學習自我遊戲期間的遊戲情況的評估。

  • 3 # Cherubines27

    端到端學習的重點是:“忽略中間的過程用單個神經網路代替它.”

    例如傳入一張圖片,中間透過一個複雜的神經網路進行處理(這個神經網路可用cnn 做Encoder 得到code, 再用rnn做Decoder)得到一段文字這就是典型的end to end。

    中間這個過程中不需要人為干預。只要滿足這種情形就可以說它是端到端學習了。

    在圖片傳入前,你做了特徵工程的操作,仍然不影響它是一個端到端的學習。

    凡是那些不是用數學推導來的概念,都不用太較真。

  • 中秋節和大豐收的關聯?
  • 你是否支援中晚期癌症患者及沒有救治希望的患者使用安樂死?