首頁>Club>

12
回覆列表
  • 1 # 海晨威

    強化學習,其思想其實很接近人類的思考方式,這也是為什麼說它很有可能成為未來通用人工智慧的正規化,這裡舉一個人類的例子,嘗試著去解釋強化學習的思想,並對應到強化學習的組成部分中去:

    對於一個正在學走路的嬰兒,他一不小心摔倒了,如果他一摔倒就哭,那媽媽就會打他小屁屁,如果他摔倒了會自己爬起來,那媽媽很高興,就獎勵他喝一口奶。這樣經歷許多次之後,小屁孩就會記住摔倒了要自己爬起來,這樣才可以喝到很多很多奶。

    其實,強化學習就是通過不斷與環境互動,利用環境給出的獎懲來不斷的改進策略(即在什麼狀態下采取什麼動作),以求獲得最大的累積獎懲。

    在上述問題中,獎就是喝奶,懲就是打屁屁,在摔倒狀態下,是選擇哭還是爬起來,不同的動作會有不同的獎懲;初始的策略是哭和爬起來都有可能。但根據獎懲,小屁孩學到了摔倒之後爬起來是一個更好的策略,因此之後都會選擇這個策略,這樣就可以最大化累積獎懲—喝很多很多奶。

    強化學習和有監督學習的主要區別在於:

    1、有監督學習的訓練樣本是有標籤的,強化學習的訓練是沒有標籤的,它是通過環境給出的獎懲來學習

    2、有監督學習的學習過程是靜態的,強化學習的學習過程是動態的。這裡靜態與動態的區別在於是否會與環境進行互動,有監督學習是給什麼樣本就學什麼,而強化學習是要和環境進行互動,再通過環境給出的獎懲來學習

    3、有監督學習解決的更多是感知問題,尤其是深度學習,強化學習解決的主要是決策問題。因此有監督學習更像是五官,而強化學習更像大腦。

  • 2 # EllieH

    強化學習近期可是越來越火,應用也非常的廣泛,從大家廣為人知的Alphago,到排序推薦、計算機視覺、遊戲、機器人領域都有著很好的應用。那到底什麼是強化學習呢?這裡嘗試著用通俗易懂的方式解釋一下。

    機器學習的分類

    強化學習是機器學習大家族中的一大類, 機器學習演算法可以分為3種:有監督學習、無監督學習和強化學習,如下圖所示(來自18年的一篇論文):

    有監督學習、無監督學習、強化學習具有不同的特點:

    有監督學習是有一個標籤(y)的,這個label告訴演算法什麼樣的輸入對應著什麼樣的輸出,常見的演算法是分類、迴歸等;無監督學習則是沒有標籤(y)的,常見的演算法是聚類;強化學習強調如何基於環境而行動,以取得最大化的預期利益。強化學習定義

    強化學習(Reinforcement Learning)靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。

    通俗一點來說,強化學習就是一類演算法, 是讓計算機實現從一開始什麼都不懂, 腦袋裡沒有一點想法, 通過不斷地嘗試, 從錯誤中學習, 最後找到規律, 學會了達到目的的方法。就好比計算機裡面藏著一個老師,這個老師不說話,不會告訴你做什麼決定,只是給你的行為打分,做對了給你正分,做錯了給你負分。那有了這些資源,我們該怎麼做決定呢?非常簡單,你只需要記住那些正分、負分對應的行為,下次用同樣的行為拿高分,避免做低分的事。像不像樣了一個小狗狗?最對了給塊骨頭,做錯事了拿起大棒嚇唬它一下(不要真打哦),讓它記住。就是一個誘惑和恐嚇的過程。

    強化學習的4個元素

    強化學習中有4個元素:agent,環境狀態,行動,獎勵, 強化學習的目標就是獲得最多的累計獎勵。讓我們以小狗叼飛盤來做個形象的例子:

    主人想讓小狗把扔出去的飛盤帶回來,但在這之前,小狗狗需要先站起來,看著主人仍飛盤,跟著飛盤跑出去,在飛盤落地的一瞬間用嘴叼住,最後將飛盤送回到主人的手裡。這時候小狗狗就是 agent,它試圖通過採取行動(帶回飛盤前的每一步驟)來操縱環境(玩兒飛盤的廣場),並且從一個狀態轉變到另一個狀態(即每一個步驟),當他完成任務的子任務(帶回飛盤)時,小狗狗會得到獎勵(給骨頭餅乾),並且當它不能玩這個遊戲時,就不會得到獎勵。

  • 3 # 北航秦曾昌

    強化學習是機器學習的一個範疇,強化學習實際是來源於對生物行為的模仿,那就是反覆強化記憶那些未來會帶來高收益的動作。可以理解為:如果我們有一個與環境(Environment)互動的智慧體(Agent),它能觀察環境狀態並執行行動(Action)。一旦採取行動,環境狀態就會變成一個新的狀態,智慧體就會收到獎勵(reward)(或罰款)。

    強化學習的目的是使智慧體學習他與環境相互作用的經驗,從而選擇使得從環境中得到的回報總和最大化的行為。

    這裡舉一個將強化學習應用在下棋上的例子:在這個問題中,智慧體是下棋的電腦程式,環境則是棋盤的狀態和對手。智慧體觀察棋盤的狀態,並採取行動,選擇棋盤的某個位置放下棋子。對手也會採取相應的行動,這樣棋盤的狀態就發生了變化,智慧體在根據當前狀態,給出其決策……這樣反覆,直到比賽結束,智慧體會勝利(接受獎勵)或失敗(接受懲罰)。這樣重複的練習成千上萬盤之後,起初打得不好的電腦程式,就能夠很好地規劃和選擇出能夠贏得比賽的動作。

    這裡只是給出強化學習的簡單直觀理解,如果想深入理解強化學習,建議可以閱讀以下資料:

    1. Reinforcement learning: An introduction (經典教材)

    https://mitpress.mit.edu/books/reinforcement-learning

    2. David Silver的強化學習公開課 (AlphaGo的發明者)

    3. https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/

    (一個非常好的中文tutorial)

  • 4 # 公考助手

    強化學習,英文名Reinforcement Learning。是一種重要的機器學習方法。也稱再勵學習,評價學習。

    強化學習(RL)的基本元件:

    環境 (標準的為靜態stationary,對應的non-stationary)

    agent (與環境互動的物件)

    動作 (action space,環境下可行的動作集合,離散or連續)

    反饋 (回報,reward,正是有了反饋,RL才能迭代,才會學習到策略鏈)

    以上,源自網際網路。

  • 中秋節和大豐收的關聯?
  • 90後找工作都比較看重哪些因素?