一種可以在遊戲中不僅打敗 AI 系統,還重新整理人類玩家紀錄的全新 “增強學習演算法” 是怎樣的技術?
2 月 24 日,來自 OpenAI 和 Uber AI 實驗室的研究團隊在 Nature 發表了題為《先返回,再探索》(First return, then explore)的相關論文。報告了一種被叫做 “Go-Explore”—— 增強學習演算法的相關研究,該成果被認為是 AI 在機器學習領域向 “智慧學習體” 一次實質性的飛躍。
該演算法挑戰了雅達利(Atari 2600)經典遊戲,包括《蒙特祖馬的復仇》(Montezuma’s Revenge)和《瑪雅人的冒險》(Pitfall)。實驗證明,在這兩款遊戲中增強學習演算法不僅打敗 AI 系統,還重新整理了人類玩家紀錄,成為最終的 “領跑贏家”。
在探索類遊戲中,過往的 AI 通常有解決探索困難及其獎勵稀疏的問題,並且存在欺騙性獎勵。相關研究人員為了解決獎勵稀疏的問題,希望智慧體去探索新區域、達到新狀態,通常用一種在整個環境中人為均勻地分佈的方法,這種方法被稱為” 內在獎勵”。
如圖所示,不同的顏色代表不同的區域:內在獎勵由綠色區域代表,無內在獎勵的區域由白色區域代表,演算法當前探索中的區域由紫色區域代表。
且必須透過精心設計,獎勵機制才得以實現成功,而當遇到複雜環境(如很少給予反饋)時,現階段的增強學習演算法就很容易碰壁。
Go-Explore 的作用原理是:首先,相當於有一個 “檔案庫” 使它能記住先前訪問過的狀態,選擇要返回的狀態(a),返回有希望的狀態(不進行探索)(b);然後,從中進行探索(c),並且透過利用可靠的方法(包括透過引入確定性);最後,透過學習找到獲得最終勝利的最佳方式(包括到達特定位置以及在電腦遊戲中能夠達到一定的等級)。
簡單來說,Go-Explore 透過最佳化在複雜環境的探索方式來進行決策,從而能夠做到可追溯過去,並且有解決複雜任務的能力。當發現遊戲挑戰失敗時,演算法會回到遊戲的另一點嘗試其他方法。該演算法為了確定出現問題時應返回的時間點,將看起來相似的影象分組在一起。
實踐證明,Go-Explore 是一種強大而通用的探索方法,具有 “先記住,再返回” 的狀態,可以在從過程中進行探索。
圖|Go-Explore 在 Atari 平臺遊戲中的強力表現(來源:Nature)
該軟體在玩遊戲時儲存螢幕抓圖,以記住嘗試過的內容,將看起來相似的影象分組在一起,以識別遊戲中應該返回的起點。
該演算法在遊戲使用新的螢幕抓取來達到新的高分,更新其起點記錄,來達到是儘可能多得分的目的。通常情況,Atari 遊戲不允許玩家重新訪問任何時間點,但研究人員使用了模仿 Atari 系統的軟體的模擬器,並具有隨時儲存並重新載入統計資訊的功能。這意味著該演算法可以從任何點開始玩遊戲,而不是必須從頭開始。
研究團隊將演算法設定為玩 55 種 Atari 遊戲,這已成為強化學習演算法的基準。在這些遊戲中,它有 85.5%的時間超過了其他 AI 系統。 在蒙特祖瑪的《復仇》中表現尤其出色,得分超過 43,000 分,幾乎是之前成績的 4 倍。在《瑪雅人的冒險》中也重新整理了人類玩家紀錄,而此前的 AI 演算法得分為 0。
一旦演算法達到足夠高的分數,研究人員便使用其提出的解決方案來複制策略並以相同的方式玩遊戲,從而消除了使用模擬器重新載入儲存狀態的需要。由於該演算法在解決每個遊戲時創造了數十億個螢幕抓圖,因此這種替代方法的計算量更大。
“Go-Explore” 還可以像機器人那樣完成複雜的任務,在這項任務中,它能夠在用機械臂將東西抓住然後放到 4 個架子中的一個,任務的複雜性在於其中兩個架子是在兩扇門之後 “隱匿”。
研究人員指出,用強化學習與記憶檔案相結合的方法可以用來解決更復雜的問題。“Go-Explore” 演算法有望適用到到其他領域,如機器人、語言理解和藥物設計。