首頁>技術>

為了提高基於策略梯度的強化學習演算法的樣本效率,我們提出了基於兩個深度生成器網路(DGN)和一個更加靈活的半隱式actor(SIA)的隱分佈actor-critic 演算法(IDAC)。採用分散式強化學習觀點,並使用與狀態動作相關的隱式分佈對其建模,該隱式分佈將狀態動作對和隨機噪聲作為其輸入的DGN近似。此外,使用SIA來提供半隱式策略分佈,該策略分佈將策略引數與不受分析密度函式約束的可重新引數化分佈混合在一起。這樣,該策略的邊緣分佈是隱式的,提供了對諸如協方差結構和偏度之類的複雜屬性建模的潛力,但仍可以進行熵的估計計算。我們將這些功能與off-policy演算法框架結合在一起,以解決連續動作空間中的問題,並將IDAC與其他標準演算法在OpenAI Gym裡進行比較,我們觀察到IDAC在大多數任務中都優於這些基準。

嶽煜光,本科畢業於復旦大學數學系,現為德州大學奧斯汀分校統計系博士,導師為周名遠。主要研究興趣是貝葉斯統計和強化學習,以及其他與統計相關的強化學習方向如模仿學習。

一、Motivation: 強化學習的侷限性在哪裡?

強化學習(Reinforcement Learning,RL)是什麼?強化學習的目的是:學習從狀態(state)到動作(action)的一種對映(map),以獲得最大化的收益(reward)。其組成部分,可分為以下5個方面:

● 狀態/觀測值(state/observation):當前情況;

● 動作(action):當前採取的動作以及下一步的動作;

● 獎勵(reward):基於當前的state和action會獲得的獎勵;

● 策略(policy):如何做決策;

● 動態環境(environment dynamics):包括轉移矩陣或者環境的核函式。

如何處理強化學習任務?通常分為兩類方法:Policy gradient based algorithm 以及Value based algorithm。講者就第二種方法進行介紹,主要演算法步驟如圖1所示。其中動作-值函式(Action-Value function)被定義為,在當前策略π的情況下,從初始狀態-動作對(State-action pair)開始時期望的累計收益。

具體是使用貝爾曼方程(Bellman equation)計算當前狀態-動作對所獲得的收益與未來期望的收益之和,從而評價動作-值函式;然後求解在當前狀態(state)下,使Action-value function(Q函式)最大化的動作(action),以進一步更新策略,由此反覆迭代,直至演算法收斂。但由於在深度強化學習(Deep Reinforcement Learning,DRL)中,Action-value function一般是採用深度神經網路來建模,且當action是連續而非離散時,求解arg max函式(神經網路具有非凸性)就顯得十分困難。因此,基於DRL框架,在連續動作空間(continuous action space)中,如何克服困難實現策略更新?

圖1 value based 演算法的介紹

1、第一個motivation

針對上述難點,講者介紹了Soft Actor-Critic(SAC)的處理方法,即在策略更新時,最小化Q函式玻爾茲曼分佈的KL距離。演算法的初衷是:由於較難求解動作-值函式的最大值,故使更新後的策略儘可能接近Q函式的manifold,這是因為,假設存在任意flexible的策略,最小化KL散度時,得到的策略應與動作-值函式的manifold一致。

然而實際情況中存在計算的問題,使下述的最小化KL散度的目標函式中包含策略的熵項(entropy term),這要求在建模策略時,應保證可以得到準確的熵估計或者一個近似值,以實現策略更新。一般情況下,使用高斯分佈建模策略,繼而最小化KL散度,但這會帶來很多侷限性。

一個簡單的toy example解釋,假設:1)reward只是從一個action到實數的對映;2)action的誘導分佈正比於reward的玻爾茲曼分佈。則在強化學習中,最大化加上策略熵後的期望,稱為最大化熵強化學習(MERL),其目標函式比正常強化學習的目標函式多了熵的正則項。在訓練過程中,透過調整熵,以避免生成策略的過早degenerate,從而獲得較好的exploration。根據公式(1)可知,最大化左側等於最小化右側的KL散度,該目標函式與變分推斷(Variational Inference,VI)中目標函式一致,說明若πθ(a)服從高斯分佈,其只能cover到的p(a)一個模式上,這也是高斯分佈帶來的缺點,不能coverp(a)的多個模式。

圖2 SAC的演算法簡介

講者引入一個雙峰的獎勵函式(reward function)進一步闡述,左峰值是全域性最優,右峰值為區域性最優。由圖可知,隨著訓練次數增加,左圖中採用高斯分佈進行策略建模得到的exploration最終收斂至其中一個模式上(區域性最優);而右圖是採用flexible的策略(即離散策略),可cover到兩個模式上,且最終收斂到全域性最優的模式上。

綜上,高斯策略在上述目標函式中存在很多侷限性,故而講者提出第一個motivation,構建一種更加flexible的策略來提高策略分佈的效能。

圖3 例項解釋

2、第二個motivation

在傳統的經典強化學習設定中,動作-值函式一般是一個標量(scalar),但這不是一個很好的模式,基於此,講者提出的第二個motivation是將分散式強化學習的概念加到連續動作的設定中。

透過在蘑菇資料集上的舉例,假設無論蘑菇是有毒或無毒,當前的策略都是“吃”,那麼50%的機率會得到positive的反饋,50%是negative的反饋,故而動作-值函式更像是一個隨機變數(random variable)而非標量。若動作-值函式強制採用標量表示,即“feeling good”是1,“feeling sick”是-1,如此不能很好地model資料本身的特徵。

圖4 蘑菇資料集介紹

採用Zπ(z,a)表示distributional version下的動作-值函式(為隨機變數),其滿足一個條件,即scalar version 下的動作-值函式等於Zπ(z,a)的期望。由此,構建分散式貝爾曼方程,其與貝爾曼方程相似,唯一區別在於公式中的“等於”變為“分佈等於”,所以說公式(2)左側的動作-值函式應等於當前的獎勵與未來discounted的動作-值函式之和,這表明等式左右兩邊應為兩個相同的分佈而不是值。

這帶來的挑戰:distributional version下的動作-值函式需要擬合一個分佈而不是標量值。早期的工作Categorical DQN(C51),將動作-值函式在值域上分為51個atoms,同時更新他們的probability,並用來表示這個隨機變數的分佈;另一項工作Quantile regression DQN(QR-DQN)注重處理一些分位數,並基於分位數做迴歸,然而該兩種演算法均是基於假設動作空間是離散的情況下進行。

圖5 分散式強化學習面臨的挑戰

二、How:隱式分佈的兩層內功

基於上述兩個motivation,講者提出了Implicit distribution actor critic(IDAC)的演算法,包括以下兩個創新點:

1) 將動作-值函式的隨機變數的形式引入到continuous setting中,而不單單是discrete setting;

2) 構建一個更加靈活的策略分佈,而不是簡單的高斯分佈。

演算法中的“implicit”有兩層含義:

1)使用一個深度生成網路(Deep Generator Network,DGN)建模return分佈以及Zπ(z,a),則這個生成器的噪聲採用隨機噪聲生成,並透過一個神經網路來估計Zπ(z,a)。主要過程是:透過取樣100個噪聲,進行轉換,希望轉換結果是Zπ(z,a)的100個empirical samples,排序後將其對應於100個不同的分位數,進一步做分位數迴歸,最小化,從而實現生成器引數的更新;

2)與高斯策略分佈和隨機噪聲分佈不同,邊緣分佈本身是一個較複雜,靈活的分佈,具有比如偏度,多模態以及維度間的相關性等特性。構造如此複雜策略的原因,正好解釋了上述提及的,在最小化KL散度時,必須能漸進的估計該策略的熵項,才能實現策略更新。

關於如何訓練這兩個components,詳見講者論文,地址附在文末。

圖6 兩個“隱式”的指代

三、實驗驗證

講者首先進行了empirical evaluation實驗對比,紅實線為IDAC的效能表現,由對比訓練可知,在所有任務上IDAC的表現優於其他演算法。

圖7 empirical evaluation實驗對比

講者針對IDAC中兩個不同的component分別進行實驗驗證,首先驗證了Semi-implicit actor(SIA)的效果,(a)圖是採用高斯策略進行建模,得到的邊緣分佈均為高斯分佈;(b)圖是指在同樣的狀態-動作對的情況下,評估SIA的效果,結果表明action dimension之間具有很明顯的相關性,明顯的偏度,以及較不明顯的多模態性,這說明SIA彌補了高斯分佈的侷限性。然後(c)圖中藍色部分DGN生成的分佈與目標分部在訓練後期逐漸重合,說明DGN能滿足分散式貝爾曼方程。

圖8 SIA與DGN的實驗驗證

最後,透過消融實驗,說明了DGN較SIA對學習的幫助更大,且兩者結合能實現最大的提高。

圖9 消融實驗

相關資料

論文下載地址:https://arxiv.org/abs/2007.06159

程式碼地址:https://github.com/zhougroup/IDAC

參考文獻:

Marc G Bellemare, Will Dabney, and Rémi Munos. A distributional perspective on reinforcement learning. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 449–458. JMLR. org, 2017.

Will Dabney, Mark Rowland, Marc G Bellemare, and Rémi Munos. Distributional reinforcement learning with quantile regression. In Thirty-Second AAAI Conference on Artificial Intelligence, 2018.

7
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • DDD領域驅動設計之呼叫鏈路和分層架構