12月29日晚8:00-9:00
觀看直播連結:https://live.bilibili.com/21813994
嶽煜光:本科畢業於復旦大學數學系,現為德州大學奧斯汀分校統計系博士,導師為周名遠。他的主要研究興趣是貝葉斯統計和強化學習,以及其他與統計相關的強化學習方向如模仿學習。
報告題目:透過隱式分佈提升的分散式深度強化學習
摘要:
為了提高基於策略梯度的強化學習演算法的樣本效率,我們提出了基於兩個深度生成器網路(DGN)和一個更加靈活的半隱式actor(SIA)的隱分佈actor-critic 演算法(IDAC)。我們採用分散式強化學習觀點,並使用與狀態動作相關的隱式分佈對其建模,該隱含分佈由將狀態動作對和隨機噪聲作為其輸入的DGN近似。此外,我們使用SIA來提供半隱式策略分佈,該策略分佈將策略引數與不受分析密度函式約束的可重新引數化分佈混合在一起。這樣,該策略的邊際分佈是隱式的,提供了對諸如協方差結構和偏度之類的複雜屬性建模的潛力,但仍可以進行熵的估計計算。我們將這些功能與off-policy演算法框架結合在一起,以解決連續動作空間中的問題,並將IDAC與其他標準演算法在Openai Gym裡進行比較,我們觀察到IDAC在大多數任務中都優於這些基準。
郭一諾:北京大學計算語言所碩士(即將畢業),主要關注語言解析,自然語言生成,組合泛化等話題。目前以第一作者的身份在AAAI, Neurips等會議發表多篇論文。
報告題目:HPD:一種用於解決語言中組合泛化問題的層次化偏序解碼模型
摘要:
我們將人類語言理解形式化為結構預測任務,其中輸出是一個偏序集合。現有的編解碼器結構不能正確考慮語義的偏序特性,從而有較弱的組合泛化能力。在本文中,我們提出了一種層次化偏序解碼模型來解決語言中的組合泛化問題。具體來說:(1)我們將語言的部分置換不變的特點融入模型結構中,從而避免模型過擬合於訓練資料中的順序偏置資訊;(2)層次化機制使得模型能夠更好的捕捉偏序集的高層結構特點。我們在CFQ資料集上評估我們提出的模型。CFQ是一個大規模的,真實的自然語言問答資料集,專門用於評估模型的組合泛化能力。實驗結果表明我們的模型顯著優於現有的解碼器。