組合泛化太難？試試解析式學習，100%準確率

首頁>技術>AITIME2021-01-13 18:24

組合泛化太難？試試解析式學習，100%準確率

近年來，深度學習模型在各種任務上都取得了非常大的成功。然而，不同於人類可以從少量樣本中快速學習，深度學習模型的成功仍依賴於大量訓練資料。那麼，深度學習模型是否有可能擁有人類這種快速學習的能力呢？一個關鍵問題就在於深度學習是否可以擁有組合泛化能力。組合泛化是人類的一種基本而又必不可少的能力，透過理解已知部件的未知組合，人類可以利用有限的語言元素理解無限的自然語言世界。因此，越來越多研究者關注在組合泛化這個問題上，尤其是在AI程式設計領域。

2018年，紐約大學和Facebook的科學家們提出一個組合泛化領域的經典測試基準SCAN，測試任務是將諸如“run after walk”這樣的自然語言解析成諸如“WALK RUN”這樣的導航指令。然而他們發現，目前最先進的深度學習模型，甚至包括預訓練模型，在這個測試基準上表現得都尤其差。為了解決這個問題，本文指出組合泛化的核心在於將語言看作某種代數系統，透過學習表示式來達成模型的組合泛化。在該思想的指導下，本文提出一種新穎的記憶增強的神經模型LANE，該模型在SCAN上取得了相當好的效果。

劉乾，北京航空航天大學與微軟亞洲研究院聯合培養博士，主要關注在上下文建模、語義解析、組合泛化等話題，目前以第一作者身份在ACL, EMNLP, NeurIPS等會議發表若干論文。

一、研究背景

組合泛化能力

人類天生具有組合泛化的能力，這體現在自然語言和程式語言中。正如語言學家喬姆斯基所言：“有限資源，無窮運用”，人類可以動態重組現有的原子語義。同樣，程式語言的組合性，也使其具有無限空間。

在認知心理學中，組合泛化實際是一種能力，將簡單的元素重組來理解全新的句子。例如，給定左側這4個人造單詞及其對應的顏色系列，人們可以將原子語義重新組合，從而輕易推斷出新的例子“lug kiki wif”對應的顏色系列。

兩大資料集：SCAN和CFQ

2018年，紐約大學和Facebook的科學家們就提出了一個 benchmark——SCAN。它是一個合成的資料集，要求模型把輸入的自然語言命令，翻譯成對應的導航指令。比如自然語言“run twice”，對應的程式語言是“RUN RUN”。

表面上看，這是個非常簡單的合成的任務，如果用現有的深度學習模型訓練，隨機劃分訓練集和資料集，應該達到相當高的準確率。然而實驗表明，該翻譯模型在組合泛化方面並未取得令人滿意的效果。儘管訓練集裡出現過“run twice”和“jump and walk”，模型卻無法有效重組來理解“run and jump twice”這類複雜句子。

CFQ資料集是另一個更真實的場景，主要評測KBQA系統，即從自然語言生成SPARQL語句的過程。當然，為了簡化模型本身的複雜度，將涉及的具體名詞做了匿名化，比如圖中的M0、M2其實代表一些具體的實體。

資料集的組合性約束劃分

科學家們發現，如果從組合性的角度對資料集劃分做出約束，現在的深度學習模型的效果會變得極不理想。有三種資料集劃分的方式：一是“Add Jump”，二是“Around Right”，三是“Length Generalization”。“Add Jump”是指訓練時jump只是單獨出現、沒有相關的組合，而測試時都是關於jump的複雜組合。“Around Right”是指訓練時從未見過包含around right短語的句子，而測試時全都是包含around right短語的句子。“Length Generalization”是指訓練時，模型從未輸出超過24個動作的序列，但測試時序列長度可能會超過24。

我們剛剛介紹，SCAN是以人的智力來操控的組合性約束劃分，CFQ則用了更加自動的演算法，其中有兩個要點：

第一，在訓練集和測試集中，原子語義的分佈一定是類似的。

第二，不同組合在訓練集和測試集的分佈不同。

深度學習模型缺乏組合泛化性

其實，組合泛化是當前一個非常火的話題，從18年開始提出了各種各樣的資料集測試模型的組合泛化能力，並且湧現了CGPS、Meta Seq2Seq等方法來解決分佈外的泛化。

但是，我們現在的深度學習模型是缺乏組合泛化性的，下面表格是在SCAN上評測的結果，表中綠色部分是指訓練時沒有任何額外資源，也就是訓練時沒有任何資料增強或者特定資料集的規則；藍色部分是指訓練時帶有額外資源。但我們發現兩種情況下，當前的深度學習模型都沒辦法成功解決SCAN上所有組合性的挑戰。

為什麼機器學習系統無法具有人類的組合泛化能力？我們認為當前的基於神經網路的模型所做的，只是從原領域的例項對映到目標語言的例項，而沒有觸及組合性的關鍵因素。實際上，我們可以把語言本身當作一種代數系統，這種代數系統能夠被所謂的符號函式和變數槽所建模，也就是我們這篇論文的核心：解析表示式（analytical expression）。

二、模型構建

解決方法：學習解析表示式

我們的模型所學習的，實際是從源語言表示式到目標語言表示式的對映，比如$x twice到$x $x，其中$x的位置可以放任意動詞，這樣就可以泛化到任何給定的新的自然語言句子上。那麼，如何學習所謂的解析表示式呢？

我們來看一個簡單的示意圖，給定一個run opposite left after walk twice這樣的自然語言句子，我們的模型會識別出run是一個變數槽，把它規約成一個變數，接下來left規約成另一個變數，接著是$x opposite $y，一步步規約下去，原自然語言的句子就可以解耦成一系列源語言領域的表示式。

然後透過符號函式，我們可以得到目標領域的表示式，再透過這種遞迴自下而上地填充目標領域變數的值，從而得到最終的指令序列，也就是最開始我們輸入的自然語言對應的指令序列。

實現路徑：帶記憶的模型

瞭解思想後，如何進行模型構建的實際操作呢？我們提出了一個記憶增強模型來自動學習以上過程，該模型的獨特性在於所有東西都是自動學習的，包括所有中間表示式的構造和對映，都是模型透過資料學出來的，沒有任何中間表示式的監督資訊。

模型透過composer、solver和memory這三個模組的互動來理解自然語言：比如給定一句話$x after $y twice，它首先經過composer找到一個可以規約的表示式$y twice，然後透過solver模組對映到目標領域的表示式$y $y，其中$y直接從memory模組中取值，比如此處$y對應之前儲存的walk，形成具體的表示式walk walk。接下來我們把要規約的源語言領域的表示式$y twice用變數替換，得到下一個步的輸入，再經過類似的步驟得到最終的輸出。

我們發現整個學習過程實際上非常難，因為在這些中間的表示式上並沒有任何監督資訊。所以我們主要有兩大挑戰：

第一：composer和solver之間的$y twice這樣的表示式是離散、不可導的，所以沒法直接透過反向傳播來學習這個過程，而是使用強化學習。第二：在獎勵非常稀疏的情況下，很難訓練，所以我們採用分層強化學習和課程學習的解決方法。

分層強化學習是指把composer和solver作為不同層次的代理，圖中πθ代表composer，πΦ代表solver。透過直覺可以想到，composer作為高層的代理，學習率一定要比 solver慢。課程學習則相對比較簡單，它是指一種循序漸進、從簡單到複雜的過程。這裡我們按照輸入序列由短到長來組織整個訓練的流程，讓模型在初期不易發散。

三、實驗結果

結果表明，我們的模型在SCAN上全部取得100%的好成績，遠勝於其他各種深度學習模型的表現。同時我們的模型是第一個在不帶任何額外資源的情況下，在SCAN這個任務上能夠全部解決這些組合泛化挑戰的模型。

我們也做了另一個實驗，因為SCAN本身並沒有評測這個模型在輸入的序列長度上的泛化能力，我們構造了一個新的資料集SCAN-ext。該資料集在訓練時輸入的序列長度就在10左右，測試時全都是長度為10到40的輸入序列。可以發現基線模型的效能主要由輸入長度序列的頻率所決定，而我們的模型在任意長度上都能取得較好的效能。

總結

我們的論文主要透過學習解析表示式來解決組合泛化的問題。實際上，語言的組合性在於把語言視作一種代數系統，從而被解析表示式所建模，學習解析表示式的過程是對composer、solver和memory這三個模型的聯合最佳化，這些模組之間離散的action可以由分層強化學習和課程學習的結合來緩解，從而實現優良的效能。

論文：

Qian Liu, Shengnan An, Jian-Guang Lou, Bei Chen, Zeqi Lin, Yan Gao, Bin Zhou, Nanning Zheng, and Dongmei Zhang."Compositional Generalization by Learning Analytical Expressions." Advances in Neural Information Processing Systems 33 (2020).

程式碼：

https://github.com/microsoft/ContextualSP

∨ 第302期基於微控制器+LCD1604顯示

熱門排行

劇多

組合泛化太難？試試解析式學習，100%準確率