首頁>科技>微軟亞洲研究院2021-03-16 21:30

邏輯推理新高度：微軟AI模型在這張榜單上重新整理了人類紀錄

2020年，人工智慧模型 GPT-3 帶著一種“暴力美學”橫空出世，業界在驚歎其繪畫、寫作以及玩遊戲技能的時候，也著實為它的智商“捏一把汗”。例如，嘗試向 GPT-3 詢問以下問題：

提問：太陽有幾隻眼睛？

GPT-3：太陽有一隻眼睛。

人類的正確答案：太陽是恆星，它沒有眼睛。

出現這類問題的原因是，當 GPT-3 被提問時，它並沒有推理出太陽與眼睛之間的關係。如果從技術方面追根溯源，有一個可能的解釋是：當前大多數自然語言處理技術使用的是“預訓練+微調”的正規化，這種正規化在需要文字淺層語義匹配和理解的任務上能取得優越的效能，但是預訓練的語言模型是否真的具備了推理能力，是否能應對需要複雜推理能力的任務，還是目前研究亟待解決的問題。

當研究員們把 LReasoner 系統放到面向美國司法學院入學考試（LSAT）邏輯推理部分的資料集 ReClor 中進行測試後，該系統在資料集的官方評測排行榜中取得了目前 SOTA（最前沿水平）的結果，並且大幅超過了 ReClor 論文中彙報的人類準確率（表1）。

ReClor 排行榜官方網頁：

https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347

表1: 人類與 LReasoner 系統在 ReClor 資料集上的準確率對比

圖1：LReasoner 系統在資料集 ReClor 官方排行榜上目前位列第一

真實場景：美國司法學院入學考試
美國司法學院入學考試（LSAT），全稱 Law School Admission Test，是1947年由位於美國賓夕法尼亞州牛頓市的法學院招生委員會設立的標準化入學測試。作為美國法學院申請入學的重要參考條件之一，幾乎所有的美國法學院都要求申請人參加 LSAT 考試。

LSAT 考試不需要考生具有專業的法律知識，旨在於考察學生在法學院學習中所需要的邏輯分析和推理能力。LSAT 考試的選擇題分為三個部分：（1）閱讀理解部分（2）邏輯推理部分（3）分析推理部分。其中，閱讀理解部分考察的是考生理解介紹新知識的複雜文章的能力。分析推理部分主要考察考生根據給定的規則，理解一組元素之間的關係結構，並對其進行分析的能力。例如，要求考生根據給定的規則對一組元素進行分組或者排序。
圖2：邏輯推理資料樣例

圖2給出了一個 LSAT 中邏輯推理問題的例子——給定了一篇文章，一個問題和多個候選選項，要求從候選選項中選出最可行的答案（由綠色標記）。從例子中可以看出，為了回答問題，答題者需要從文章中抽取邏輯符號，例如 have keyboarding skill 還有 be able to use a computer。接下來還需要把邏輯符號組合成邏輯表示式，再透過邏輯規則（比如逆反規則，傳遞規則）對現有的邏輯表示式進行推理，從而拓展得出新的邏輯表達，最後對選項進行判斷。由此可以看出，邏輯推理任務非常需要機器可以擁有理解邏輯論述並且進行復雜推斷的能力。

研究員們以公開的 ReClor[1] 評測資料集為例開展了邏輯推理問題的研究。ReClor 資料集中的問題來自於美國司法學院入學考試（LSAT）和美國管理學科研究生入學考試（GMAT）中的邏輯推理部分的試題。該資料集包含了6,138個現實場景中的邏輯推理問題，並採用了多項選擇題的分類準確率作為評測指標。為了防止資料偏置的問題，ReClor 的測試集根據是否容易單獨依靠選項作出判斷，而劃分成了簡單部分（Test-E）和困難(Test-H) 部分。該評測任務在 EvalAI 有一個公開的評測排行榜，測試集的標註資訊不對外公開，參評者需要提交各自的預測結果到官方平臺才能獲得得分。

圖3：邏輯驅動的文字擴充框架圖

邏輯驅動的文字擴充框架（如圖3所示）可以分成三個步驟：邏輯識別，邏輯擴充，邏輯文字化。（1）首先研究員們制定了一系列規則將文字和選項中的邏輯符號抽取出來，並考慮符號的否定以及符號之間的條件關係，將顯式存在的邏輯表示式識別出來，作為之後邏輯推斷的基本單元，如圖3，根據 Context（上下文）抽取出了(¬α→¬β) 和 (¬β→¬γ)。（2）基於文字中識別出來的邏輯表示式，研究員們根據邏輯等價律做推斷，擴充出文本中隱式的邏輯表示式，如圖3，在 Logic Extension（邏輯引申）中可以擴充出 (¬α→¬γ) 等邏輯表示式。（3）最後根據模板，將每個選項相關的擴充邏輯表示式轉化成擴充文字，再和原始文字一起輸入預訓練模型，從而利用推匯出來的邏輯資訊匹配找到答案。
在邏輯驅動的資料增強演算法中，研究員們參考了 SimCLR[2] 的思路，透過構造字面上相似但邏輯不同的樣本，來訓練模型以預測出支援答案的邏輯正確文字，從而讓模型可以更好地感知到文字中的邏輯資訊，尤其是邏輯否定和邏輯條件關係。研究員們使用了原始文字構成正樣本，而負樣本則是透過修改文字中抽取出的邏輯表示式，包括刪除、條件逆轉、否定操作，並將修改後的邏輯表示式轉化成文字而構成（具體構造負樣本的過程如圖4所示）。

圖4：構造負樣本的過程圖

消融實驗：LReasoner系統提升邏輯推理能力
為了證明 LReasoner 系統中邏輯驅動的文字擴充框架和邏輯驅動的樣本增強演算法兩個部分的有效性，研究員們採用了 RoBERTa 作為基礎模型，並進行了消融實驗，結果如表2。可以看出邏輯驅動的文字擴充框架和資料增強演算法對於邏輯推理問題的效果都有所提升。

表2：消融實驗結果(CE和DA分別指代文字擴充框架和樣本增強演算法，RoBERTa+CE+DA就是基於RoBERTa的LReasoner)

參考文獻：

[1] Weihao Yu, Zihang Jiang, Yanfei Dong, and Jiashi Feng, "ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning," Accepted by ICLR, 2020.
[2] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. 2020. A simple framework for contrastive learning of visual representations.，accepted by ICML2020.

最新評論

∧ 整治雙十一購物亂象，國家再次出手！該跟這些套路說再見了

∨ 榮耀全場景：你看到的是“+”，本質上是“X”

熱門排行

劇多

邏輯推理新高度：微軟AI模型在這張榜單上重新整理了人類紀錄