回覆列表
  • 1 # 機器之心Pro

    自然語言處理有非常多的子領域,且很多都沒有達到令人滿意的效能。本文的目的是追蹤自然語言處理(NLP)的研究進展,並簡要介紹最常見 NLP 任務的當前最佳研究和相關資料集。作者 Sebastian Ruder 在文中覆蓋了傳統的和核心的 NLP 任務,例如依存句法分析和詞性標註。以及更多近期出現的任務,例如閱讀理解和自然語言推理。本文最主要的目的是為讀者提供基準資料集和感興趣任務的當前最佳研究的快速概覽,作為未來研究的墊腳石。

    專案地址:https://github.com/sebastianruder/NLP-progress

    目錄(任務和對應資料集)

    1.CCG 超級標記

    CCGBank

    2.分塊

    Penn Treebank

    3.選區解析

    Penn Treebank

    4.指代消歧

    CoNLL 2012

    5.依存解析

    Penn Treebank

    6.對話

    第二對話狀態追蹤挑戰賽

    7.域適應

    多領域情感資料集

    8.語言建模

    Penn Treebank

    WikiText-2

    9.機器翻譯

    WMT 2014 EN-DE

    WMT 2014 EN-FR

    10.多工學習

    GLUE

    11.命名實體識別

    CoNLL2003

    12.自然語言推理

    SNLI

    MultiNLI

    SciTail

    13.詞性標註

    UD

    WSJ

    14.閱讀理解

    ARC

    CNN/Daily Mail

    QAngaroo

    RACE

    SQuAD

    Story Cloze Test

    Winograd Schema Challenge

    15.語義文字相似性

    SentEval

    Quora Question Pairs

    16.情感分析

    IMDb

    Sentihood

    SST

    Yelp

    17.情感解析

    WikiSQL

    18.語義作用標記

    OntoNotes

    19.自動摘要

    CNN/Daily Mail

    20.文字分類

    AG News

    DBpedia

    TREC

    CCG 超級標記

    組合範疇語法(CCG; Steedman, 2000)是一種高度詞彙化的形式主義。Clark 和 Curran 2007 年提出的標準解析模型使用了超過 400 個詞彙語類(或超級標記(supertag)),典型的解析器通常只包含大約 50 個詞性標註。

    示例:

    CCGBank

    CCGBank 是 CCG 衍生物的語料庫,以及從 Hockenmaier 和 Steedman 2007 年提出的 Penn Treebank 中提取的依存結構。第 2-21 部分用於訓練,第 00 部分用於開發,第 23 部分用作域內測試集。其效能僅在 425 個最常用的標籤上計算。模型基於準確率來評估。

    分塊

    分塊(chunking)是解析的淺層形式,可以識別構成合成單元(例如名詞片語或動詞片語)的標記的連續跨度。

    示例:

    Penn Treebank-分塊

    Penn Treebank 通常用於評估分塊。第 15-18 部分用於訓練,第 19 部分用於開發,第 20 部分用於測試。模型基於 F1 評估。

    選區解析

    選區解析(constituency parsing)的目的是從根據片語結構語法來表徵其合成結構的句子中提取基於選區的解析樹。

    示例:

    近期發展出來的方法(《Grammar as a Foreign Language》)將解析樹轉換為按深度優先遍歷的序列,從而能應用序列到序列模型到該解析樹上。以上解析樹的線性化版本表示為:(S (N) (VP V N))。

    Penn Treebank-選區解析

    Penn Treebank 的「Wall Street Journal」部分用於評估選區解析器。第 22 部分用於開發,第 23 部分用於評估。模型基於 F1 評估。以下大多數模型整合了外部資料或特徵。要對比僅在 WSJ 上訓練的單個模型,參見《Constituency Parsing with a Self-Attentive Encoder》。

    指代消歧

    指代消歧(coreference resolution)是聚類文字中的涉及相同潛在真實世界實體的提述的任務。

    示例:

    「I」、「my」和「she」屬於相同的聚類,「Obama」和「he」屬於相同的聚類。

    CoNLL 2012

    實驗是構建在《CoNLL-2012 shared task》的資料集之上的,其使用了 OntoNotes 的共指標註。論文使用官方 CoNLL-2012 評估指令碼報告了精度、召回率和 MUC 的 F1、B3 以及 CEAFφ4 指標。主要的評估指標是三個指標的平均 F1。

    依存解析

    依存解析(dependency parsing)是從表徵其語法結構中提取的依存解析,並定義標頭詞和詞之間的關係,來修改那些標頭詞。

    示例:

    詞之間的關係在句子之上用定向、標記的弧線(從標頭詞到依存)展示,+表示依存。

    Penn Treebank-依存解析

    模型在《Stanford typed dependencies manual》中提出的 Penn Treebank 的 Stanford Dependency 變換和預測詞類標記上進行評估。評估指標是未標記依附分數(unlabeled attachment score,UAS)和標記依附分數(LAS)。

    對話

    眾所周知,對話任務是很難評估的。以前的方法曾經使用了人類評估。

    第二對話狀態追蹤挑戰賽

    對於目標導向的對話,第二對話狀態追蹤挑戰賽(Second dialog state tracking challenge,DSTSC2)的資料集是一個常用的評估資料集。對話狀態追蹤涉及確定在對話的每個回合使用者在當前對話點的目標的完整表徵,其包含了一個目標約束、一系列請求機會(requested slot)和使用者的對話行為。DSTC2 聚焦於餐廳搜尋領域。模型基於單獨的和聯合的機會追蹤的準確率進行評估。

    領域自適應

    多領域情感資料集

    多領域情感資料集(Multi-Domain Sentiment Dataset)是情感分析的領域自適應常用評估資料集。它包含了來自亞馬遜的不同產品類別(當成不同領域)的產品評價。這些評價包括星級評定(1 到 5 顆星),通常被轉換為二值標籤。模型通常在一個和訓練時的源域不同的目標域上評估,其僅能訪問目標域的未標記樣本(無監督域適應)。評估標準是準確率和對每個域取平均的分值。

    語言建模

    語言建模是預測文字中下一個詞的任務。*表示模型使用了動態評估。

    Penn Treebank-語言建模

    語言建模的常用評估資料集是 Penn Treebank,已經過 Mikolov 等人的預處理(《Recurrent neural network based language model》)。該資料集由 929k 個訓練單詞、73k 個驗證單詞和 82k 個測試單詞構成。作為預處理的一部分,單詞使用小寫格式,數字替換成 N,換行符用空格表示,並且所有其它標點都被刪除。其詞彙是最頻繁使用的 10k 個單詞,並且剩餘的標記用一個標記替代。模型基於困惑度評估,即平均每個單詞的對數機率(per-word log-probability),越低越好。

    WikiText-2

    WikiText-2(《Pointer Sentinel Mixture Models》)相比於 Penn Treebank,其在語言建模中是更接近實際的基準。WikiText-2 由大約兩百萬個從維基百科文章中提取的單詞構成。

    機器翻譯

    機器翻譯是將句子從源語言轉換為不同的目標語言的任務。帶*的結果表示基於 21 個連續評估的平均驗證集 BLEU 分數的平均測試分數,正如 Chen 等人的論文《The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation》所報告的。

    WMT 2014 EN-DE

    模型在第九屆統計機器翻譯研討會(VMT2014)的 English-German 資料集上進行評估(根據 BLEU 分數)。

    WMT 2014 EN-FR

    類似的,在第九屆統計機器翻譯研討會(VMT2014)的 English-French 資料集上進行評估(根據 BLEU 分數)。

    多工學習

    多工學習的目標是同時學習多個不同的任務,並最大化其中一個或全部任務的效能。

    GLUE

    通用語言理解評估基準(GLUE)是用於評估和分析多種已有自然語言理解任務的模型效能的工具。模型基於在所有任務的平均準確率進行評估。

    當前最佳結果可以在公開 GLUE 排行榜上檢視:https://gluebenchmark.com/leaderboard。

    命名實體識別

    命名實體識別(NER)是在文字中以對應型別標記實體的任務。常用的方法使用 BIO 記號,區分實體的起始(begining,B)和內部(inside,I)。O 被用於非實體標記。

    示例:

    CoNLL 2003

    CoNLL 2003 任務包含來自 Reuters RCV1 語料庫的新聞通訊文字,以 4 種不同的實體型別進行標註(PER、LOC、ORG、MISC)。模型基於(基於跨度的)F1 評估。

    自然語言推理

    自然語言推理是給定一個「前提」,確定一個「假設」為真(蘊涵)、假(矛盾)或者不確定(中性)的任務。

    示例:

    SNLI

    斯坦福自然語言推理(SNLI)語料庫包含大約 550k 個假設/前提對。模型基於準確率評估。

    可以在 SNLI 的網站上檢視當前最佳結果:https://nlp.stanford.edu/projects/snli/

    MultiNLI

    多語型自然語言推理(MultiNLI)語料庫包含大約 433k 個假設/前提對。它和 SNLI 語料庫相似,但覆蓋了多種口頭和書面文字的語型(genre),並支援跨語型的評估。資料可以從 MultiNLI 網站上下載:https://www.nyu.edu/projects/bowman/multinli/

    語型內(匹配)和跨語型(不匹配)評估的公開排行榜可檢視(但這些條目沒有對應已發表的論文):

    https://www.kaggle.com/c/multinli-matched-open-evaluation/leaderboard

    https://www.kaggle.com/c/multinli-mismatched-open-evaluation/leaderboard

    SciTail

    SciTail(《SCITAIL: A Textual Entailment Dataset from Science Question Answering》)匯出資料集包含 27k 個條目。和 SNLI、MultiNLI 不同,它不是眾包資料集,但是從已有的句子中建立的,假設是從科學問題和對應答案候選中建立的,同時相關網站的來自大型語料庫的句子被用作前提。模型基於準確率評估。

    詞性標註

    詞性標註(POS tagging)是一種標註單詞在文字中所屬成分的任務。詞性表示單詞所屬的類別,相同的類別一般有相似的語法屬性。一般英語的詞性標註主要有名詞、動詞、形容詞、副詞、代詞、介詞和連詞等。

    示例:

    UD

    Universal Dependencies(UD)是一個跨語言語法標註的框架,它包含超過 60 多種語言的 100 多個 treebanks。模型一般透過 28 種語言中的平均測試準確率進行評估。

    Penn Treebank—POS tagging

    用於詞性標註的標準資料集是華爾街日報(WSJ)分配的 Penn Treebank,它包含 45 個不同的詞性標籤。其中 0-18 用於訓練、19-21 用於驗證其它 22-24 用於測試。模型一般都透過準確率進行評估。

    閱讀理解/問答任務

    問答是一種自動回答問題的任務。大多數當前的資料集都將該任務是為閱讀理解,其中問題是段落或文字,而回答通常是文件之間的跨度。UCL 的機器閱讀研究組還介紹了閱讀理解任務的概覽:https://uclmr.github.io/ai4exams/data.html。

    ARC

    AI2 Reasoning Challenge(ARC)是一個問答資料集,其中它包含了 7787 個真實的小學水平多項選擇科學問題。資料集分割為了困難集與簡單集,困難集只包含那些基於詞檢索演算法和詞共現演算法所無法正確回答的問題。模型同樣透過準確率評估。

    ARC 公開排行榜:http://data.allenai.org/arc/

    示例:

    QAngaroo

    QAngaroo 是兩個閱讀理解資料集,它們需要結合多個文件的多個推斷步驟。第一個資料集 WikiHop 是一個開放領域,且專注於維基文章的資料集,第二個資料集 MedHop 是一個基於 PubMed 論文摘要的資料集。

    該資料集的排行榜可參見:http://qangaroo.cs.ucl.ac.uk/leaderboard.html

    RACE

    RACE 資料集是一個從中國初中和高中英語測試收集的閱讀理解資料集。該資料集包含 28000 多篇短文和近 100000 條問題。模型可基於中學測試(RACE-m)、高中測試(RACE-h)和完整資料集(RACE)使用準確率進行評估。

    資料集下載地址:http://www.csNaNu.edu/~glai1/data/race/

    SQuAD

    斯坦福問答資料集(SQuAD)是一個閱讀理解資料集,它包含由眾包基於維基文章提出的問題。回答為對應閱讀短文的文字片段。最近 SQuAD 2.0 已經發布了,它引入了與 SQuAD 1.1 中可回答問題類似的不可回答問題,難度高於 SQuAD 1.1。此外,SQuAD 2.0 還獲得了 ACL 2018 最佳短論文。

    Story Cloze Test

    Story Cloze Test 是一個用於故事理解的資料集,它提供了 four-sentence 形式的故事和兩個可能的結局,系統將嘗試選擇正確的故事結局。

    Winograd Schema 挑戰賽

    Winograd Schema Challenge 是一個用於常識推理的資料集。它使用 Winograd Schema 問題以要求人稱指代消歧:系統必須明確陳述中有歧義指代的先行詞。模型同樣基於準確率評估。

    示例:

    語義文字相似性

    語義文字相似性在於推斷兩段文字之間的距離,例如我們可以分配 1 到 5 來表示文字有多麼相似。對應任務有釋義轉換和重複識別。

    SentEval

    SentEval 是一個用於評估句子表徵的工具包,它包含 17 個下游任務,包括一般的語義文字相似性任務。語義文字相似性(STS)從 2012 到 2016(STS12、STS13、STS14、STS15、STS16、STSB)的基準任務基於兩個表徵之間的餘弦相似性度量了兩句子之間的相關性。評估標準一般是皮爾森相關性。

    SICK 相關性(SICK-R)任務訓練一個線性模型以輸出 1 到 5 的分數,並指代兩句子之間的相關性。相同資料集(SICK-E)能視為使用蘊含標籤的二元分類問題。SICK-R 的度量標準也是皮爾森相關性,SICK-E 可以透過文字分類準確度度量。

    Microsoft Research Paraphrase Corpus(MRPC)語料庫是釋義識別的資料集,其中系統旨在識別兩個語句是否相互為釋義句。評估標準為分類準確度和 F1 分數。

    Quora Question Pairs

    Quora Question Pairs 資料集由 400000 對 Quora 問答組成,系統需要識別一個問題是不是其它問題的副本。模型也是透過準確率度量。

    情感分析

    情感分析是在給定文字下識別積極或消極情感的任務。

    IMDb

    Sentihood

    Sentihood 是一個用於針對基於方面的情感分析(TANSA)資料集,它旨在根據具體的方面識別細粒度的情感。資料集包含 5215 個句子,其中 3862 個包含單個目標,其它有多個目標。該任務使用 F1 分數評估檢測的方面,而使用準確率評估情感分析。

    SST

    細粒度分類:

    二元分類:

    Yelp

    細粒度分類:

    二元分類:

    情感解析

    情感解析是一種將自然語言轉化為正式語義表徵的任務。正式表徵可能是 SQL 等可執行的語言,或更抽象的 Abstract Meaning Representation(AMR)表徵等。

    WikiSQL

    WikiSQL 資料集包含 87673 個問題樣本、SQL 查詢語句和由 26521 張表中建立的資料庫表。該資料集提供了訓練、開發和測試集,因此每一張表只分割一次。模型基於執行結果匹配的準確率進行度量。

    示例:

    語義功能標註

    語義功能標註旨在建模語句的述詞論元結構,它經常描述為回答「Who did what to whom」。BIO 符號經常用於語義功能標註。

    示例:

    OntoNotes—語義功能標註

    模型通常透過基於 F1 的 OntoNotes 基準進行評估(《Towards Robust Linguistic Analysis Using OntoNotes》)。

    自動摘要

    自動摘要是一種總結原文字語義為短文字的任務。

    CNN/日常郵件摘要

    CNN / Daily Mail 資料集是由 Nallapati et al. (2016) 處理併發布,它已經用於評估自動摘要。該資料集包含帶有多句摘要(平均 3.75 個句子或 56 個詞)的再現新聞文章(平均 781 個詞)。經處理的版本包含 287226 個訓練對、13368 個驗證對和 11490 個測試對。模型基於 ROUGE-1、ROUGE-2 和 ROUGE-L 進行評估,* 表示模型在匿名資料集上進行訓練與評估。

    文字分類

    文字分類是將句子或文字分配合適類別的任務。類別取決於選擇的資料集,可以有不同的主題。

    AG News

    AG News 語料庫包含來自「AG"s corpus of news articles」的新文章,在 4 個最大的類別上預訓練。該資料集包含每個類別的 30000 個訓練樣本,以及每個類別的 1900 個測試樣本。模型基於誤差率評估。

    DBpedia

    DBpedia ontology 資料集包含 14 個非重疊類別的每一個的 40000 個訓練樣本和 5000 個測試樣本。模型基於誤差率評估。

    TREC

    TREC(《The TREC-8 Question Answering Track Evaluation》)是用於問題分類的資料集,包含開放域、基於事實的問題,並被分成廣泛的語義類別。它有六類別(TREC-6)和五類別(TREC-50)兩個版本。它們都有 4300 個訓練樣本,但 TREC-50 有更精細的標籤。模型基於準確率評估。

    TREC-6:

    TREC-50:

  • 中秋節和大豐收的關聯?
  • 什麼病可以辦病退?