回覆列表
  • 1 # cnBeta

    Facebook 人工智慧研究員和 Google 旗下的 DeepMind、華盛頓大學、以及紐約大學合作,於今日正式推出了 SuperGLUE 。

    作為一個嚴格的語義理解基準測試專案,其能夠針對現代高效能語義理解 AI 的效能,展開一系列的基準測試。

    當然,SuperGLUE 投入使用的前提,是某會話 AI 的深度學習模型已經觸及了天花板,並希望接受更大的挑戰。

    【圖自:SuperGLUE,via VentureBeat】

    SuperGLUE 使用谷歌的 BERT 作為效能基準模型,因為早在 2018 年的時候,它就已經在多方面被認為是最先進的、甚至打敗了新一年的諸多競爭對手,比如微軟的 MT-DNN、谷歌自家的 XLNet、以及 Facebook 的 RoBERTa 。

    SuperGLUE 的前身,是紐約大學、華盛頓大學和 DeepMind 研究人員於 2018 年 4 月推出的針對語義理解 AI 的‘通用語義理解評估’(GLUE)基準測試。

    發展到現在的 SuperGLUE,它能夠評估比 GLUE 更復雜的任務表現,鼓勵構建能夠賬務更復雜或細微差別的語義理解模型。

    目前 RoBERTa 在 GLUE 基準測試資料庫中的得分為榜上第一,但 9 項 GLUE 任務中拿到了 4 項最高分。不過 SuperGLUE 包含了在一系列困難的 NLP 任務中測試創造性解決方案的新方法。

    Facebook AI 研究人員在一篇部落格文章中稱:這些任務側重於機器學習在諸多核心領域的創新,包括高效取樣、轉運、多工、以及自我監督學習。

    為向其他研究人發出挑戰,SuperGLUE 選擇了各種形式的任務、更加細緻的問題、尚未被最先進方案所解決的內容、以及很容易被人類理解的題目。

    簡而言之,新基準測試包括了八項任務,用於測試 AI 語義理解模型是否遵循基本的因果關係、或者是否在做閱讀理解時出現了偏差。

    此外,SuperGLUE 包含了性別偏見檢測工具 Winogender 。至於最終的排行,將在 super.gluebenchmark.com 官網上釋出。感興趣的朋友,可以閱讀 5 月和 7 月份的修訂版論文。

  • 2 # 至頂網

    SuperGLUE(Super General Language Understanding Evaluation)是當下NLP領域難度最大,權威性最高,含金量最足的測評標準之一,由紐約大學、華盛頓大學以及谷歌旗下的DeepMind聯合Facebook作為主要發起人推出,最大程度涵蓋了現實生活中可能遇到的不同型別的NLP任務,旨在更真實地反映當前最前沿的NLP技術可以達到的認知智慧水平。

    近日,自然語言處理領域權威資料集SuperGLUE最新榜單排名更新。Google預訓練模型T5保持第一,中國AI創業公司追一科技AI Lab團隊超越Facebook AI,躍居榜單第二。值得注意的是,相比谷歌T5等超大規模研究型模型,追一此次登榜的RoBERTa-mtl-adv模型在商業化能力也非常強勁,相關技術已經落地到追一科技的AI數字員工產品線上,持續賦能銀行、保險、證券、零售、地產、能源,教育,網際網路等多個行業。

      

    追一科技躍居SuperGLUE測試榜第二

    除去作為參照的人類水平,目前排名榜單第一的是Google的T5模型。從學術研究看,T5模型達到了目前“實驗室智慧”的最好水平,但如果考慮商用,T5需要耗費大量的算力,且模型自身體積過於龐大,目前還不能落地到實際業務場景中,缺少實際的商業應用價值。

    而追一科技透過多工學習、對抗訓練以及知識蒸餾的方式,使得RoBERTa-mtl-adv模型大小合理,效果僅次於Google的T5。同時,相關技術也落地到了追一科技AI數字員工的產品線上。就SuperGLUE排名而言,可以說追一科技的RoBERTa-mtl-adv模型在目前全球具有實際落地能力的NLP模型中效果最好,排名最高。

  • 3 # 哈工科教機器人程式設計

    1、一年前釋出的 GLUE 是用於評估這些方案的一套基準和工具包。GLUE 是九種(英語)語言理解任務的集合,包括文字蘊涵、情感分析和語法判斷等。其設計目的是覆蓋足夠大的 NLP 領域,以使得只有開發出足夠通用的工具,才能在這一基準上表現良好;這樣也有助於解決未來可能新遇到的語言理解問題。

    2、隨著 GPT 和 BERT 的出現,模型水平大幅提升;而且隨著研究者持續開發更好的演算法以將 BERT 用於其它任務,模型的表現正在穩步追趕人類水平。在三個 GLUE 任務(QNLI、 MRPC 和 QQP)上,最佳的模型已經超過了人類基準,但這並不意味著機器已掌握英語。比如,WNLI 任務涉及到確定一個句子「John couldn』t fit the trophy in the suitcase because it was too big.(約翰沒法把獎盃放進箱子,因為它太大了。)」究竟是指「獎盃太大」還是「箱子太大」。人類可以完美地解決這一任務,而機器的表現還和隨機亂猜差不多。

    3、SuperGLUE 與 GLUE 類似,是一個用於評估通用 NLP 模型的基準,同樣也基於在多種不同語言理解任務集上的評估。

    為了發現新的挑戰性任務集,SuperGLUE 提出者向更廣泛的 NLP 社群發起了任務提議徵集,得到了一個包含約 30 種不同 NLP 任務的列表。在選擇 SuperGLUE 的任務時,提出者考慮了多項設計原則,包括必須涉及到語言理解、這些任務還無法透過已有的方法解決、存在公開的訓練資料、任務格式以及證書。經過驗證,最終得到了一個包含七個任務的集合。

    4、SuperGLUE 遵照了 GLUE 的基本設計:包含一個圍繞這七個語言理解任務構建的公開排行榜、基於已有資料的抽取、一個單個數值的表現指標和一套分析工具包。

    SuperGLUE 與 GLUE 也有很多差異:

    SuperGLUE 僅保留了 GLUE 九項任務中的兩項(其中一項還經過修改),還引入了五個難度更大的新任務。這些任務的選擇標準包括為了實現難度和多樣性的最大化。

    初始的 SuperGLUE 基準版本即包含了人類水平估計結果。在 SuperGLUE 中這些被選中的任務上,基於 BERT 的強基線與人類水平之間還存在顯著的差距。

    任務格式(API)的集合在 GLUE 中的句子和句子對分類上進行了擴充套件,SuperGLUE 另外還包含共指消解、句子完成和問答。

    為了促使研究者針對這種多樣性的任務集合開發統一的新方法,與 SuperGLUE 一起釋出的還有一套用於操作 NLP 的預訓練、多工學習和遷移學習的模組化建模工具包。這套工具包基於 PyTorch 和 AllenNLP。

    管理 SuperGLUE 排行榜的規則有多個地方不同於 GLUE 排行榜的管理規則,這些變化都是為了確保該排行榜競爭公平、資訊豐富,並能充分體現資料和任務建立者的貢獻。

    SuperGLUE 與 GLUE 的兩項共同任務是:識別文字蘊涵(RTE)和 Winograd 模式挑戰賽(WSC)。此外,SuperGLUE 還添加了測試模型問答、執行共指消解和執行常識推理能力的任務。

    5、SuperGLUE 基準也設定了一個總體評估指標:SuperGLUE 分數。該分數即是在以上所有任務上所得分數的平均。對於 Commitment Bank 和 MultiRC,會首先先取該任務在各項指標上的平均,比如對於 MultiRC,會首先先平均 F1m 和 F1a,之後在整體平均時將所得結果作為單個數值納入計算。另外,GAP 的偏見(bias)分數不會納入 SuperGLUE 分數的計算;原因是在性別平衡的 GAP 上訓練的大多數系統在偏見分數上都表現良好。

    6、為了進一步挑戰AI系統,SuperGLUE還首次引入了長篇問題回答資料集和基準測試,這需要AI能提供長而複雜的答案,這是此前沒有遇到過的挑戰,有助於發現了當今最先進的NLU系統的一些侷限性。

    7、目前的問答系統專注於瑣事型別(trivia-type)的問題,例如“水母是否有大腦”。新的任務將更進一步要求系統對開放式問題的深入解答進行詳細的闡述,需要系統能夠回答“水母如何在沒有大腦的情況下運作?”

    除了新的測試基準外,紐約大學還同時釋出了相關的PyTorch語言理解工具包Jiant

  • 4 # 魚侃侃

    從GLUE到SuperGLUE:難度更大

    SuperGLUE在GLUE設計的基礎上,採用了一系列更加困難的語言理解任務,除了共同任務識別文字蘊涵(RTE)和 Winograd 模式挑戰賽(WSC)外,還添加了常識推理和詞義消除等任務,上表中給出的其他測試資料集包括:

    CB短文字語料庫

    MultiRC真假問答任務資料集

    COPA因果推理

    WiC詞義消岐

    RoBERTa離人類還有多遠

    從SuperGLUE排行榜上看,RoBERTa的得分距離人類只有5.2分,但是NYU資料科學中心助理教授Sam Bowman在其推特上,關於這一排行榜RoBERTa直逼人類的表現也發表了看法。

    RoBERTa在SuperGLUE得分逼近人類,甩baseline十多個點

    SuperGLUE代表的是我們需要處理的35個任務中最難的幾個。而對於35箇中的大多工,BERT 本身的效能就已經快接近極限了。

    還有幾點需要注意:

    RoBERTa良好的表現很大程度受益於充足的資料集:ReCoRD和MultiRC。效果轉移到資料不佳的任務比較困難。

    WinoGender coref.accuracy表現較好,但代價是gender parity更差。

    RTE模型在downward monotone inferences仍然表現較差:例如,它傾向於假設“所有的狗都喜歡抓它們的耳朵”。“所有動物都喜歡搔耳朵。”

    Sam Bowman認為,他對覺得RoBERTa有個明顯的天花板,而我們對於人類表現有一個比較低的估計,他敢打賭,接下來的5到10個百分點將變得相當難以突破。

    讓我們期待透過算力資料以及大模型(Transformer),人類到底能夠將NLP推到什麼程度吧!

  • 中秋節和大豐收的關聯?
  • 如何評價哈爾科夫反擊戰?