內容提要:2020 年即將過去,雖然這一年全球都籠罩在疫情的陰影之下,許多事情也因疫情而停擺。但是,人工智慧領域依然逆勢而上,取得了許多重大突破。在歲末之際,一起看看今年有哪些研究值得關注。
關鍵詞:2020 AI 論文盤點,機器學習
2020 年已經接近尾聲,這一年,儘管疫情對很多行業帶來了不小的衝擊,但科研工作者依然全心投入,僅在人工智慧領域,我們就目睹了許多重大突破性的研究。
在今年的多場計算機領域頂級會議中,誕生了數千篇優秀論文。要逐一瞭解顯然有點不切實際,不如挑選一些「必看論文」,比如這些由業內頂尖科技公司、專家學者一同精心挑選的,今年 AI 領域裡十篇經典論文,覆蓋自然語言處理、計算機視覺等方向。
這 10 篇 AI 領域經典論文分別是:
用於地震預警的分散式多感測器機器學習方法 A Distributed Multi-Sensor Machine Learning Approach to Earthquake Early Warning透過高斯過程後驗進行快速取樣方法 Efficiently Sampling Functions from Gaussian Process Posteriors邁向擬人化的開放域聊天機器人 Towards a Human-like Open-Domain Chatbot語言模型是小樣本學習者 Language Models are Few-Shot Learners超越準確度標準:使用 CheckList 對 NLP 模型進行行為測試 Beyond Accuracy: Behavioral Testing of NLP models with CheckListEfficientDet:可擴充套件和高效的目標檢測 EfficientDet: Scalable and Efficient Object Detection從野外影象中對可能對稱可變形的 3D 物體進行無監督學習 Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild用於大規模影象識別的轉換器 An Image is Worth 16×16 Words: Transformers for Image Recognition at ScaleAdaBelief 最佳化器:根據觀察梯度的 Blief 調整步長 AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed GradientsALBERT:語言表示自監督學習的輕量 BERT ALBERT: A Lite BERT for Self-supervised Learning of Language Representations這十篇論文,幾乎每一篇都獲得了今年各大 AI 頂會的殊榮,亦或是在各自領域裡取得了重大突破。
來看看有沒有你還沒來得及瞭解的論文?
1
論文地址:https://hal.archives-ouvertes.fr/hal-02373429v2/document
論文
《用於地震預警的分散式多感測器機器學習方法》
榮譽
獲得 AAAI 2020 傑出論文獎
摘要
本項研究旨在透過機器學習提供地震預警系統(EEW)的準確性。此係統的設計核心目的為針對於中大型地震,在破壞性影響到達特定區域前探測出來。傳統的 EEW 方法是基於地震檢波器的,但由於傳統方法對地震運動速度敏感性的問題,導致不能準確地識別大地震。而另一方面,由於引進的高精度 GPS 站點對其產生的噪音資料會有傾向性,也無法準確識別中等強度的地震。此外,全球定位系統站點和地震儀可能會在不同的地點進行大量部署,產生大量的資料,從而影響響應的時間以及 EEW 系統的穩定性。
在實踐中,EEW 可以看作成機器學習領域中一個典型的分類問題:多感測器的資料為輸入,地震的強烈程度為分類的輸出結果。
本文介紹了一種基於機器學習的分散式多感測器地震預警系統(DMSEEW),該系統結合了兩種感測器(GPS 站臺和地震儀)的資料進行探測。DMSEEW 是基於一種新的堆疊整合的方式,該方法已在實際的資料集中經過地理科學家們的驗證。該系統是基於地理層面分散式的基礎設施,以確保在響應時間和魯棒程度下,即使有部分基礎設施故障時依然保持高效計算性。實驗結果表明,DMSEEW 方法與傳統的地震預測方法和採用相對強度的組合感測器(GPS 和地震儀)方法相比,具有更高的精確度。
DMSEEW 系統工作原理示意圖
核心思想
現有的早期地震預警(EEW)解決方案效果不佳:
地震儀由於對地面運動速度的敏感性而難以檢測大地震;GPS 站容易產生大量嘈雜的資料,因此在檢測中級地震方面無效。作者介紹了分散式多感測器地震預警(DMSEEW)演算法,該演算法:
採用地震檢波器和 GPS 站的感測器級預測(即正常活動、中等地震、大地震);使用詞袋錶示彙總這些預測,並定義地震類別的最終預測。此外,它們還引入了分散式網路基礎設施,可以支援實時處理大量資料,並允許在災難情況下將資料重定向到其他處理資料中心。
關鍵成就
實驗表明,DMSEEW 演算法在預測方面優於其他基線方法(即僅地震儀基線方法和採用相對強度規則的組合感測器基線方法):
對於大地震:
精度:76.7%和70.7%;召回率:38.8%對34.1%;F1 得分:51.6%,而45.0%。對於中地震:
精度:100%和63.2%;召回率:100%與85.7%;F1 得分:100%和72.7%。2
論文地址:https://arxiv.org/abs/2002.09309
論文
《透過高斯過程後驗進行快速取樣方法》
榮譽
獲得 ICML 2020 榮譽獎
摘要
在本文中,作者探索了從高斯過程(GP)後驗有效取樣的技術。在研究了使用傅立葉特徵的樸素方法進行取樣和快速逼近策略的行為後,他們發現其中許多策略是互補的。因此,他們引入了一種方法,該方法結合了最好的不同取樣方法。
首先,他們建議將後驗分解為先驗和更新的總和;然後,他們將此想法與有關近似 GP 的文獻技術相結合,並獲得了易於使用的通用方法進行快速後驗取樣。
實驗表明,解耦的樣本路徑可以以更低的成本準確地表示 GP 的後驗。
核心思想
引入的從 GP 後驗取樣函式的方法基於以下觀察:
可以透過將高斯隨機變數與顯式校正項組合來隱式調節高斯隨機變數;作者將這種直覺轉化為高斯過程,並建議將後驗分解為先驗和更新的總和;在這種分解的基礎上,研究人員提出了一種有效的快速後驗取樣方法,該方法可以與稀疏近似值無縫配對以在訓練期間和測試時實現可伸縮性。關鍵成就
本文介紹了一種易於使用的通用方法來從 GP 後驗過程進行取樣;
透過一系列實驗演示如何解耦樣本路徑:
避免替代取樣策略的許多缺點;以更低的成本準確地代表 GP 後驗。例如,使用解耦取樣僅需 20 秒即可模擬一個眾所周知的生物神經元模型,而迭代方法則需要 10 個小時。3
論文地址:https://arxiv.org/abs/2001.09977
論文
《邁向擬人化的開放域聊天機器人》
摘要
本文介紹了 Meena,一個多回合開放域聊天機器人,對從公共領域社交媒體對話中提取和過濾的資料進行了端到端的訓練。
這是一個包含 26 億個引數的端到端訓練的神經對話模型。我們證明,與現有的最先進 (State-Of-The-Art) 聊天機器人相比,Meena 可以進行更合理和更具體的對話。
我們針對開放域聊天機器人提出一項新的人工評估指標,即合理度和具體度平均值 (Sensibleness and Specificity Average, SSA),可捕獲人類對話中基本但重要的屬性。值得注意的是,我們提出了一項適用於任何神經對話模型,而且與 SSA 高度相關的自動指標「困惑度 (Perplexity)」,該指標可捕捉類似於人類的多輪對話中的關鍵要素。
我們的實驗表明,困惑度與 SSA 之間有很強的相關性。困惑度最佳的 Meena,在 SSA 上得分很高(多回合評估為 72%),這表明如果我們能夠更好地最佳化困惑度,則 SSA 可能達到人類水平的 SSA,即 86%。此外,完整版的 Meena(具有過濾機制和調諧解碼功能)的 SSA 得分為 79%,比我們評估的現有聊天機器人的絕對 SSA 得分高 23%。
Meena 對話示例
核心思想
儘管近年來取得了一些進展,但是開放域聊天機器人仍然存在明顯的弱點:它們的響應通常沒有意義,或者過於模糊或籠統。
為了解決這些問題,Google 研究團隊引入了 Meena(一種具有 26 億引數的生成式會話模型),該模型針對從公共社交媒體對話中提取的 400 億個單詞進行了訓練:
Meena 基於帶有演進式變壓器(ET)的 seq2seq 模型構建,該模型包括 1 個 ET 編碼器塊和 13 個 ET 解碼器塊。
在多回合會話中訓練模型,輸入序列包括上下文的所有回合(最多 7 個),輸出序列為響應。
為了評測諸如 Meena 之類的開放域聊天機器人的質量,研究人員引入了一種新的人類評估指標,稱為敏感度和敏感度平均值(SSA),它可以測量聊天機器人的兩個基本方面:
有道理具體化4
論文地址:https://arxiv.org/pdf/2005.14165v2.pdf
論文
《語言模型是 Few-Shot 學習者》(OpenAI)
榮譽
獲得 NeurIPS 2020 最佳論文。該論文介紹了 GPT-3 模型,在今年引起人工智慧界,尤其是 NLP 領域的熱議。GPT-3 的規模和語言能力是驚人的,它可以虛構、開發程式程式碼、編寫深思熟慮的商業備忘錄、總結文字等。雖然對其的質疑也一直存在,但它確實展示了 NLP 領域的巨大進步。
摘要
我們訓練了 GPT-3(一種具備 1750 億個引數的自迴歸語言模型,比之前的任何非稀疏語言模型多 10 倍),並在少許測試中測試了其效能。
對於所有的任務,應用 GPT-3 無需進行任何梯度更新或微調,而僅需要經過與模型的文字互動指定任務和少許演示便可。GPT-3 在許多 NLP 資料集上均具備出色的效能,包括翻譯、問題解答和完形填空任務,以及一些須要即時推理或領域適應的任務。
核心思想
GPT-3 主要聚焦於更通用的 NLP 模型,解決當前 BERT 類模型的兩個缺點:
對領域內有標籤資料的過度依賴:雖然有了預訓練 + 精調的兩段式框架,但仍是少不了必定量的領域標註資料,不然很難取得不錯的效果,而標註資料的成本又是很高的;對於領域資料分佈的過擬合:在精調階段,由於領域資料有限,模型只能擬合訓練資料分佈,若是資料較少的話就可能形成過擬合,導致模型的泛化能力降低,更加沒法應用到其餘領域。所以 GPT-3 的主要目標是,用更少的領域資料、且不透過精調步驟去解決問題。
5
論文地址:https://arxiv.org/abs/2005.04118
論文
《超越準確度標準:NLP 模型的 CheckList 行為測試》
榮譽
ACL 2020 最佳論文獎
摘要
雖然度量支援精度是評價泛化的主要方法,但它往往高估了 NLP 模型的效能,而用於評估模型的替代方法要麼側重於單個任務,要麼側重於特定的行為。
受軟體工程中行為測試原理的啟發,我們介紹了一種用於測試 NLP 模型的不確定任務的方法。檢查表包括一個通用語言能力和測試型別的矩陣,有助於全面的測試構思,以及快速生成一個包含大量不同測試用例的軟體工具。
我們用三個任務的測試來說明檢查表的效用,識別商業和最先進模型中的關鍵故障。在一項使用者研究中,一個負責商業情緒分析模型的團隊在一個經過廣泛測試的模型中發現了新的、可操作的錯誤。在另一個使用者研究中,使用 CheckList 的 NLP 實踐者建立了兩倍多的測試,發現的 bug 幾乎是沒有檢查表的使用者的三倍。
基於某商業情緒分析模型,進行模型否定能力的測試
核心思想
現有的 NLP 模型評估方法存在許多重大缺陷,比如可能效能高估、彙總統計資料對弄清 NLP 模型出了哪些問題以及如何修復這些錯誤沒有太大幫助,以及缺乏全面性等。
為了解決此問題,研究團隊引入了 CheckList,這是一種用於評估 NLP 模型的新方法,其受軟體工程中的行為測試的啟發:
CheckList 為使用者提供了要測試的語言功能列表,例如詞彙,命名實體識別和否定;然後,為了將潛在的能力故障分解為特定的行為,CheckList 建議使用不同的測試型別,例如在某些擾動情況下的預測不變性或定向期望測試。潛在測試的結構為矩陣,功能為行,測試型別為列。關鍵成就
使用 CheckList 對最新模型進行的評估表明,即使根據準確性結果認為某些 NLP 任務是「已解決」的,但行為測試還是強調了許多需要改進的地方。
將 CheckList 應用於經過廣泛測試的面向公眾的系統進行情感分析,結果表明該方法:
幫助識別和測試了以前未考慮的功能;對先前考慮的功能進行更徹底和全面的測試;幫助發現更多可操作的 bug。限於篇幅,本期我們僅推送以上 5 篇,請大家先慢慢研讀。下期我們將繼續分享 2020 年值得關注的 AI 論文,敬請期待。
參考資料:
https://www.topbots.com/ai-machine-learning-research-papers-2020/#ai-paper-2020-1