首頁>科技>

從符號智慧到感知智慧,再到今天的認知智慧,人工智慧的發展可謂日新月異。2020年大火的GPT-3,其引數量達到了千億級別,規模已經接近人類神經元的數量。這說明,GPT-3的表示能力已經接近人類了,但它仍有一些認知侷限——沒有常識。常識知識的獲取、理解與運用,一直是人工智慧最核心的問題之一。長久以來,學術界和工業界都一直欠缺一個比較好的常識知識表達與獲取方法。

在本次直播中,我們很榮幸地邀請到來自香港科技大學的張洪銘博士為大家分享他參與的關於常識獲取的相關工作。本期分享介紹瞭如何從事態(事件和狀態)的角度來理解常識知識以及如何從無標註文本里以低成本自動獲得相關的知識,主要圍繞以下幾個方面進行展開:⑴現在預訓練模型(BERT, RoBERTa等)在常識理解任務上的進展和侷限性。⑵如何利用高階語義傾向來表達理解常識知識。⑶在此基礎上,如何自動從預料中構建一個基於事件的知識圖譜ASER來有效表達常識知識。⑷如何利用ASER中所蘊含的常識知識來幫助下游任務(指代消解,事件預測,問答,對話等等)。

張洪銘,香港科技大學三年級博士生,導師宋陽秋教授,目前在賓夕法尼亞大學訪問,導師Dan Roth教授。主要研究方向是常識與事件理解。曾獲HKPF和MSRA Fellowship。主要工作發表在ACL,EMNLP,NAACL,WWW,IJCAI等會議上。

一、背景

毋庸置疑,常識在自然語言理解(NLU)中是極為重要的。以下圖為例,人類可以很容易理解“踩進水坑”與“回家換鞋”這兩個事件是如何關聯起來的,因為我們知道踩進水坑會導致鞋溼,而溼的鞋會讓人感到不舒服,自然就會想回家換掉。由此可見,常識與事件是息息相關的。

何為常識?一個較為流行的定義是“對於正常人來說,常識一般是指對周圍事件的良好判斷”。而在AI領域,通常將常識作為一個術語來指代“大多數人公認的百萬級的基本事實和理解”。常識與事實(fact)一個很重要的區別是由於預設常識是大家所熟知的,為了交流的高效性,在社交中通常會被人們所忽略。比方說,“如果你忘掉了一個人的生日,他可能會很生氣”,“鳥可以飛,但書不能”,這些是日常交流中不需要重複的。另外一個重要區別是與事實不同,常識更多的是一種傾向性,它並不總是正確的。如上述兩個例子,如果你朋友知道你最近很忙,就算你忘記他生日,他不一定會生氣。不是所有鳥都可以飛,比如鴕鳥。

為了幫助機器常識,現已有很多常識資源,透過人工智慧的方式建立常識知識庫,較為有名的是ConceptNet/OMCS(Open Mind Common Sense)。最初的OMCS包含了20種常識關係型別,最新的ConceptNet 5.0在OMCS的基礎上拓展到了33種,除了常識外,還涉及WordNet相關知識.

最近推出的一個常識資料集叫ATOMIC,包含了大量生活事件的常識,利用了9種人定義的關係型別。但是這些以人工構建常識知識庫的方法總存在一些侷限性:(1)它只能覆蓋選定的邊;(2)每尋找一個新的邊,都需要花費大量的金錢和時間。

想要突破以上侷限性,自然的想法是能否透過自動的方式從自然語言中獲取常識。為了研究這個問題,首先需要弄清常識在自然語言中是如何表達的,而這就要溯源到語義理論的下界。語言描寫去掉語法就得到了語義。理解語言既需要“說話者的語言知識”,也需要“有關世界的知識”,這裡的“世界知識”包括事實和常識兩部分。

如下圖的例子,三個句子語法一樣,但描述了三個完全不同的事件。但當說“它太危險了”,句中“它”在三個選項中顯然更傾向於“獅子”,因為這是常識。總結來說,當語法被困定時,我們做出的選擇可以反映出我們對世界的理解。

在語言學上這被稱為選擇偏好(Selectional Preference),是選擇限制(Selectional Restriction)的一種泛化,通常也被用為一種非常重要的語言學特徵。它最初只被運用到了WordNet中的IsA層次結構和謂語-賓語關係。透過此公式,我們可以非常容易地使用不同組合的頻率/合理性得分來反映人們的偏好。例如,一個模型或知識庫能夠給予三元組(“Cat”-IsA-“Animal”) 的分數高於(“Cat”-IsA-“Plant”),就可以認為這個模型或知識庫具備了“貓是一種動物,而不是植物”的常識。

只有以上兩種關係是不能覆蓋全部常識知識的,因此學術界也嘗試進行了探索,如下圖所展示的。一階關係,比如擴充套件到主語位。二階關係,有時對於一個事件來說,我們對它的主語和謂語沒有直接要求和傾向性,但對於主語和謂語的特徵有很直接的傾向性。進一步拓展,可以得到更高階的關係,事件之間的傾向性。如下圖所示這項工作,主要研究了語言關係的選擇偏好與人類定義的常識之間的聯絡。

二、TransOMCS模型框架

上面已經提到獲取常識的常規方法通常需要費力且昂貴的人工註釋,這在大規模上是不可行的。對此,張洪銘等探索出了一種新的實用方法——TransOMCS,從語言圖中提取常識知識,目的是將透過語言模式獲得的廉價知識轉化為昂貴的常識知識。下圖為這項工作的總體框架。

⑴首先對語言知識圖和種子常識知識圖兩個資料集進行模式提取,但提取得到的模式可能存在噪音,因此在此基礎上需要進一步的清洗和挑選。

⑵然後,在獲取到高質量的模式後,可以遷移回原始的語言知識圖,從而得到大量的常識知識。

⑶最後,對獲取到的常識知識進行打分,得到最終更高質量的常識。整個過程不需要額外的標註,因此十分便宜且具有較好的拓展性。

下圖為針對不同常識關係語言圖和提取模式的示例,這些模式是透過種子常識元組和圖中的單詞匹配來提取的。給定語言圖作為輸入,可以將這些模式應用於提取類似OMCS的常識。提取的頭部和尾部概念分別用藍色和紅色圓圈表示。

模式選擇需要重新精煉自動提取的模式,在這個過程中,應綜合考慮高頻率和複雜性兩個因素。對於每個模式,並不是簡單看其本身的分數,而是需要將所有的候選模式經過對比分析,選擇置信度更高的

為了最大程度地減小模型噪聲的影響,提出了一個知識排名模組,根據置信度對所有提取的知識進行排名。這裡的置信度主要利用原始句子的語義和頻率兩方面的資訊。

三、實驗結果

實驗部分,將ASER作為語言知識圖,種子常識知識圖則採用OMCS/ConceptNet。結果是輸入了一個大型的常識庫——TransOMCS,是由OMCS格式轉換而來的。雖然TransOMCS與OMCS類似,但其規模約是OMCS的一百多倍。另外,在與人工標註的對比中發現,TransOMCS是擁有高質量的高置信度。最重要的是,這幾乎沒有任何成本。

下表列出了模型評估的摘要,主要對比了COMET和LAMA兩個基準模型。從表中可以看出,TransOMCS在數量上勝於另外三個模型,即使是TransOMCS的最小子集也要比其他最大生成策略高出10倍。另外,TransOMCS在新穎性方面也優於COMET,尤其是新穎概念的百分比。其背後的原因在於COMET是一種純粹的機器學習方法,它在訓練集上學習生成尾部概念。模型越強大,就越可能擬合訓練資料,產生的新穎概念就越少。因此,透過實驗證明了確實可以將語言知識轉移為常識知識,SP可以有效地表示常識

下圖為案例研究,以進一步分析不同的獲取方法。COMET是唯一可以生成長概念的模型,但同時它也遭受生成無意義單詞的困擾。除此之外,COMET可能會擬合訓練資料,即使十個輸出不完全相同,但其中四個都表示同一件事。

LAMA的最大優勢在於它不受監督,但它有兩個主要缺點:(1)它只能生成one-token的概念,對於常識知識來說還遠遠不夠;(2)LAMA的質量不如其他兩種方法。

與COMET相比,TransOMCS可以產生更多新穎的常識知識。同時,與LAMA不同,TransOMCS可以生成multi-token概念。但TransOMCS也有兩個侷限性:(1)無法提取長概念,很難找到精確的模式匹配;(2)由於提取過程嚴格遵循模式匹配,因此可能提取語義不完整的知識。

實驗的最後,還設計了常識閱讀理解和日常對話生成兩個下游任務,結果顯示如下圖。對於閱讀理解任務,TransOMCS有助於提高總體的準確性,而COMET和LAMA對於此任務的貢獻很小。對於日常對話生成任務,TransOMCS在生成的響應質量上表現出顯著的提高。

簡單總結來說,講者這項工作證明了從語言知識到常識的可轉移性,提出了可自動獲取常識的可擴充套件的模型。另外,還設計了TransOMCS,它比OMCS大兩個數量級。

四、DISCOS: 從ASER到ATOMIC

除了TransOMCS這項工作,張洪銘博士還介紹了他參與的另一項工作DISCOS,目前已被WWW 2021所接收。同樣針對先前常識獲取方法的侷限性,DISCOS常識獲取框架也希望自動從更實惠的語言知識資源中挖掘昂貴的複雜常識知識。

下圖是DISCOS的一個示例,來自ASER的最終事件透過指示相應話語關係的有向邊連線起來。DISCOS旨在將ASER中的話語邊轉換為“如果-那麼”的常識邊。例如,ASER邊(“我餓了”,結果是“我吃了午餐”)將被轉換為(如果“ X餓了”,那麼X想要“吃午飯”)常識元組。與OMCS不同,DISCOS只專注於更高階的SP,它的頭和尾通常是長且複雜的,因此需要用神經網路代替固定模式。

DISCOS的總體框架如下圖,ATOMIC和ASER中的事件主體完全不同,在ATOMIC中主體是諸如“Person X”和“ Person Y”的佔位符,而在ASER中則是具體人稱代詞“他”和“她”。為了對齊兩個資源,首先將ATOMIC中的所有頭和尾對映到ASER中。形式上,需要一個對映函式將輸入的字串對映到ASER中相同的節點格式。接下來,在給定節點和常識關係的情況下,利用規則選擇候選話語邊。最後,採用一種新穎的常識知識種群模型BERTSAGE來對候選常識元組的合理性進行評分。

如下表的實驗結果顯示,雖然COMET和DISCOS在質量上相差不大,但是在新穎性方面DISCOS大大勝於COMET。

總結來說,TransOMCS和DISCOS都證明了從語言知識到簡單常識和複雜常識的可轉移性,這就意味著過去費力且昂貴的方法是可以被取代的,TransOMCS、DISCOS等自動獲取的方式不僅便宜且可擴充套件性更優。

相關資料

論文連結:

https://arxiv.org/pdf/2005.00206.pdf

https://arxiv.org/pdf/2101.00154.pdf

原始碼:

https://github.com/HKUST-KnowComp/TransOMCS

https://github.com/HKUST-KnowComp/DISCOS-commonsense

12
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 出貨的主流渠道