首頁>技術>

圖機器學習中的知識圖譜有什麼新功能?NLP KG相關研究指南

NeurIPS是涵蓋各種ML和AI主題的主要場所。當然,對於Graph ML愛好者和知識圖鑑賞家interesting來說,有些有趣的事情。收看找出來!

今年,NeurIPS已接受1900篇論文,其中100篇以上在圖上。此外,還要考慮幾個著名的研討會,例如KR2ML,DiffGeo4ML和LMCA。一定要檢查他們的會議記錄,因為這樣的研討會檔案很可能會出現在ICLR,ICML或ACL等未來的場所。此外,Sergey Ivanov撰寫的GML新聞通訊#4提供了NeurIPS的Graph ML論文的概述,包括理論,平滑,可擴充套件性等等,因此也請檢視。

在這篇文章中,我想重點介紹一種特定型別的圖,知識圖(KGs),並與您一起探討20篇可能對2021年有重大影響的論文。理論比* CL會議中的NLP應用程式好,因此我將它們總結為:

在轉導連結預測的幕後,我們進入了邏輯推理任務谷,

今天在我們的議程中獲取一些☕️,甚至是Glühwein:

· 查詢嵌入:超越Query2Box

· KG嵌入:NAS,vs,元學習

· SPARQL和成分泛化

· 基準測試:OGB,GraphGYM,KeOps

· 包裝

查詢嵌入:超越Query2Box

查詢嵌入(QE)是關於直接在嵌入空間中對KG進行查詢,而無需任何SPARQL或圖形資料庫引擎。鑑於大多數KG都是稀疏且不完整的,因此查詢嵌入演算法能夠推斷出丟失的連結(具有一定的機率)。到目前為止,這是Graph ML中最熱門的主題之一!IC在ICLR 2020帖子中,我們介紹了Query2Box,這是一個強大的QE基線,能夠透過將實體建模為d維框來用連詞(∧),析取(∨)和存在量詞(∃)回答邏輯查詢。

Ren和Leskovec(原始Query2Box的作者)最終在BetaE框架中添加了否定運算子(¬)。點和框都沒有可用的否定符號,因此BetaE將實體和查詢建模為Beta分佈。投影和交點也可以使用beta分佈很好地建模(否定是具有相反的alpha和beta引數的分佈)。除了DNF之外,我們還可以使用De Morgan的定律將否定和合取替換析取。檢視下面的方法的漂亮插圖

BetaE在現有查詢模式上的效能略優於Query2Box,同時派生並嘗試了帶有否定的新模式,而這種否定是任何現有的QE方法都無法解決的。與Q2B的另外兩個差異:BetaE更好地捕獲了查詢不確定性(Beta嵌入的差分熵與答案集的基數之間的相關性,高達77%更好),並且可以估計給定查詢是否具有零答案。

> Answering a FOL query "List the presidents of European countries that have never held the World Cup" with conjunction, disjunction, and negation operators. Source: Ren and Leskovec

另一方面,Sun等人發現Q2B和其他系統在邏輯上並不忠實,也就是說,QE系統無法檢索到所有邏輯上必需的查詢答案。為了彌合這一差距,作者介紹了EmQL(嵌入式查詢語言)。EmQL仍將實體嵌入到d維空間中並支援∧,∨和∃,但是對建模集takes採用了不同的方法。作者使用框對(a_x,b_x)來編碼每個集合X,而不是使用框或Beta分佈,其中a_x是集合元素的加權質心,b_x是最小計數草圖(CM草圖)。每個草圖由深度為W的D個雜湊函式組成(因此為D×W矩陣,作者選擇20×2000)。

它是如何工作的?使用質心,頂部k個MIPS a_x.T.mm(E)檢索屬於X的k個可能的候選實體; 重要的是,對於CM草圖,我們有一個可微分的檢索運算元CM(i,b_x)返回實體的權重i在集合X中; 然後我們可以將MIPS與基於CM的過濾相結合然後,作者將∧,∨和define定義為質心和CM草圖的運算元

experiments在實驗中,作者研究EmQL的一般性(回答查詢,標準QE任務)和範圍(當給出完整的KG時,不需要連結預測)。平均而言,在泛化任務上,EmQL在FB15k-237和NELL上比Q2B高出10–15 H @ 3點,並且在支配任務上完全佔優勢(94.2 vs 36.2)。此外,EmQL已在Meta-AQ和WebQSP等多跳QA基準上進行了測試,其效能甚至甚至超過了ACL 2020中最近的EmbedKGQA。然而?

> Source: Sun et al

KG嵌入:NAS,vs,元學習

今年在NeurIPS上真正有趣的事情已經超越了"又一個KG嵌入演算法"。您可能已經聽說過神經體系結構搜尋(NAS)及其在計算機視覺方面的成功-例如,像EfficientNet這樣的最新體系結構並不是人為設計的。相反,NAS系統從一堆較小的構建塊生成神經網路,從而優化了某些指標。我們可以擁有一個NAS來為與KG相關的任務生成高效的體系結構嗎?

> When NAS for KG embeddings actually works

張等人說是!他們提出了Interstellar,一種基於RNN的關係路徑NAS方法。星際首先需要從KG(在這種情況下,偏向隨機遊走)取樣路徑,然後將這些路徑饋入RNN。整個RNN網路(像元和權重)是NAS的主題。該過程分為兩部分:宏觀層(例如,評分函式)和微觀層(啟用和權重),它們由控制器govern控制。由於Hits @ 10和相關指標不可區分,因此作者訴諸策略梯度來最佳化控制器。

experiments在實驗中,對星際穿越進行了連結預測和實體匹配任務的研究,以顯示競爭結果。每個任務都需要特定的種子架構(如圖片on所示),並且找到一個好的網路可能需要一段時間(⏳FB15k-237的搜尋時間約為30小時,微調約為70小時),但是,這是第一步表明NAS通常適用於與KG相關的任務,並且可以建立新的RNN架構!此外,讓我們看看下一部Nolan的電影信條Tenet在模型命名世界中會獲得多大的吸引力

> Source: Zhang et al

幾何嵌入模型越來越受到社群的關注attention!去年,在NeurIPS的19篇文章中,我們注意到了使用雙曲線幾何進行圖形表示學習的方法的激增。今年,我們有了一個新的強大的幾何競爭對手:超矩形,又名盒子!

Query2Box使用框進行查詢嵌入,而Abboud等人進一步發展了這一想法,並設計了BoxE,這是一種可證明的完全表達的KG嵌入模型,其中實體是向量空間中的點,關係是框。每個關係都使用與關係的關聯性一樣多的框來建模,例如,對於二元謂詞capitalOf(柏林,德國),頭和尾實體有兩個框,而對於n元謂詞,將有n個盒子。除基本位置外,每個實體還有一個附加的引數平移凸點,該引數平移凸點旨在使出現在同一關係中的實體更接近(請檢視所示的示例)。

作者確實對理論invest進行了投入,並證明了BoxE的幾個重要特性:它可以對除組成以外的許多推理模式進行建模,可以進行規則注入(因此可以注入本體公理),並且具有充分的表現力。但是,僅當嵌入尺寸為| E | x | R |時才具有完整的表達能力用於二進位制關係和| E | ^(n-1)x | R |對於n元謂詞,即hmm,則有點(有趣的是,Query2Box的作者還顯示,需要| E |嵌入維才能為任意FOL查詢建模)。

Box️BoxE在基於FB15k-237的三重基準以及JF17K等n元圖上進行了評估。儘管嵌入尺寸在200–1000範圍內變化(例如,對於FB15k-237,理論上不是15000x237),但BoxE仍然具有相當的競爭力,並且在圖形上與當前SOTA相當,沒有很多成分模式。作者還編寫了一個很好的實驗,將邏輯規則注入NELL運動資料集,並顯示了令人印象深刻的> 25 MRR點增益gain。

由於2020年是boxes年,因此,不要錯過NeusIPS在此發表的Dasgupta等人的工作,他們更深入地研究了有關本地可識別性的盒子,並提出了使用Gumbel分佈對盒子引數建模的想法。

> Source: Abboud et al

我們還記得NeurIPS 2019的E2R,這是一種基於量子邏輯的KG嵌入模型,具有有趣的特性(非常高的效能或非常低的效能)。到那時,E2R僅在轉導設定中起作用(這意味著在訓練過程中可以看到整個圖)。今年,Srivastava等人進一步擴充套件了該模型,並提出了IQE(感應量子嵌入)技術。本質上,IQE現在接受節點特徵,因此實體嵌入必須與其特徵向量相關聯。此外,IQE現在透過一種新穎的交替最小化方案進行了最佳化,作者發現這比普通E2R快9倍。作者還提供了模型屬性的可靠理論依據,以及何時應該期望模型具有NP-hard能力。

從概念上講,該模型支援二進位制謂詞,但作者專注於使用BiLSTM作為上下文編碼器的細粒度實體鍵入任務(FIGER,Ontonotes,TypeNet)。請注意,IQE只需要大約6個紀元即可收斂(在FIGER上-相比之下,E2R需要1000次迭代)!在質量上,IQE優於原始的轉導模型達25–30精度和F1點

> Source: Srivastava et al

Baek等人繼續進行歸納任務,研究了兩種特殊的連結預測設定:1)給定訓練可見圖,一個新的看不見的節點到達,您需要預測其與可見節點的連線(->);2)更多看不見的節點到達,您需要預測未見節點本身之間的連結(->)。聽起來很複雜,對吧?通常,在轉導任務中,模型學習所有可見節點的實體和關係嵌入,並在一組可見節點上進行推理。在這裡,我們有看不見的節點,而且通常沒有節點特徵。

> Source: Baek et al

作者訴諸於元學習,並提出了圖外推網路(GEN),旨在將知識從所見實體外推到看不見。此外,作者在幾次快照設定中定義了任務,即,看不見的新節點可能具有到現有節點或其他看不見的節點之間的3-5(K)連結。

GEN的元學習任務主要依賴於關係:給一個看不見的節點e_i提供K個三元組的支援集,透過可學習的關係特定權重Wr應用鄰域聚合。實際上,任何關係感知的GNN架構都可以插入此處。換句話說,我們使用鄰居的表示元學習一個看不見的實體的嵌入。為了解決幾次失敗的情況的不確定性,作者隨機地將看不見的實體作為分佈嵌入,該分佈透過MC取樣在2個GEN層中學習引數(有點類似於GraphVAE)。

在考慮到看不見的連結時,已對FB15k-237和NELL-995的1次和3次LP任務進行了GEN評估,從而顯著提高了效率。此外,GEN已應用於DeepDDI和BioSNAP-sub資料集的關係預測,具有超過基線的顯著提升,例如DeepDDI上的0.708 vs 0.397 AUPRC。

總體而言,NeurIPS'20在KG嵌入領域開闢了一些前景:外觀,神經結構搜尋作品,元學習作品,Quantum和模型變得更具表現力!因此,我們現在可以解決比普通轉導連結預測更復雜的任務。

SPARQL和成分泛化

在透過KG(KGQA)進行問題回答時,語義解析將問題轉換為結構化查詢(例如,在SPARQL中),然後針對資料庫執行該結構化查詢。composition問題之一是成分泛化,即在觀察簡單原子之後是否可以構建複雜的查詢模式?在ICLR的20篇帖子中,我們回顧了一個新的大規模資料集"複雜免費庫問題"(CFQ)(讓我們為Free‍♂️ Freebase寬恕),旨在測量NL 2 SPARQL方法的成分泛化能力。值得注意的是,諸如LSTM和Transformer之類的基準效能相當差:平均準確度<20%

et Guo等人對潛在警告提出了透徹的研究,即最大的問題之一是順序解碼⛓或生成查詢或包括樹解碼在內的邏輯形式時的任何排序偏差。取而代之的是,他們建議利用部分有序集(姿勢),以及相反地利用分層Poset解碼(HPD)。Poset使我們能夠在解碼過程中強制執行置換不變性(例如,獨立預測邏輯AND運算子的兩個分支),以便模型可以專注於泛化。片語可以表示為DAG。DAG的元件可以透過簡單的RNN(作者訴諸於此)進行預測。

但是,直接預測坐姿不會帶來好處(效果甚至比LSTM和《變形金剛》還要差)。基本部分是分層解碼(請檢查下面的),它包括4個步驟。1️⃣首先,我們預測一個後期草圖(去詞化的DAG)。2️⃣我們獨立地預測查詢的原語(實體和關係識別的種類)。3️⃣然後,我們將所有可能的排列形式的基元填充到poset草圖中,然後4️⃣預測哪些特定路徑實際上確實屬於正確的目標poset。

實驗上,HPD的表現出奇地好–平均而言,在3個MCD分割上,準確度為70%,而Universal Transformer為20%,強大的T5-11B為40%。消融表明seq2seq和seq2tree草圖預測只會使效能變差,並且層次結構的組成部分至關重要(否則會降低50%的準確性)。希望這項工作能激發更多關於成分泛化和複雜KGQA的研究!

> Source: Guo et al

基準測試:OGB,GraphGYM,KeOps

厭倦了在其他每篇GNN論文中看到Cora / Citeseer / Pubmed嗎?您應該是:它們很小,暴露出某些偏差,並且模型的效能已經接近飽和。是時候進行重大更改了!☄️

> Source: Hu et al

Open Graph Benchmark(OGB)(Hu等人的論文)是Graph ML社群所做的一項偉大的新嘗試,它可以在不同形式的圖形上建立一組複雜而多樣的任務(包括排行榜)。OGB在各種大小的圖上提供節點分類,圖分類,連結預測任務(到目前為止,最大的圖包含〜100M個節點和〜1.6B邊)和域(KG也位於此處):基於Wikidata和BioKG的連結預測資料集)。

GB OGB排行榜已經引發了數次Twitter風暴:例如,突然之間,簡單的10K-100K引數的標籤傳播演算法在轉導節點分類任務上就大大勝過了1M +引數的大而慢的GNN。顯然,GNN的功能和侷限性仍有待探索的空間。Cora / Citeseer / Pubmed可以演示嗎?可能不是‍♀️。

好的,我們現在有各種各樣的任務!另一方面,我們有數十種GNN架構和數百種超引數需要調整。有一個甜蜜點,一個可以完成特定任務的好起點嗎?空間是如此之大!You,Ying和Leskovec正是透過探索GNN的設計空間來解決這個問題,並介紹了GraphGYM,GraphGYM是用於建立和評估GNN(以及彎曲GNN肌肉的綜合套件)。作者定義了GNN設計和任務空間,每個空間都由細粒度的細節組成,例如12個設計維度:批處理規範,退出率,聚合函式,啟用函式,節點功能的預處理/後處理層,訊息傳遞層數,跳過層,批處理大小,學習率,最佳化器和培訓時期。將其與數十項任務結合在一起,可能組合的笛卡爾積超過1000萬種選擇!

在豐富的實驗議程中,作者找到了可以用作最佳起點併產生非常有見地的圖表的最佳工作組合。該倉庫是公開可用的,您可以立即開始進行大量實驗!

順便說一句,如果您正在KG嵌入領域中尋找類似的東西,我們的團隊最近完成了一項針對連結預測任務的大量模型和超引數調查。

> 96 setups sampled from 10M possible combinations. Source: You, Ying, and Leskovec

⚡️最後,我想概述一下Feydy等人在KeOps上的工作,它是一個具有NumPy,PyTorch,R和Matlab繫結的快速核心操作庫。除了廣泛使用的稠密和稀疏矩陣之外,作者還支援符號矩陣(第ij個成員是透過某個公式F(通常是矩陣歸約公式)計算的)。符號矩陣是動態計算的,並針對CUDA計算進行了最佳化。作者確實進行了基準測試:在具有8核Xeon,128 Gb RAM,RTX 2080 Ti的相當標準的伺服器工作站上,KeOps的效能要高出5倍-比完成相同任務的PyTorch實施要快20倍(然後PyTorch在執行KeOps時因OOM而崩潰工作良好)。

· 您還可以執行kNN搜尋並與FAISS競爭!

· PyTorch-Geometric中的某些實現已與KeOPS配合良好

我個人從夏天開始就一直使用PyKeOps,發現它在處理大型KG時非常有用。此外,我在PowerPC + CUDA叢集上編譯了該庫,請感到痛苦pain

> KeOps uses symbolic matrices! Source: Feydy et al

總結

NeurIPS總結了頂級AI會議的陣容,但ICLR 2021分數已經在那裡。如果您想了解有關Graph ML主題的最新資訊,可以訂閱Sergey Ivanov的定期通訊或加入Telegram GraphML頻道!

聖誕快樂,新年快樂,保持安全

22
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • STM32 模擬Linux kernel自動初始化流程