首頁>科技>

​【摘要】近期,全球人工智慧領域的頂級學術會議AAAI 2021將於2月2日-9日在線上召開,華為雲的7篇AI科研成果被收錄。

全球人工智慧領域的頂級學術會議AAAI 2021將於2月2日-9日在線上召開。論文錄用結果顯示,華為雲的7篇AI科研成果被收錄。論文內容涉及聯邦學習、深度學習、機器學習、自然語言處理、遷移學習、知識計算等技術領域,充分展現了華為雲在人工智慧領域的基礎研究實力。技術創新和應用落地是這些論文的亮點,相關技術目前已在油氣勘探、藥物研發、AI開發、智慧交通等業務場景下規模化落地,加速行業智慧升級。

AAAI每年評審並收錄來自全球最頂尖的人工智慧領域學術論文,代表全球AI技術的趨勢和未來。

以下是華為雲此次入選7篇論文介紹:

論文一:業界首創自分組個性化聯邦學習框架,並已落地華為雲ModelArts

論文標題:《非獨立同分佈下的自分組個性化聯邦學習》(PersonalizedCross-Silo Federated Learning on Non-IID Data)

論文地址:https://arxiv.org/abs/2007.03797

聯邦學習機制以其獨有的隱私保護機制受到很多擁有高質資料的大客戶青睞。但是,各大客戶的資料分佈非常不一致,對模型的需求也不盡相同,這些在很大程度上制約了傳統聯邦學習方法的效能和應用範圍。華為雲自研FedAMP聯邦學習框架使用獨特的自適應分組學習機制(如圖一)讓擁有相似資料分佈的客戶進行更多合作,並對每個客戶的模型進行個性化定製,從而有效處理普遍存在的資料分佈不一致問題,並大幅度提高聯邦學習效能。透過與中國科學院上海藥物所在AI藥物聯邦學習上的合作,FedAMP優質的效能獲得了蔣華良院士的高度認可,並在中國醫藥創新與投資大會上吸引了眾多醫療製藥廠商洽談合作。

圖1 FedAMP聯邦學習框架

論文二: 首次提出利用物理資訊深度學習的框架將二階交通理論模型融合到神經網路中,以高效解

決交通態的估值的問題:(Physics-Informed Deep Learning for Traffic State Estimation: A HybridParadigm Informed By Second-Order Traffic Models)

交通態的估值需要解決如何使用稀疏的感測器(如感測線圈,浮動車)資料將整條道路的交通態(如速度,流量,密度)完整地估計出來。這對演算法的資料效率有著非常高的要求,而傳統的純交通模型和純機器學習的解決方案的效果均不理想。針對這些問題,本論文提出了基於物理資訊深度學習框架,透過對激勵函式和連線權重的特殊設計,將複雜的二階交通模型編碼到神經網路中去(圖二-a),讓神經網路在高階交通理論的約束下進行訓練。具體方法是,使用傳統神經網路進行交通態的估值,然後將估值進一步輸入到物理資訊神經網路中去,計算出該估值的理論餘量來量化偏移交通理論的程度。這個理論餘量為估值網路的訓練提供了重要的正則化資訊,大大提高了估值模型的訓練效率和估值精度。如圖(圖二-b)所示,本方法可以基於很少的觀測資料獲得更高的估值準確度。

本文是華為員工在哥倫比亞大學深造期間完成的工作。

圖2 編碼了二階交通理論模型的物理資訊神經網路與交通態估值結果

論文三:使用圖卷積網路擬合權值共享神經結構搜尋的搜尋空間,提升神經結構搜尋魯棒性。(Fitting the Search Space of Weight-sharing NAS with Graph ConvolutionalNetworks)

論文地址:https://arxiv.org/pdf/2004.08423.pdf

權值共享的神經結構搜尋透過訓練一個包含所有分支的超網路來複用不同操作上的計算量,以子網路取樣的方式評估網路結構,大幅度提高了搜尋速度。然而,這種子網路取樣的方式並不能保證子網路的評估效能準確反映其真實屬性。本文認為產生這一現象的原因是使用共享權值構建子網路的過程中產生了權值失配,使得評估效能中混入了一個隨機噪聲項。本論文提出使用一個圖卷積網路來擬合採樣子網路的評估效能,從而將這個隨機噪聲的影響降至最低。實驗結果表明,使用本方案後,子網路的擬合效能與真實效能間的排序相關性得到有效提高,最終搜尋得到的網路結構效能也更加優異。此外,本方案透過圖卷積網路擬合了整個搜尋空間中子網路的評估效能,因此可以很方便地選取符合不同硬體約束的網路結構。

圖3 總體框架示意圖

論文四:首次提出基於多輪閱讀理解的框架解決實體連結問題

實體連結是將文字中提到的實體連結到知識庫中對應實體的任務,目的是解決實體存在的歧義性問題,但由於名稱的變化和實體的模糊性,此任務十分具有挑戰性,尤其是短文字的實體連結,由於句子長度短,在連結過程中,每個待消歧的實體能利用的上下文資訊非常有限。針對這個任務,本論文提出了一個多項選擇閱讀理解的框架,為句子中每個待消歧的實體分別生成一個問題,並將知識庫中的候選實體轉換成候選答案集,透過這樣一個設計,實體連結轉換為了一個閱讀理解的問題(圖1 Local部分)。在選擇正確答案的過程中,待消歧實體的上下文資訊與知識庫中的候選實體之間獲得了充分的互動,同時多個候選實體間的區別也得到了潛在地考慮。為了進一步捕捉句子內待消歧實體間的主題一致性來提高連結的準確率,本文采用了多輪閱讀理解的方式以序列去處理多個待消歧的實體(圖1 Global部分),為句子內多個實體的消歧提供了更豐富的資訊。另外,為了解決短文字中常見的不可連結問題(即知識庫中沒有對應的實體),本文額外設計了一個兩階段的驗證機制來判斷實體是否可被連結。本論文提出的方法在多箇中英文資料集上均取得了目前最優的實體連結效果。

圖4 基於多輪閱讀理解的實體連結框架

論文五:首次提出基於多尺度地質知識遷移的跨區塊油氣儲集層分類演算法,利用遷移學習提升跨區塊油氣儲集層分類效果。(Cross-Oilfield Reservoir Classification via Multi-Scale SensorKnowledge Transfer)

油氣儲集層分類是油氣勘探中的一個關鍵步驟(如圖一所示),自動準確的油氣儲集層分類方法不僅可以降低油氣行業專家的工作負擔,也可以幫助油氣勘探公司做出最優的開採決策。當前已有的油氣儲集層分類主要關注在單一區塊上的分類效果,但是在新區塊上應用效果卻不盡如人意。因此,如何遷移地層特徵從而實現跨區塊也能準確分類是一個富有挑戰的任務。本論文首次提出了一種多尺度感測器抽取方法從多元測井記錄中抽取地質特徵的多尺度表示,然後設計了一種encoder-decoder模組來充分利用目標和源區塊的特有特徵,最後透過一個知識遷移模組來學習特徵不變性表示,從而將地質知識從源區塊遷移到目標區塊。真實油氣資料上的實驗結果表明本論文精心設計的遷移學習方法,可以提升分類模型在新區塊上的分類表現,相較於基線演算法可以有%6.1的效果提升。

圖5 油氣勘探工作流

論文六:首次提供基於超幾何分佈的機率模型,用於解決遠端監督命名實體識別中的去噪問題。(DenoisingDistantly Supervised Named Entity Recognition via

aHypergeometric Probabilistic Model)

遠端監督是一種常見的機器學習正規化,可以降低對標註資料的依賴。但是遠端監督往往會引入噪聲,從而影響學習效果。對於基於遠端監督的命名實體識別(NER)來說,如何有效去噪就是一個十分重要的問題。以往的去噪方法主要基於例項層次的統計結果,往往忽略了不同資料集不同實體型別之間噪聲分佈的差異性,從而導致這些方法何難適用於高噪聲比例的設定。本論文提出了一種基於超幾何分佈的學習方法,同時考慮噪聲分佈和例項層次的置信度。具體而言,我們將每個訓練batch裡面噪聲樣本的數量建模成一個由噪聲比例決定的超幾何分佈,這樣一來每個例項都可以透過上一輪訓練獲得的置信度來決定是噪聲還是正確樣本。實驗結果表明本論文提出的方法可以有效去除遠端監督正規化引入的噪聲,顯著提升NER的效果。

該工作由華為雲團隊與中科院軟體所合作完成。

論文七:提出基於對抗學習與相似性增強的域泛化訓練新框架,在域泛化行人再識別領域創下新紀錄 (DualDistribution Alignment Network for Generalizable Person Re-Identification)

域泛化是一種適用於現實應用場景的機器學習正規化,對於行人再識別問題,域泛化是指在大規模多源資料上進行模型訓練,期望模型在任意未知的場景中都能夠直接適用。現實應用中,大規模訓練資料往往難以收集,域泛化方法正是一個使得模型能夠低成本快速部署的優秀方案。以往的方法對域間的巨大差異缺乏有效的處理手段,同時忽略了域間樣本可能的相似性資訊。在資料域層面,本論文提出了新的對抗學習方法,透過減少中心域與外圍域的差異,實現了域間差異的有效消除;在樣本層面,本論文透過增強來自不同域的相似樣本之間的相似性,進一步對齊來自不同域的樣本特徵分佈。在這兩個方面的共同作用下,本論文的雙重分佈對齊網路實現了新的效能突破。實驗表明,所提方法在公共測試基準資料集上取得了當前最好的結果。

該工作由華為雲團隊與廈門大學合作完成。

圖7 針對域泛化行人再識別問題的雙重分佈對齊網路示意圖

為了更好地賦能產業升級,華為雲持續深耕AI基礎研究和落地應用,打造更懂世界的AI。2020年以來,華為雲EI研究團隊已在影象分類、弱標註場景下的影象分類、影象檢測,多模態資料處理、語音語義等領域取得多項世界第一。未來,華為雲將持續把AI前沿演算法產品化,並開放給各行業的AI開發者使用,透過技術創新驅動產業智慧升級。

10
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 安卓徹底輸了?誰也沒想到,iPhone SE3未必香