首頁>科技>

圖1:常見商業文件示例:表單、收據、發票、報告

通常來講,文件智慧的技術路線總體上分類兩大類:第一類方法是利用文字和視覺資訊的淺層融合進行文件內容理解,但是這種方式得到的模型通用性一般來講不夠強,需要針對不同文件模板型別訓練不同的模型,因此需要更多的人工資料標註來彌補這方面的不足。

第二類方法與第一類的最大區別在於利用了文字和視覺資訊的深層融合,透過端到端多模態預訓練的方式對文件內容和文件影象進行聯合學習。這樣一來,預訓練模型可以學習到不同文件模板型別的區域性不變性資訊,當模型需要遷移到另一種模板型別時,只需要人工標註少量的樣本就可以對預訓練模型進行調優。LayoutLM 1.0 模型在設計之初就採用了這種深層次預訓練的方案,從模型的輸入階段就將跨模態的文件資訊利用起來,從而取得了更好的結果。

LayoutLM 2.0模型結構

LayoutLM 2.0 的主體結構是帶有空間感知自注意力機制的多模態 Transformer 編碼器網路,它主要有兩方面優勢:其一是在輸入階段同時接受文字、影象、佈局三種模態的資訊,利用深層網路的強大建模能力實現多模態深度融合;其二是基於文件智慧領域特性的空間感知自注意力機制,透過在傳統自注意力機制的基礎上顯式新增空間相對位置資訊,進一步幫助模型在一維文字序列基礎上加深對二維版面資訊的理解。

如圖2所示,模型首先將文字、影象、佈局三種模態的輸入轉換成向量表示,然後再交給編碼器網路,最終輸出的表示向量可以供下游任務使用。下面將從三種模態輸入的向量表示以及編碼器網路四個方面展開描述。

圖2:LayoutLM 2.0 模型結構及預訓練任務示意圖

文字向量 (Text Embedding)

文字輸入採用常規做法,使用 WordPiece 切分原始輸入文字,之後新增 [CLS] 和 [SEP] 標記,並用 [PAD] 補齊長度得到文字輸入序列:

再將詞向量、一維位置向量、分段向量(代表 [A] 或 [B])相加得到文字向量,演算法公式如下:

影象向量 (Image Embedding)

LayoutLM 1.0 採用了整體和區域性兩種影象表示方法。使用影象整體表示可以幫助模型捕捉頁面整體樣式資訊,但是模型難以高效建模細節特徵。而使用影象中的區域性文字區域則會顧及更多細節特徵,但文字區域眾多,且非文字區域也可能含有重要的視覺資訊。因此2.0結合二者特點,可以將影象網格狀均分,表示為定長向量序列。

使用 ResNeXt-FPN 網路作為影象編碼器,要先抽取原始文件影象的特徵圖,再將其平均池化為固定尺寸(W×H),接著按行展開平均池化後的特徵圖,之後經過線性投影,就可以得到影象對應的特徵序列。和文字向量的組成對應,影象向量也補充了一維相對位置和分段資訊。有別於文字的 [A]、[B] 段,影象統一歸入 [C] 段。用特徵向量、一維位置向量、分段向量相加得到最終的影象向量:

佈局向量 (Layout Embedding)

對應於每個詞或影象區域在頁面中覆蓋的座標範圍,使用平行於座標軸的邊界框(bounding box)表示佈局資訊。LayoutLM 2.0 沿用了1.0的處理方式,用4個邊界座標值、寬、高來表示一個邊界框。最終的佈局向量由6個特徵對應的向量拼接得到:

基於空間感知自注意力機制的多模態編碼器

為了融合三種輸入模態,編碼器部分首先將影象向量序列和文字向量序列拼接成統一的輸入序列,並且在對應位置加上佈局向量。編碼器首層輸入可以表示為:

編碼器部分改進了傳統的自注意力機制,引入了空間相對位置資訊。傳統自注意力機制透過如下方式計算注意力得分:

可以看出,這種方式只能隱式地利用輸入的絕對位置資訊。於是為注意力得分顯式地新增空間相對位置偏差項:

基於這種空間感知的自注意力權重,編碼器可以將模型隱藏層表示為:

預訓練任務

如圖2頂部所示,LayoutLM 2.0 的預訓練階段採用了3個自監督預訓練任務幫助模型提升語言能力、對齊模態資訊。

遮罩式視覺語言模型(Masked Visual-Language Model)

作為對 LayoutLM 1.0 的擴充套件,2.0使用的遮罩式視覺語言模型任務要求模型根據圖文和佈局資訊中的上下文還原文字中被遮蓋的詞,遮蓋操作同時遮蓋文字中的詞和影象中的對應區域,但保留空間位置資訊。

文字—影象對齊(Text-Image Alignment)

遮罩式視覺語言模型更關注模型的語言能力,視覺和佈局資訊只提供隱式線索,為此一種細粒度的多模態對齊任務在 LayoutLM 2.0 中被提出,即文字—影象對齊。該方法在文件影象上隨機按行遮蓋一部分文字,利用模型的文字部分輸出進行詞級別二分類,預測每個詞是否被覆蓋。文字—影象對齊任務幫助模型對齊文字和影象的位置資訊。

文字—影象匹配(Text-Image Match)

現有工作證明,粗粒度的文字—影象匹配任務有助於幫助模態資訊對齊。對於預訓練階段的文件資料,隨機地替換或捨棄一部分文件影象,會構造圖文失配的負樣本。LayoutLM 2.0 的模型以文件級二分類的方式預測圖文是否匹配,以此來對齊文字和影象的內容資訊。

實驗結果

預訓練

LayoutLM 2.0 的預訓練採用了 IIT-CDIP Test Collection 資料集,資料集包含千萬級掃描文件影象,從中抽取文字和對應位置資訊的資料準備工作使用的是 Microsoft Read API。研究人員訓練了 BASE、LARGE 兩種規模的模型,引數量分別是200M、426M。

下游任務微調:表單理解

表單理解任務使用了 FUNSD 作為測試資料集,該資料集中的199個標註文件包含了31,485個詞和9,707個語義實體。任務要求模型從表單中抽取四種類型的語義實體,包括問題、答案、標題、其他。下表所示的實驗結果表明,多模態融合預訓練方式顯著提高了模型效能,F1 達到84.20%。

表1:LayoutLM 2.0 在表單理解資料集 FUNSD 上的實驗結果

下游任務微調:票據理解

研究人員使用了 CORD 和 SROIE 兩個票據理解資料集來評估模型效能。CORD 資料集包含了1,000張掃描票據資料,需要從中抽取名稱、價格、數量等30類關鍵資訊實體。LayoutLM 2.0 模型在此資料集上微調後F1值達到96.01%。

表2:LayoutLM 2.0 在票據理解資料集 CORD 上的實驗結果

SROIE 資料集由1,000張票據資料組成,資料中標註了店鋪名、店鋪地址、總價、消費時間四個語義實體,是票據理解領域中被廣泛使用的資料集。透過在該資料集上微調,LayoutLM 2.0 模型預測結果的 F1 值達到了97.81%,位列 SROIE 測評任務三榜首。

表3:LayoutLM 2.0 在票據理解資料集 SROIE 上的實驗結果

圖3:SROIE 排行榜(截至2020-12-24)

下游任務微調:複雜佈局長文件理解

Kleister-NDA 資料集提供了254篇合同文件資料,其特點是頁面佈局複雜且內容較長。實驗針對資料集標註中預定義的四類關鍵資訊實體進行抽取,結果表明 LayoutLM 2.0 模型效能相比1.0取得了進一步提升,F1 達到85.2%。

表4:LayoutLM 2.0 在複雜佈局長文件理解資料集 Kleister-NDA 上的實驗結果

下游任務微調:文件影象分類

文件影象分類任務使用了 RVL-CDIP 資料集測試模型效能。資料集由16類文件組成,每類均包含25,000頁文件影象,共計40萬頁文件影象資料。經過微調,LayoutLM 2.0 模型的預測準確率相比先前的最好結果提升了1.2個百分點,達到了95.64%。

表5:LayoutLM 2.0 在文件影象分類資料集 RVL-CDIP 上的實驗結果

下游任務微調:視覺問答

研究人員使用 DocVQA 資料集來驗證 LayoutLM 2.0 模型在視覺問答任務上的效果,該資料集共包含超過一萬頁文件上的五萬組問答對。得益於文字、影象、佈局資訊的深度融合,LayoutLM 2.0 效能相比 LayoutLM 1.0 和純文字模型有了顯著進步。經過資料增強和全量資料微調,LayoutLM 2.0 單模型效能超出了使用30個模型聯合預測的原榜首方法1.6個百分點,達到86.72%,成為新的 SOTA。

表6:LayoutLM 2.0 在視覺問答資料集 DocVQA 上的實驗結果

圖4:DocVQA 排行榜(截至2020-12-24)

消融實驗

為了探究模型各部分帶來的影響,研究人員從 LayoutLM 1.0 出發,透過依次新增改動的方式在 DocVQA 資料集上進行了消融實驗,結果如表7所示。LayoutLM 2.0 主要有四點主要升級:在輸入中融合影象資訊(#1到#2a)、新增新的多模態對齊預訓練任務(#2a到#2d)、在多模態編碼器中引入空間感知自注意力機制(#2d到#3)、使用更好的初始化模型(#3到#4)。可以觀察到,各部分改進均顯著提高了模型效能。整理來看,模型 ANLS 得分從68.41%提升到了74.21%,充分證明了LayoutLM 2.0 改進的有效性。

表7:針對影象輸入、預訓練任務、空間感知自注意力機制、初始化的消融實驗

結論

針對多模態文件理解任務提出的多模態預訓練模型 LayoutLM 2.0,不僅考慮了文字和頁面佈局資訊,還將影象資訊融合到了多模態框架內。同時,空間感知自注意力機制的引入進一步提高了模型對文件內容的理解能力。為了進一步在模態間建立深度關聯,研究人員也提出了新的多模態資訊對齊預訓練任務。實驗結果顯示,經過預訓練—微調的 LayoutLM 2.0 在對應不同型別任務的六個文件理解資料集上顯著優於基線方法,表明提出的方法能夠有效提升文件理解效果。

LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding

論文連結:

https://arxiv.org/abs/2012.14740

GitHub連結:

https://github.com/microsoft/unilm/tree/master/layoutlm

32
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • iQOO7釋出會“宋大腿”刷屏,小米高管點贊:營銷很有創意