在過去的幾年裡,自然語言生成(用於文字摘要等任務)的研究取得了巨大的進展。
然而,儘管達到了高水平的流暢性,神經系統仍然容易產生「幻覺」(即產生的文字儘管可以被理解,但是含義並不忠實於源文字),這使得這些系統不能用於許多需要高準確性的應用。
我們可以舉例說明這個問題:
這是一個來自Wikibio資料集的例子,其中,負責總結比利時足球運動員Constant Vanden Stock的維基資訊框條目的神經基線模型,在經過分析之後,錯誤地得出了他是一個美國花樣滑冰運動員的結論,如下圖:
雖然評估生成的文字與源內容的真實性相比,可能會具有一定的不一致。
但當源內容是結構化的(例如,以表格格式)時,在含義上保持一致往往會更容易。
此外,結構化資料還可以測試模型的推理和數值推理能力。
這麼聽上去,結構化資料是蠻好的,對不對?
然而,現有的大規模結構化資料集往往有噪聲(即引用的句子不能從表格資料中完全推斷出來),這使得研究人員在模型開發中對「幻覺」的測量並不可靠。
針對這一問題,Google的研究人員提出了他們的解決方案:
在《ToTTo:一個受控的表到文字生成資料集》(ToTTo: A Controlled Table-to-Text Generation Dataset)中,研究人員提出了一個開放域的表到文字生成資料集。
該資料集是由一種新的註釋過程(透過句子修改)以及一個可用於評估模型「幻覺」的受控文字生成任務生成的。
在接下來的介紹中,我們將「表到文字」稱為ToTTo。
ToTTo包含121,000個訓練示例,以及7,500個用於開發和測試的示例。
由於標註的準確性,該資料集適合作為研究高精度文字生成的具有挑戰性的benchmark。
此外,資料集和程式碼已經在Google的GitHub repo上開源:
Git地址:https://github.com/google-research-datasets/totto
論文地址:https://arxiv.org/pdf/2004.14373.pdf
在該任務中,源材料是帶有一組選定單元格的給定維基百科表,而生成的則是一個總結表上下文中單元格內容的單句描述。
下圖中的示例,展示了該任務中包含的一些挑戰,例如數值推理、大量的開放域詞彙表和多種表結構等等:
在ToTTo資料集中,輸入是源表和高亮顯示的單元格集(上圖左側),而目標是生成一個句子描述,例如“Target Sentence”(上圖右側)。
在這裡需要注意的是,生成目標句子需要數值推理能力和對NFL領域的理解。
註釋器可實現分階段修訂,目標句簡潔自然有趣接下來,研究人員要設計一個註釋過程,這個註釋過程可以使得從表格資料中獲得語法自然又幹淨簡潔的目標句子,而這,無疑是一個重大的挑戰。
為什麼呢?
一個方面來說,許多像Wikibio和RotoWire這樣的資料集,會將自然產生的文字啟發式地與表配對,然而,這是一個「嘈雜」的過程,因為在這個過程中,我們很難弄清楚「幻覺」主要是由資料噪聲還是模型缺陷引起的。
從另一方面來說,研究者確實可以讓註釋器從頭開始編寫忠於表的目標句子,但是不好的一點是,最終的目標句子在結構和風格方面往往缺乏多樣性。
相比之下,ToTTo是使用一種新的資料註釋策略構建的——
在這個方法下,註釋器可以分階段修改現有的維基百科句子。
如此以來,目標句可以具有簡潔乾淨、自然的特點,並且還能包含有趣和多樣的語言特性。
具體過程是這樣的:
資料收集和註釋過程會從Wikipedia收集表開始,其中「給定表」會與根據啟發式從支援頁面上下文收集的「摘要句」配對。
這個摘要句可能包含沒有表格支援的資訊,也可能包含只有表格中有先行詞的代詞,而不是句子本身。
此外,註釋器還將句子去語境化,使其獨立成文(例如,在必要的時候使用正確的代詞),具有正確的語法。
實驗結果表明,註釋器對上述任務的一致性很高:
單元格高亮顯示的Fleiss Kappa為0.856,最終目標句子的BLEU為67.0。
結果分析涉及話題極其廣泛,「體育和國家」佔比最大Google的研究人員對ToTTo資料集進行了超過44個類別的主題分析,例如體育和國家主題。
每個主題都包含一系列細粒度的主題,例如體育的足球/奧林匹克和國家的人口/建築,這些共佔資料集的56.4%。
另外44%的話題範圍更廣,包括表演藝術、交通和娛樂。
此外,研究人員對隨機選取的100多個例項資料集中的不同型別的語言現象進行了人工分析。
下表總結了需要參考頁面和章節標題的部分例子,以及資料集中可能對當前系統構成新挑戰的一些語言現象:
全新角度測試諸多先進模型,BERT-to-BERT最能還原原文含義研究人員從文獻中提供了三個最先進模型(BERT-to-BERT、指標生成器和Puduppully 2019模型),使用了兩個評估指標,即BLEU和PARENT。
除了報告整個測試集的分數外,研究人員還在一個由域外示例組成的更具挑戰性的子集上評估了每個模型。
實驗結果如下表所示:
我們可以發現,BERT-to-BERT模型在「親近原文字」方面表現最好。
此外,所有模型在挑戰集上的效能都相當低,這表明了域外泛化任務還是具有很強的挑戰性。
雖然自動指標可以提供一些效能資訊,但目前還不足以評估文字生成系統中的「幻覺」現象。
為了更好地理解「幻覺」,研究人員假設差異表明「幻覺」,並手動評估了最高表現基線,以確定目的句子對源表內容的忠實程度。
結果顯示,最高表現基線下,出現「幻覺」資訊的機率為20%。
當前最新模型仍有諸多不足,文字生成「路漫漫其修遠兮」在下表中,研究人員選擇了觀察到的模型錯誤,以突出顯示ToTTo資料集的面臨的一些更有挑戰性的問題:
研究人員發現,即使使用「乾淨」的引用參考內容,最先進的模型也會與「幻覺」、「數值推理」和「罕見的主題」等問題「糾纏不清」(在上圖中,錯誤用紅色表明)。、
而最後一個例子表明,即使模型輸出是正確的,它有時也沒有原始引用提供的資訊豐富——
原始引用包含了更多關於表的推理(在上圖中,用藍色顯示)。
最後,除了提出的任務,研究人員還表示,希望ToTTo也可以幫助其他任務,如表格的理解和句子的修改。
參考連結:
https://ai.googleblog.com/