近日,亞馬遜在GitHub上釋出了超470萬單詞21萬句子的語料庫,並聲稱這個資料集支援“高品質”和“可重複”的對話系統研究,將成為研究界公開可用的最大的基於知識的社交對話資料集。
GitHub:
https://github.com/alexa/alexa-prize-topical-chat-dataset/
Amazon Alexa
早在今年4月,亞馬遜就宣佈向參加Alexa Prize Socialbot Grand Challenge競賽的團隊釋出其對話資料集。
此次亞馬遜釋出的資料集中,每個語料庫的對話和對話輪次與提供給眾包工作者的知識相關聯,並且所述知識是從與一組實體相關的一系列“非結構化”和“鬆散結構化”的文字資源中收集的。
亞馬遜高階首席科學家Dilek Hakkani-Tur在部落格文章中明確表示,沒有任何語料是從與Alexa客戶的互動中收集的。
該資料庫是實現基於知識的神經反應生成系統的後續研究,解決其他公開資料集無法解決的自然對話中的難題。
這將使研究者可以專注於研究對話中主題和知識選擇方面的轉換,以及如何在對話中融入事實和觀點
為了編譯語料庫,Hakkani-Tur和同事從與Alexa Prize聊天機器人的對話中經常出現的8個不同主題類別中,確定了300個命名實體。
根據這些實體在資訊源中的共存情況,將它們分組為三個組,對於叢集中的每個實體,收集多個附加資訊源,並根據每個群集進行劃分。
然後,這些資料被傳遞給亞馬遜Mechanical Turk的眾包工人,他們有時會收到相同的資訊,有時只獲得其中一部分資訊。
Alexa AI團隊有時會對資料進行分割,以便匹配的工作人員獲得補充知識。
為了構建主題聊天資料集,通過Mechanical Turk招募的工作人員參與即時訊息對話(右),他們使用從非結構化或鬆散結構化資源(左)的集合中提取的資訊來支援他們的觀點。
按照研究人員的指示,這些工作人員就收到的知識進行即時通訊對話。
對於收到的每條資訊,他們都被要求指出資訊的來源,並衡量收到資訊的情緒(例如,快樂、悲傷、好奇、恐懼等等),他們還被要求評估聊天夥伴的品質(例如,以及他們是否適合交談)。
接下來,通過手動和自動審查相結合的方式減少了對話。
“希望這將使研究人員能夠關注人類在話題、知識選擇和知識豐富之間的轉換,以及將事實和觀點融入對話中的方式,並支援出版高品質、可重複的研究成果,”Hakkani-Tur說。