資料科學家必讀！5篇情感分析研究論文

首頁>科學>讀芯術2020-12-25 13:27

資料科學家必讀！5篇情感分析研究論文

全文共3143字，預計學習時長8分鐘

情感分析用途廣泛，能夠識別感情與想法的AI模型廣泛應用於諸多產業。因此，創造出可智慧識別感情的機器日益成為熱門。自然語言處理（NLP）的研究也是如此。本文將介紹5篇關於情感分析和情感分類的重要論文。

1.運用深度學習檢測推特上的仇恨言論（Deep Learning for Hate Speech Detection inTweets）

在這篇論文中，研究小組將他們的仇恨言論檢測任務定義為對特定的推特帖子進行分類，區分其是否存在種族主義或性別歧視。

為此，研究人員基於包含16000條推文的資料集進行實驗。在該資料集中，1972條推文標記為具有種族歧視內容。3383條推文標記為具有性別歧視內容。其餘的推文歸類為既沒有種族主義情感，也沒有性別歧視情感。

研究表明，某些深度學習技術能夠比現有的N-gram方法更高效地檢測仇恨言論。

釋出/最近更新日期：2017年6月1日

作者和貢獻者：Pinkesh Badjatiya（國際資訊科技研究所-海得拉巴，以下簡稱IIIT-H）、ShashankGupta（IIIT-H）、Manish Gupta（微軟）、Vasudeva Varma（IIIT-H）

文章地址：https://arxiv.org/pdf/1706.00188v1.pdf?ref=hackernoon.com

2.depechemod++：雙語情感詞典（DepecheMood++: a Bilingual Emotion Lexicon）

建立詞典的主要途徑有兩種：直接建立（通常使用眾包註釋器），或者從現有註釋語料庫派生。

研究人員的實驗目的是：檢驗文件過濾、降低頻率或文字預處理等簡單的技術能否用於改善DepecheMood這一最新詞典。這本詞典由帶註釋的新聞文章組成，最初由Staiano和Guerini於2014年建立，用於情感分析。

在這篇論文中，研究人員解釋了他們是如何建立該詞典的。這項研究釋出的新版本DepecheMood++有英語和義大利語兩種版本。

釋出/最近更新日期：2018年10月8日

作者和貢獻者：Oscar Araque（馬德里理工大學）、Lorenzo Gatti（特溫特大學）、Marco Guerini（布魯諾·凱斯勒研究所）、JacopoStaiano（Recital AI）

文章地址：https://arxiv.org/pdf/1810.03660v1.pdf?ref=hackernoon.com

3.粗鄙之語：粗俗言論的社會動力（Expressively Vulgar: The Socio-dynamics ofVulgarity）

大多數思想的表達形式隨時間不斷演變，而粗俗的語言卻並非如此，使用粗俗的語言往往包含表達確切資訊的強烈指向。

在這項研究中，德克薩斯大學和賓夕法尼亞大學的研究人員對推特帖子中的粗俗詞彙進行了大規模的資料驅動分析。更具體地說，他們的研究分析了推特中粗俗語言的社會文化和語用方面的內容。

研究小組試圖回答以下問題：粗俗言論的表達方式和功能是否因該言論發表者的人口特徵而不同？粗俗言論是否會影響對情感的感知？對粗俗言論進行建模是否有助於情感預測？

研究人員收集了6800條推文的資料集。接下來，他們讓9位評審員用5分制對這些推文進行了情感標註。值得注意的是，資料還包括髮布推文者的人口統計資料（性別、年齡、教育程度、收入、宗教背景和政治意識形態）。

這個資料集是唯一一個既包括推文又包括其釋出者詳細資訊的開放資料集。此外，這也是第一次對低俗詞建模如何提高情感分析效能的研究之一。

釋出/最近更新日期：2018年8月

作者和貢獻者：Isabela Cachola，Eric Holgate，Junyi Jessy Li（均來自德克薩斯大學奧斯汀分校）Daniel Preotiuc Pietro（賓夕法尼亞大學）

文章地址：https://www.aclweb.org/anthology/C18-1248.pdf?ref=hackernoon.com

4.多語言推特情感分類：人類註釋者的作用（Multilingual Twitter SentimentClassification: The Role of Human Annotators）

在本文所列舉的關於情感分析的研究中，這是唯一一個強調人類註釋者重要性的研究。在這項自動推文情感分類實驗中，來自Jožef Stefan研究所的研究人員分析了一個用多語言推文標註情感的大型資料集。

具體來說，研究小組標註了160萬條包含13種不同語言的推文。利用這些註釋的推文作為訓練資料，團隊構建了多個自動情感分類模型。

他們的實驗得出了一些有趣的結論。首先，研究人員指出，在統計學上，頂級分類模型的效能沒有顯著差異。其次，當應用於有序三類情感分類問題時，分類模型的基本準確性與效能無關。最後，研究人員表示應該關注訓練集的精確度，而非所使用的訓練模型。

釋出/最近更新日期：2016年5月5日

作者和貢獻者：Igor Mozeti，Miha Grčar和Jasmina Smailovičč（均來自Jožef Stefan研究所知識技術部）

文章地址：https://arxiv.org/pdf/1602.07563v2.pdf?ref=hackernoon.com

5.MELD：一種用於情感識別的多模式多方資料集

在這篇論文中，作者就目前會話情感識別領域日益增多的研究進行了解釋。同時，他們指出，該領域缺乏大規模的會話情感資料庫。為了彌補這一點，研究人員提出了多模式情感線資料集（MELD），它是對原始情感線（EmotionLines）資料集的擴充和增強。

MELD包括了來自電視劇《老友記》的1433段對話中的13000段語音。資料集主要集中於兩個以上說話者的對話。此外，每一句話都有情感和情感標籤。而EmotionLines這一原始資料集則只包含對話的文字。因此，它只能用於文字分析。資料集的主要改進是增加了音訊和影片模式。MELD包括所說的詞、說話的語調和說話人的面部表情。

釋出/最近更新日期：2019年7月4日

作者和貢獻者：Soujanya Poria（新加坡科技設計大學）、Devamanyu Hazarika（新加坡國立大學）、NavonilMajumder（墨西哥國立理工學院）、Gautam Naik（南洋理工大學）、Erik Cambria（南洋理工大學）、Rada Mihalcea（密歇根大學）

文章地址：https://arxiv.org/pdf/1810.02508v6.pdf?ref=hackernoon.com

創造情感智慧機器是一個雄心勃勃的目標。為此，情感分析和情感識別是必要的步驟。希望這些論文有助於加強你對該領域目前所做工作的理解。

我們一起分享AI學習與發展的乾貨

最新評論

∧ mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶

∨ 中美航天技術只差了10年？院士迴應：真實差距說出來你可能不信

熱門排行

劇多

資料科學家必讀！5篇情感分析研究論文