前面專欄中,我們介紹了有關基於圖片/影片的人臉表情識別的相關內容,也瞭解了透過迴歸的方式來理解表情的方式——基於連續模型的人臉表情識別。在專欄的最後一篇文章中,我們將分享計算機視覺領域中圍繞情緒識別主題的一些會議和相關競賽。
作者&編輯 | Menpinland
隨著計算能力的提升、神經網路研究的步步深入,人工智慧在機器翻譯、行為識別、語音識別以及影象分割、分類、檢測等任務中取得了重大突破,推進了這些領域的發展。配以影象、語音識別的人工智慧已經逐漸能夠“看見”、“聽見”,然而人機互動的過程中,讓機器真正看得懂、聽得懂情感豐富的人類的情緒狀態,依然是一個很大的挑戰。
未來想讓計算機實現真正的人工智慧並服務於人,並與人類產生自然的智慧化的人機互動,計算機必須具備情緒識別和表達能力,需要具備情感。情緒識別是與人工智慧相關的領域,它可以幫助計算機智慧的識別人類情感。隨著情緒識別領域的不斷髮展,人們對情緒識別的研究也越來越多,並在人機交流等不同的應用領域中佔有重要的地位 [1]。由於人臉表情是最容易獲取且最直觀反映人的情緒狀態的模式,因此在所有情緒識別研究的分支中,基於人臉表情的情緒識別是最早也是最熱門的一個分支。
早期的研究者將表情定義為六種基本的情緒:開心、悲傷、驚訝、害怕、厭惡、生氣,並透過讓相關研究人員或專業的演員在實驗室條件下進行“擺拍”獲得不同類別表情的方式構建資料集(後續有相關研究對基本情緒類別進行了擴充)。但隨著研究的深入,人們發現透過上述的方式進行情緒識別的研究存在著一些弊病:(1)現實當中人臉會出現遮擋、頭部姿態變換以及光照變換等更復雜的情況,而且人在自然條件下的表情也不會有在實驗室條件下透過“擺拍”得到的表情那麼明顯。因此,在理想條件下訓練得到的演算法模型面對現實更苛刻的條件,識別率自然大大下降。(2)將情緒定位為若干類別並不適用於每一種應用場景,如識別駕駛員的情緒更關注的是他的疲勞程度或憤怒程度,教育應用中識別學生的情緒更關注的是他的專注情況。因此,對於不同場景下不同的情緒識別需求應該有不同的評價指標。(3)人可以透過控制自己的面部表情來隱藏自己的情緒,基於單一視覺模態很難有效對情緒進行識別。針對這三大弊病,當前情緒識別也逐步偏向於自然條件下、更多應用場景、更多模態背景下的研究。在每一年的一些涉及到多媒體、人機互動等主題的會議中,都有一些非常前沿的情緒識別競賽或者主題研討會(workshop),它們重點關注的是當前情緒識別研究尚未解決的難點或者貼近實際生活的新穎點,瞭解這些資訊可以掌握當前情緒識別研究的趨勢,同時學習新穎的研究方法。筆者為大家歸納了2018年至今的一些大型國際情緒識別競賽和主題研討,供大家參閱:
1 EmotiWEmotiW(Emotion Recognition in the Wild Challenge)是一項圍繞現實環境中不同的情感計算問題演算法競賽。該挑戰提出的初衷是為情感計算研究人員提供一個競爭性平臺。這項挑戰是ACM 多模態互動國際會議(ACM International Conference on Multimodal Interaction,ICMI)中其中一個挑戰。自2013開始,EmotiW每年都會舉辦一次,挑戰的子專案每年都會有所變化。
tips:EmotiW每年其官網對於子挑戰的描述可能會存在一定的滯後性,對於子挑戰更準確的描述應該參考每年的總結論文。
EmotiW 2018
EmotiW 2018包含三個子挑戰:
---群體情緒識別(Group-level Emotion Recognition ,GReco)
---學生專注度預測(Student Engagement Prediction ,EngReco)
---音影片情緒識別(Audio-Video Emotion Recognition,VReco)
群體情緒識別是將一個群體的感知情緒分為積極,中立或消極。社交網路使用者透過Internet上傳社交活動期間捕獲的大量影象。這些影象來自積極的社會事件,例如典禮,婚禮,派對或像會議這樣的中立事件,以及一些消極事件,例如葬禮,抗議等。此子挑戰中的影象來自the Group Affect Database 3.0 [2]。標籤用效價值進行表示。資料集分成三個子集:訓練集,驗證集和測試集。Baseline是利用Inception V3+3個全連線層(4096)當作三分類任務來做,在驗證集和測試集上的準確率分別為65%、61%。
圖1|群體情緒識別資料圖例
學生專注度預測是預測影片中學生的專注程度。資料集來源於Kaur 等人的研究 [3]。在資料集中,每位學生志願者被要求觀看線上教育影片(MOOC),然後透過膝上型電腦、手機或者網路攝像頭等裝置錄取他們觀看的過程。每個影片樣本約5分鐘時長,錄製影片的背景也各不相同,包括有計算機實驗室、操場、食堂、旅館房間等。同時為了突出非受限環境的特點,資料集分散到一天不同時間進行錄製,從而實現了包含多種光照條件的目的。資料集分成三個子集:訓練集,驗證集和測試集。標籤的話,專注度被劃分為四個等級,0代表極度不專注,3代表極度專注。但最後實現上,是把專注度預測轉化為迴歸問題,同時把0-3的專注度歸一化到[0-1]。Baseline是將每個樣本分割成不同的片段,每個片段利用LBPTOP或者是藉助OpenFace提取特徵,最後再利用LSTM完成迴歸任務,在驗證集和測試集上的均方誤差分別為0.10和0.15。
圖2|學生專注度預測資料圖例
音影片情緒識別是將一段音影片中的人的情緒進行識別。挑戰採用的資料集為Acted Facial Expressions in the Wild (AFEW) database [4]。影片資料透過關鍵字檢索電影和電視劇片段得到。情緒標籤是基本的7類表情(開心、悲傷、驚訝、害怕、厭惡、生氣、中立)。資料集同樣分成三個子集:訓練集,驗證集和測試集。Baseline是利用LBPTOP提取特徵,用SVR進行訓練分類,在驗證集和測試集上的準確率為38.81%和41.07%。
EmotiW 2019
EmotiW 2019包含三個子挑戰
---群體凝聚力預測(Group-level Cohesion prediction ,GC)
---音影片情緒識別(Audio-Video emotion recognition,AV)
---學生專注度預測(Student Engagement Prediction ,EP)。
tips:EmotiW 2019中的音影片情緒識別、學生專注度預測兩項子挑戰內容跟EmotiW 2018並無差異,因此不再做詳細的描述。
群體凝聚力預測是預測圖片中一個群體的凝聚力。資料集是在the Group Affect Database 3.0的基礎上進行擴充套件以及重新修改標籤,具體可參考文獻[5]。在此項任務中,圖片的凝聚力從0到3分為四個等級,0表示極低凝聚力,1表示低凝聚力,2表示強凝聚力,3表示很強凝聚力,問題也像學生專注度預測一樣被定義為迴歸問題。(之所以在等級劃分的時候,沒有一個介於低凝聚力以及強凝聚力的中間值,是因為這些等級是透過許多人進行標註的,即便受過相關的培訓,當標註者比較模稜兩可或者比較疏忽大意沒仔細看,就會偏向打中間值,這樣就很容易出現中間值偏多的樣本不均情況,這種標註方式是參考學生專注度的標註方式,具體可參考文獻[6])Baseline是用Inception V3+3個全連線層(4096)作為基礎模型,權重以ImageNet預訓練的權重作為初始化並進行微調,在驗證集和測試集上的均方誤差分別為:0.84和0.50。
圖3|群體凝聚力預測資料圖例
EmotiW 2020
EmotiW 2020包含四個子挑戰:
---自然狀態下專注度預測(Engagement Prediction in the Wild)
---基於音影片的群體情緒識別(Audio-video Group Emotion Recognition)
---駕駛員注視預測(Driver Gaze Prediction)
---基於生理訊號的情緒識別(Physiological signal based emotion recognition)
基於音影片的群體情緒識別。此項任務跟EmotiW 2018的群體情緒識別相似,只是樣本輸入型別變成了音影片了。Baseline就是利用在基於圖片的群體情緒識別資料集上進行預訓練的模型來提取特徵,最後在驗證集上的準確率為50.05%。
駕駛員注視預測是判斷駕駛員眼睛所注視的方向(可看做是對駕駛員專注度預測的一種方式)。資料來源為Driver Gaze in the Wild (DGW) dataset [7]。資料採集的方式比較特殊。首先人為將車內區域劃分為9個區域,然後透過指令的方式,依次讓模擬的駕駛員朝9個區域看,看的時間持續大約15-20s。同時資料採集設計了是在多種光照條件下進行採集,增加了任務的難度。資料的標籤透過語音轉文字的方法進行標註。這項任務將預測駕駛員注視方向轉化為預測駕駛員朝哪個方向看的問題,因此是分類任務。
雖然是影片採集,但是baseline採用的是基於圖片的網路模型,如Alexnet,Resnet和Inception Network(筆者猜測可能是將影片中代表性幀選出來然後匹配影片的標籤,從而構成了一個圖片的資料集)。同時為了避免人臉檢測演算法失效導致樣本不含人臉的問題,baseline採用密集光流的方法,如果連續兩幀光流的Frobenius 範數超過某個閾值則拋棄後面的那幀(類似於於相似度演算法)。最後在驗證集上達到了56%的準確率。
圖4|駕駛員注視預測資料圖例
基於生理訊號的情緒識別是利用生理訊號來對情緒進行識別。資料集來源於PAFEW [8]。該資料集包含的生理訊號包括:面板電活動(electrodermal activity,EDA), 面板溫度(skin temperature,SKT),光容積掃描術(Photoplethysmography,PPG,監測心率和氧飽和度最常見和簡單的方法之一 [9]),心搏間期(inter beat intervals),心跳(heart rate)和瞳孔資訊(pupil information)。志願透過觀看AFEW中的影片產生生理訊號,因此每個生理訊號樣本對應的情緒標籤也是基本的七種。這項挑戰裡僅採用EDA進行比賽。
Baseline先利用多種運算,將訊號轉化為特徵向量。然後分兩個階段用深度神經網路(DNN,僅包含全連線層)訓練。第一階段是以高/低喚醒值或者正/負效價值二分類得到一箇中間向量,然後再進行情緒的七分類。如果僅使用單階段DNN進行七分類,準確率為42.08%,使用雙階段DNN訓練,準確率最高可達42.57%,提高了0.49%(論文中此項資料有誤)。
2 AVECAVEC是ACM MultiMedia的子活動。挑戰賽舉辦的目的是為多模態資訊處理提供通用的基準測試集,並將基於聽覺,視覺和視聽覺情緒識別社群聚集在一起,從而能在確定的條件下對不同的健康和情感分析方法的進行相互比較。同時希望藉助這個比賽能改進健康和情緒識別系統,以便能夠處理大量的未細分、非原型和非預選資料中的完全自然行為,因為這正是現實條件下多媒體和人機互動必須面對的問題。所有比賽參與者都必須在完全相同的條件下競爭,以比較各自用於自動聽覺、視覺以及視聽覺健康和情緒感知的多媒體處理和機器學習方法。
tips:AVEC各項子挑戰各種基準實驗做得比較詳盡,因此baseline建議去每一年的總結性論文檢視;同時AVEC各項子挑戰跟前幾年的相關性較強,單獨看某一年的任務,會比較難理解。
AVEC 2018
AVEC 2018包含三個子挑戰:
---雙向情感障礙子挑戰(Bipolar Disorder Subchallenge,BDS)
---跨文化情緒子挑戰(Cross-cultural Emotion Sub-challenge,CES)
---“黃金標準”情緒子挑戰(Gold-standard Emotion Sub-challenge ,GES)。
雙向情感障礙子挑戰。在此項任務中,參與者必須根據年輕躁狂症評分量表(Young Mania Rating Scale,YMRS)將躁狂發作後入院並出院的BD患者分為躁狂症,低躁狂症和緩解三類。資料集採用的是BD corpus [10]。資料集包含的47位BD患者從入院到出院之日定期錄製的訪談視聽記錄。該問題被定為三分類問題,評價指標是這三類的未加權平均召回率(Unweighted Average Recall,UAR)。
跨文化情緒子挑戰。在此項任務中,參與者必須從影片對話資料集中,藉助一種文化的資料,跨文化(德國-->匈牙利)去連續預測另一種文化的三個情感維度(喚醒值,效價值和喜好值)的水平。資料集在SEWA [11] 的基礎上進行跨文化的拓展。評價指標是在維度上平均的一致性相關係數(total Concordance Correlation Coeffcient,CCC)。
“黃金標準”情緒子挑戰。該項挑戰要求參與者融合由多個註釋者提供按時間連續的情緒維度標註生成可靠的“黃金標準”。然後,將獲得的標籤用於訓練和評估基於RECOLA資料集的基準多模態情感識別系統 [12]。該資料集包括法國人互動時的視聽和生理記錄,標籤由法語為母語的標註者的標註。評價指標是在維度上平均的一致性相關係數(total Concordance Correlation Coeffcient,CCC)。
AVEC 2019
AVEC 2019包含三個子挑戰:
---心理狀態子挑戰(State-of-Mind Sub-challenge,SoMS)
---AI檢測抑鬱症子挑戰(Detecting Depression with AI Sub-challenge,DDS)
---跨文化情緒子挑戰(Cross-cultural Emotion Sub-challenge,CES)。
tips:跨文化情緒子挑戰跟AVEC 2018差距不大,只是加多了中國人影片對話資料,因此不再另外補充。
心理狀態子挑戰。此項任務將關注人類持續適應的心理狀態(State-of-Mind,SOM)。SOM對於人的心理功能和行為調節至關重要。人類的SOM由於內部和外部刺激而不斷變化,習慣性使用適應性或適應不良性SOM會影響心理健康。參賽者需要從視聽記錄的個人敘述中預測報敘述者的情緒。使用的是 Ulm State-of-Mind in Speech (USoMS) 資料集 [13]。採用的是評價指標是一致性相關係數(Concordance Correlation Coefficient,CCC)。(tips:在介紹了是用“audiovisual record”的字眼描述這個任務,但是在資料集公佈的論文[13]中貌似只有音訊資訊。)
AI檢測抑鬱症子挑戰。此項任務會給定被採訪者與AI虛擬採訪人員的對話,參賽者需要透過這些對話去評估被採訪者的抑鬱嚴重程度。資料集是Distress Analysis Interview (DAIC) [14] 的一個子集Wizard-of-Oz。這個子集只包含被採訪者與虛擬採訪人員的對話,因此也只有語音資料。採用的是評價指標是一致性相關係數(Concordance Correlation Coefficient,CCC)
3 MuSe2020 ACM MultiMedia裡有關情感挑戰的Workshop不再是AVEC,而是換成了MuSe(Multimodal Sentiment Analysis)。最主要的區別是,MuSe關注的內容增加了基於文字的情感分析,突出三種模態(視覺、聽覺、文字)方法的對比以及融合。過往的比賽要麼專注於視聽的方式,將情感轉化為連續的喚醒度或者效價度,但這經常忽略文字資訊的潛在貢獻;要麼專門研究用於符號資訊分析的NLP方法去完成離散情感標籤類別的預測。這兩大類情感分析的方法有很多相似的地方,尤其是都受到深度學習方法的巨大影響,因此如果綜合三種模態的資訊,對於真實場景下的情感識別可能會有明顯的提升。
2020年包含了三個子挑戰,與以往AVEC不同的是,三個子挑戰使用的資料集是相同的,也是因為這個比賽第一次公佈的MuSe-CaR資料集。該資料集是包含著有三種模態標註的資訊。比較神奇的是,雖然挑戰主題是情緒識別,但是該資料集主題卻是與汽車相關的,所探究的情緒,更多關注是車主對其愛車的”情緒“或者他自身駕駛的情緒狀態,因此比賽呈現出來的商業性質稍微濃了一點。
MuSe三個子挑戰分別為:
---Multimodal Sentiment in-the-Wild Sub-challenge(MuSe-Wild):參賽者必須從視聽資料中連續地預測情緒維度(喚醒-效價)的水平。
---Multimodal Trustworthiness Sub-challenge (MuSe-Trust):參賽者需預測視聽資料的可信程度。
除了上述比賽,比較有名的還有每年Conference on Automatic Face and Gesture Recognition(FG)下的各種Workshop以及Challenge/Competition,更多情緒識別的相關內容,請參考:https://github.com/EvelynFan/AWESOME-FER
4 參考文獻[1] 鄔晶晶. 基於深度學習的情緒識別技術[D].中國科學院大學(中國科學院深圳先進技術研究院),2020.
[2] Dhall A, Joshi J, Sikka K, et al. The more the merrier: Analysing the affect of a group of people in images[C]//2015 11th IEEE international conference and workshops on automatic face and gesture recognition (FG). IEEE, 2015, 1: 1-8.
[3] Kaur A, Mustafa A, Mehta L, et al. Prediction and localization of student engagement in the wild[C]//2018 Digital Image Computing: Techniques and Applications (DICTA). IEEE, 2018: 1-8.
[4] Dhall A, Goecke R, Lucey S, et al. Collecting large, richly annotated facial-expression databases from movies[J]. IEEE multimedia, 2012 (3): 34-41.
[5] Ghosh S, Dhall A, Sebe N, et al. Predicting group cohesiveness in images[C]//2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019: 1-8.
[6] Whitehill J, Serpell Z, Lin Y C, et al. The faces of engagement: Automatic recognition of student engagementfrom facial expressions[J]. IEEE Transactions on Affective Computing, 2014, 5(1): 86-98.
[7] Ghosh S, Dhall A, Sharma G, et al. Speak2Label: Using Domain Knowledge for Creating a Large Scale Driver Gaze Zone Estimation Dataset[J]. arXiv preprint arXiv:2004.05973, 2020.
[8] Liu Y, Gedeon T, Caldwell S, et al. Emotion Recognition Through Observer's Physiological Signals[J]. arXiv preprint arXiv:2002.08034, 2020.
[9]https://www.linkedin.com/pulse/photoplethysmography-ppg-kaveh-mohamadabadi
[10] Çiftçi E, Kaya H, Güleç H, et al. The turkish audio-visual bipolar disorder corpus[C]//2018 First Asian Conference on Affective Computing and Intelligent Interaction (ACII Asia). IEEE, 2018: 1-6.
[11] Kossaifi J, Walecki R, Panagakis Y, et al. SEWA DB: A rich database for audio-visual emotion and sentiment research in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.
[12] Ringeval F, Sonderegger A, Sauer J, et al. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions[C]//2013 10th IEEE international conference and workshops on automatic face and gesture recognition (FG). IEEE, 2013: 1-8.
[13] Rathner E M, Terhorst Y, Cummins N, et al. State of mind: Classification through self-reported affect and word use in speech[C]//INTERSPEECH. 2018: 267-271.
[14] Gratch J, Artstein R, Lucas G M, et al. The distress analysis interview corpus of human and computer interviews[C]//LREC. 2014: 3123-3128.
總結本文分享了計算機視覺領域中圍繞情緒識別主題的一些會議和相關競賽,瞭解到當前國內外在情緒識別領域研究的熱點。到這裡,人臉表情識別專欄內容就已全部更新完畢。由於筆者研究範圍有限加上時間的原因,像基於人臉活動單元的人臉表情識別以及一些更小眾的表情識別領域就沒有涵蓋到專欄之中。同時當前專欄僅含理論上的分析,還缺乏實踐性的指導,如果還有條件,就等之後再來更新了~