編者按:動作識別的研究主要基於對視訊資料的識別,其中主要包含動作識別(如手勢識別,運動識別等),目標識別和姿態預測幾個子方向。所有這些方向的研究都離不開有代表性的視訊資料。不同於影象識別領域有MNIST和ImageNet等十分成熟常用的資料集,動作識別領域的資料集比較有限,而且通常所佔用的硬碟空間比較大,因此在開展相關研究之前,仔細選擇一個合適的資料集顯得十分必要。
動作識別(Action Recognition)是最近計算機視覺領域比較火的一個Topic,近年來有越來越多的相關文章出現在CVPR、ICCV和NIPS等機器學習和計算機視覺頂會上。這裡就有一個Github的repo(https://github.com/jinwchoi/awesome-action-recognition)總結和整理了動作識別領域的相關研究工作和資料資源。
動作識別的研究主要基於對視訊資料的識別,其中主要包含動作識別(如手勢識別,運動識別等),目標識別和姿態預測幾個子方向。所有這些方向的研究都離不開有代表性的視訊資料。不同於影象識別領域有MNIST和ImageNet等十分成熟常用的資料集,動作識別領域的資料集比較有限,而且通常所佔用的硬碟空間比較大,因此在開展相關研究之前,仔細選擇一個合適的資料集顯得十分必要。
獲取對自己研究合適的視訊資料集可能需要花大量的頻寬資源和硬碟資源下載,本文就動作識別領域目前有的公開資料集進行了深入研究,詳細了介紹了一下各個資料集的特點,讀者可以在本文的幫助下,根據自身的需要選擇合適的資料集下載。
1、經典資料集
KTH(http://www.nada.kth.se/cvap/actions/):經典的動作識別資料集,也是目前文章中使用率較高的資料集之一。資料集一共包含2391組資料,其中包含6個動作,每個動作由25個人物在4個不同的場景下完成,因此一共有600個視訊序列,每個視訊又可以分割成4個子序列。KTH資料集的動作比較規範,同時採用固定鏡頭,數量對於目前的模型訓練來說也比較豐富,所以對應單純進行動作識別的任務可以說是非常好用的資料集了。同時,KTH在GitHub的處理的開源程式有很多,可以隨時根據自己的需要進行參考。
Weizmann(http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html):另一組比較經典的資料集,資料同樣是固定鏡頭下的10個典型動作的視訊,同時資料集提供了一些帶有其他物體的動作作為干擾,可以測試模型的魯棒性。
官方同時提供了去除背景的程式,但是資料集的資料量比較少的90組常規資料和21組魯棒測試資料,對於目前的模型訓練來說顯得有些不足,不過對於本來就需要用小資料的模型比如遷移學習或者One-short Learning來說或許是適合的資料集。
Inria XMAS(http://4drepository.inrialpes.fr/public/viewgroup/6):這組資料主要提供了同一個動作在多組鏡頭角度下的視訊資料,可以說是簡單的動態背景。資料集提供了11名演員每人3次的13個日常動作,演員們自由選擇位置和方向。這個資料集的下載比較特殊,需要通過wget來下載。UCF sports action dataset( https://www.crcv.ucf.edu/data/UCF_Sports_Action.php):一個主要關於運動的資料集,這個資料集也是品質比較高的資料集,主要為13個常規的運動動作。但是美中不足的同樣是每種資料的數量都比較少,不過這個資料集出了一些後續的資料集比如UCF-50(http://crcv.ucf.edu/data/UCF50.php)和UCF-101(http://crcv.ucf.edu/data/UCF101.php)等。
Hollywood human action dataset.(https://www.di.ens.fr/~laptev/actions/):根據好萊塢電影鏡頭剪輯出來的資料集,這個資料集包含475個視訊,資料量上有一定的保證,但是這個資料集有個特點就是電影鏡頭往往不是單一的動作,而且很多動作同時混合在一起,同時背景由於鏡頭切換會有非連續的情況出現,或許這樣的情況會對模型的訓練造成影響。另外這組資料還在後續提供了更大資料量的資料集:https://www.di.ens.fr/~laptev/actions/hollywood2/。
總結:以上就是對經典資料集的介紹,經典資料集的資料量普遍比較少,而且場景也相對簡單,而且提出的時間通常在2000前後,視訊的解析度也普遍偏低,更詳細的介紹可以參考2014年的一篇綜述文章:A survey on vision-based human action recognition。
2、中等規模的資料集
HMDB(http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads):這個資料集一共有51個類別,平均每個類別有100-200組資料。從資料量和類別上來看可以看到是具有比較豐富的資料的,但是這個資料集也是由一些電影鏡頭和日常的攝像機拍攝的視訊為主,所以背景相對複雜,同樣有動態鏡頭和切換鏡頭的視訊。因此這個資料集更適合目標識別和目標檢測。
SVW(http://cvlab.cse.msu.edu/project-svw.html ):這個資料集的特點是適合多種形式的任務,可以作為目標檢測也可以作為動作識別。目前這個資料官方提供了matlab程式來分割視訊(不過親身實踐後發現程式有一些bug需要除錯),資料集一共包含30個種類的資料,經過分割後會有更多的類別可供動作識別來用。這個資料的背景也有一些是移動狀態下的,但是總體來說對於識別是中等規模資料集中比較合適的。總結:中等規模的資料集普遍具有相對與經典資料集更多的資料量,而且在類別上也更多,這也體現了隨著計算規模的發展,可以建立的預測模型越來越複雜,可以處理更復雜的任務。
3、適用於深度學習的大規模資料集
ActivityNet(https://github.com/activitynet):Google在2016年出品的資料集,資料的來源主要是Youtube,帶有很強的深度學習背景,資料量很大,需要通過官方提供的程式自行下載,官網提供的資料僅為資料的Youtube地址。由於資料主要來源於Youtube,所以這個資料集相對更復雜,更適合目標檢測。但是通過動作檢測提取後的資料更適合動作識別資料集。 NTU RGB+D(http://rose1.ntu.edu.sg/datasets/actionrecognition.asp):該資料集提供了豐富的資料量,並且視訊的背景相對固定,很適合進行動作識別,同時資料的特點是同時提供了RGB,深度和骨骼視訊。資料集的全部資料高達1.3TB,並且後續有更豐富的資料集提供("NTU RGB+D 120"),但是這個資料的下載需要通過網站申請賬號,但是一天之內會有回覆(仔細填寫一般都可以通過)。
總結:大規模資料集的特點主要是資料量比較大,類別也更多,並且網站上普遍不能提供直接的下載,而是通過提供類似爬蟲程式的方式下載。這類資料主要以近3-5年出現的資料集為主資料的大小普遍在GB甚至TB級,需要用深度模型和更強算力的機器來建立模型處理。
4、特定場景的資料集
以上都是一些比較有名的開源資料集,常常用來做演算法的benchmark。那麼針對一些實際的應用場景,我們往往還需要一些特殊的資料集。這樣的小眾資料集有很多,我們不一一來收集做介紹,這裡只是舉例介紹其中的一個。
Distracted Driver Detection是一個司機狀態檢測資料集,包含10個狀態,共22425張圖 。大小4G。(資料文末回覆關鍵詞可見)
資料集地址:
https//www.kaggle.com/c/state-farm-distracted-driver-detection/data
每年很多的交通事故的發生都是因為司機沒有專注於自動駕駛,因此一個好的輔助駕駛系統不僅要關注車外的情況,也要時刻關注車內駕駛員的情況。
這一個資料集來自kaggle平臺,包含了10種狀態,如下:
c0:safe driving
c1:texting-right
c2:talking on the phone-right
c3:texting-left
c4:talking on the phone-left
c5:operating the ratio
c6:drinking
c7:reaching behind
c8:hair and makeup
c9:talking on passenger
一些樣本如下,每一類約2000多張影象,共22425張圖。
最後總結:
這篇文章主要對動作識別領域的一部分資料集做了一些基本的介紹和探討,很多資料也沒有實際的處理和應用,所以並不夠深入,但是也希望這篇文章能起到一個拋磚引玉的作用,更詳細的介紹可以直接去資料集的官網閱讀說明並下載研究。如何組織好自己的資料為演算法提供支撐是做研究的關鍵一步,最後小編希望大家可以通過這些資料做出更精彩的成果。