精確實現城市中異常事件的預測,在智慧城市中智慧交通以及城市公共安全的應用中起著重要的作用。為實現該目的,研究工作從以下兩個重要層面對時空資料進行建模: 1)學習異常事件在時間維度上的動態和高階屬性;2)不同維度資料模型(時間、空間以及語義維度)的互動的特性。在發表於IJCAI 2020的論文《Cross-Interaction Hierarchical Attention Networks for Urban Anomaly Prediction》中,黃超等提出了一種基於互動注意力機制的時空資料預測模型(CHAT),透過異構注意力模組的協同作用,可以實現對城市異常事件在不同維度上呈現出來的不同資料模式的自動學習。透過在實際時空資料上的實驗測試,證明他們所提出的新演算法相較於現在的演算法呈現出更優的預測效果。本次報告,我們非常榮幸地邀請到博士畢業於美國聖母大學、現任京東美國矽谷研究院研究科學家的黃超,為大家詳細介紹他們的這項研究工作。
黃超,博士畢業於美國聖母大學,現任京東美國矽谷研究院研究科學家。目前主要的研究方向主要為人工智慧,資料探勘,時空資料分析,推薦系統。在KDD, WWW, AAAI, IJCAI, SIGIR, CIKM, WSDM等資料探勘和人工智慧領域頂級會議發表論文30餘篇。其中計算機學會A類14篇。以第一作者發表的論文曾獲得WWW’2019最佳論文提名。與此同時,擔任了KDD, WWW, AAAI, IJCAI, SIGIR, WSDM, CIKM, ICLR等會議的評審委員會委員,以及TKDE, TOIS, TIST, TOC, TKDD, TNNLS等期刊的長期審稿人。並且被WSDM’2020會議授予優秀評審獎。
一、背景
顧名思義,時空資料是同時具有空間和時間兩個維度的資料。在收集資料時,除了資料本身的特性,還包括資料是何時發生的以及資料從何而來。因此,時空資料在特徵上不僅涵蓋了空間位置的經度、緯度,還包含時間戳資訊。
圖1 時空資料
為什麼要研究時空資料?原因在於其應用的廣泛性:(1)智慧交通,比如查詢智慧駕駛方向、客艙推薦、行程時間估算等;(2)大資料驅動的城市規劃,比如區域功能發現、基於軌跡的車道計劃、救護站的選擇等;(3)城市異常與安全,比如交通堵塞檢測、人群流量預測、犯罪行為預測等。
圖2 時空資料的應用
時空資料的預測,根據歷史時空資料的分佈和觀測到的資料值對未來進行預測,比如依據過去一個月城市各區域交通擁塞、交通事故等的資料,達到預測未來一定時間內是否有類似資料發生的目的。如果可以提前預測區域交通事故的發生,那麼就有利於機構或政府提前進行排程和預防。
圖3 時空資料的預測
CHAT模型的目的是預測城市異常事件,這裡的“異常”主要指交通擁塞、違章停車、突發噪音、建築毀壞等。原始城市異常資料集合了異常類別、時間戳、經緯度三方面的資訊,預測時需要按照區域進行對映,把資料對映到城市相應區域。區域的劃分的方式取決於具體的應用,可以根據標準的格子,也可以根據道路、網路等。將整個城市劃分為不同區域後,要做的就是預測下一個時間區間,某一異常型別是否會發生,例如預測區域A明天是否會發生交通擁塞或交通事故。
圖4 城市異常預測
根據問題的描述,可將城市異常事件預測總結為圖5所示的公式。將資料看作是三維的張量,I代表區域數,J代表時間片段數,K代表異常類別數。基於觀測到的張量,預測在時間J+ d,每個區域i上每種犯罪類別k未來發生的情況。
圖5 問題公式
二、CHAT模型
CHAT模型主要基於注意力機制對時空資料進行建模,整體框架大致可分為兩個模組:(1)動態時間依賴建模;(2)分層注意力網路。時間維度上,將觀測到的所有資料形式轉換為每一天的序列形式,透過長短期記憶網路(Long Short-Term Memory,LSTM)進行時間動態編碼。為了加強對過去以及未來資訊的雙向融合,模型採用的是雙向長短期記憶網路( Bidirectional Long Short-Term Memory ,BiLSTM)。簡單來說,就是將時間序列作為輸入,得到時間維度的嵌入。針對時間維度上的嵌入,為了使RNN模組可以更精確地考慮到不同時間區間整體區域上的長期依賴,避免梯度爆炸問題,加入注意力機制。對基於LSTM編碼出的每個嵌入,在時間維度上學習一個顯式的權重值。最後,透過權重組合合成時間維度上整體的嵌入。
對於每個區域,同樣也會有一個嵌入。並且由於資訊是多維度的,每個城市的異常資料有多種型別,每種型別都有一個嵌入。因此對於三維的張量,就有對應的三個嵌入。CHAT模型的注意力機制之所以稱為互動注意力機制,原因就在於模型考慮了兩兩維度之間的互動關係。在城市異常預測的時空場景中,不管是空間、時間,還是異常類別各種維度之間兩兩是相關聯的,並具有一定的互動性。在分層注意力網路模組,把整體的嵌入進行互動,每一種互動也是利用注意力學習一個顯式的權重值,最後把每種互動的型別做整體的計算,基於得到的整體嵌入進行預測。
圖6 CHAT模型框架
三、實驗結果
對從紐約市(NYC)收集的現實世界中的城市異常資料集進行了實驗。將紐約市分為不同的區域,劃分方法有兩種:(1)高階地理區域比例,根據行政區資訊,將紐約市劃分為77個地理區域,每個單獨的地理區域都稱為高階區域;(2)細粒度的地理區域規模,使用路段(即從1級到5級的路段)將紐約市劃分為862個地理區域,每個單獨的分割槽地理區域都稱為細粒度區域。實驗共兩組評估指標:(1)採用Marco-F1和Micro-F1衡量不同異常類別預測的準確性;(2)使用F1分數評估預測特定類別異常的效能。較高的Macro-F1、Micro-F1和F1分數都表示較好的預測效能。
圖7 實驗設定
圖8顯示了基於熱度圖紐約市8月和10月不同類別異常的地理分佈,包括噪音、交通擁塞、違規停車、建築使用四種情況。從圖中可以發現,同一異常型別在不同時間段的資料分佈是存在差別的,同一時間段不同異常型別在不同區域也是不同的。因此,在整個時空預測的場景中,資料的動態性不僅體現在時間和空間維度,也體現在異常型別維度。
圖8 資料視覺化
圖9列出了所有比較方法的評估結果,針對細粒度和高級別區域規模分別設定了不同的訓練和測試時間。結果表明,在不同的時間段,兩種不同的區域劃分方式下,CHAT的表現均優於其他基準。
圖9 預測結果
如圖10所示,進一步進行了實驗,以評估CHAT預測細粒度區域規模不同異常類別的效能。總的來說,在大多數情況下,CHAT預測系統的效能均優於最新方法。
圖10 特定異常類別的預測結果
為研究CHAT框架中某些子模組的有效性,還進行了消融實驗。共考慮了所提出CHAT模型的三個變體,它們對應於不同的分析方面:(1)時間注意力機制的有效性CHAT-IA,沒有temporal-wise gating機制的模型變體;(2)互動注意力機制的有效性CHAT-TA,CHAT的另一種形式,沒有互動注意力機制來捕獲交叉互動模式;(3)雙向遞迴架構的有效性CHAT-UA,CHAT的簡化版本透過單向LSTM網路和雙階段注意力機制對異常序列進行建模。圖11給出了所有變體的比較結果,分別預測了不同類別的異常。結果表明,相比三個變體,框架CHAT-F的完整版本實現了最佳效能,所有的子模組對預測結果都是有利的。
圖11 消融實驗
在圖12中介紹了CHAT中引數研究的評估結果,據此可以總結出以下觀察結果:(1)一旦嵌入大小達到48,模型的效能就會趨於飽和。(2)增加序列長度會稍微改善整體效能。(3)前饋網路預測層中隱藏層數對效能的影響很小。
圖12 引數研究
論文連結:
https://www.ijcai.org/Proceedings/2020/601