01 背景
NeurIPS (Conference on Neural Information Processing Systems) 是機器學習和計算神經科學相關的學術會議,也是人工智慧方向的頂級會議。INTERPRET軌跡預測挑戰賽(INTERACTION-Dataset-based PREdicTion Challenge)隸屬於NeurIPS 2020 Workshop: Competition Track Saturday。該競賽由UC Berkeley MSC Lab主辦,旨在建立一個公共資料集來評估自動駕駛領域各類軌跡預測演算法的效能。
02 賽題簡介INTERPRET競賽共包含兩條賽道:Generalizability Track和Regular Track。Generalizability賽道中,測試集軌跡與訓練集差異較大(採自不同的場景),且不帶有高精地圖;而Regular賽道中測試集軌跡分佈與訓練集相同(採自相同的場景),同時帶有高精地圖。資料集採自於美國、中國、德國等多個國家,包含併線/變道的高速與城市道路、帶停車/讓車標誌的環形路、無保護左轉路口等場景。此外,場景中的障礙物包含行人、腳踏車和機動車3種類型。
本次競賽中,參賽隊伍需要根據每個障礙物過去1秒(10幀)的運動軌跡,預測出它在未來3秒(30幀)的軌跡。障礙物的軌跡使用離散取樣點集合來表示,取樣的頻率是10赫茲,即每0.1秒取樣一個軌跡點。競賽允許參賽隊伍對於每個障礙物輸出50條預測軌跡,但只根據最優軌跡(排序第1條)的平均位移誤差(Average Displacement Error,ADE)來排名。平均位移誤差的計算方式為:
03 演算法介紹Part 1 地圖資料處理由於Generalizability Track和Regular Track資料形式不一致(前者帶有高精地圖,後者不帶高精地圖),為保證演算法的有效性,我們使用了兩種形式來更好地表達場景。如下圖1:
圖1 地圖表達形式。左:Regular Track場景;右:Generalizability Track場景
在Regular Track中,所有測試集都附帶高精地圖,我們可以透過查詢地圖的方式得到任意位置附近的車道線(如圖1-左所示,場景中道路拓撲非常完整);而對於Generalizability Track,測試集沒有給出對應的高精地圖,無法獲取完整的道路結構化資訊。對此,我們設計了一種基於地理位置的語義地圖來描述非結構化場景下的可行駛區域。基於地理位置的語義地圖依賴於場景中障礙物的歷史觀測軌跡,具體繪製流程主要分為3個步驟:
Part 2 預測模型設計軌跡預測演算法設計過程中通常需要考慮一個重要問題:即在預測時如何建模障礙物與周圍環境的複雜互動,這裡周圍環境通常包含多類交通元素,例如其他交通參與者,路網拓撲,交通訊號燈等。
在現有的預測演算法中,對障礙物互動的建模方式也不盡相同,例如較早期基於簡單位置關係的互動[1-3],基於語義地圖+CNN編碼的互動[4-6],基於(圖)注意力機制的互動[7-11]等。隨著對障礙物互動認知的加深以及新技術的迭代,軌跡預測演算法的精度也在逐步提高。
本次競賽中,我們提出一種基於混合注意力機制的預測演算法,以通用的形式解決兩個賽道的預測問題。演算法是基於目前主流的圖注意力機制,整體設計思路是透過引入混合注意力機制,促使演算法更準確地提取障礙物運動特性與車道拓撲特性,同時編碼障礙物之間、障礙物與車道間的複雜互動。
圖2 基於混合注意力機制的預測演算法
上圖2是演算法的整體結構,整個模型基於主流的Encoder-Decoder結構,包含特徵編碼網路(Feature Embedding Network)和互動&預測網路(Interaction & Prediction Network)。特徵編碼網路使用Timewise + Agentwise Attention雙注意力機制與雙通道GRU對障礙物軌跡和地圖資訊進行高質量特徵強化與時序編碼;互動預測網路則使用Agentwise + Conditional Attention雙注意力機制建模智慧體間互動行為,並輸出多模態預測軌跡及其機率。
上述兩個網路都是基於混合注意力的圖網路,其核心是Enc-MAT和Dec-MAT(Mixture Attention Transformer encoder)模組。Enc-MAT和Dec-MAT是現有BERT-like模型(Transformer encoder)的改進結構,下圖3對比了傳統Transformer encoder、Enc-MAT和Dec-MAT的區別。
圖3 Transformer改進模組。(a)常規Transformer Encoder;(b)Enc-MAT;(c)Dec-MAT
從圖3可以看到,相比於傳統Transformer encoder,Enc-MAT和Dec-MAT改進並額外新增加了一個注意力通道,混合注意力機制也由此而來。Enc-MAT編碼器使用了Timewise和Agentwise混合注意力機制;Dec-MAT編碼器則是使用了Agentwise和Conditional(同圖3-c中的Distance-base Attention)混合注意力機制。演算法使用混合注意力代替原有單注意力機制,目的在於結合實際需求來強化障礙物與環境拓撲的特徵表達。圖2下半部分展示了三種Attention結構,從計算形式上看,三種注意力方式的計算公式是一致的:
Part 3 軌跡預測流程首先對符號作一些說明:
對於道路拓撲的編碼也採用相似的方式,但與軌跡編碼有兩個區別:
解碼過程主要包含高層互動和軌跡預測兩個階段。前者採用混合注意力網路Dec-MAT,後者使用基礎的MLP實現軌跡與機率的多工預測。在介紹流程前,我們先闡述兩個相對合理的事實:
事實1:障礙物運動方向和場景中車道走向存在關聯(運動趨勢關聯)。事實2:障礙物運動更依賴與距離它更近的鄰近車道(相對位置關聯)。基於上述兩個事實,解碼器兩個階段的流程分別可以描述為:
最終在Generalizability賽道上,我們以ADE 0.5339米獲得冠軍;Regular賽道上,我們以ADE 0.1912米獲得亞軍。
04 總結障礙物軌跡預測對無人車安全行駛具有重要的意義,它也是學界與工業界公認有很大挑戰性的課題。我們希望透過努力做出更好的解決方案,持續提升自動駕駛系統對障礙物的預測能力,為美團實際業務及出行領域提供更多的技術支援。
05 參考文獻[1] Alahi A, Goel K, Ramanathan V, et al. Social lstm: Human trajectory prediction in crowded spaces[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 961-971.
[2] Gupta A, Johnson J, Fei-Fei L, et al. Social gan: Socially acceptable trajectories with generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2255-2264.
[3] Zhu Y, Qian D, Ren D, et al. StarNet: Pedestrian trajectory prediction using deep neural network in star topology[C]//Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. 2019: 8075-8080.
[4] Chai Y, Sapp B, Bansal M, et al. Multipath: Multiple probabilistic anchor trajectory hypotheses for behavior prediction[J]. arXiv preprint arXiv:1910.05449, 2019.
[5] Chang M F, Lambert J, Sangkloy P, et al. Argoverse: 3d tracking and forecasting with rich maps[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 8748-8757.
[6] Liang J, Jiang L, Niebles J C, et al. Peeking into the future: Predicting future person activities and locations in videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5725-5734.
[7] Mohamed A, Qian K, Elhoseiny M, et al. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 14424-14432.
[8] Liang M, Yang B, Hu R, et al. Learning lane graph representations for motion forecasting[C]//European Conference on Computer Vision. Springer, Cham, 2020: 541-556.
[9] Huang Y, Bi H K, Li Z, et al. STGAT: Modeling spatial-temporal interactions for human trajectory prediction[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 6272-6281.
[10] Gao J, Sun C, Zhao H, et al. VectorNet: Encoding HD maps and agent dynamics from vectorized representation[J]. arXiv preprint arXiv:2005.04259, 2020.
[11] Zhao H, Gao J, Lan T, et al. Tnt: Target-driven trajectory prediction[J]. arXiv preprint arXiv:2008.08294, 2020.
06 作者簡介炎亮、傅 壯、德恆、冬淳等,均為美團無人車配送中心演算法工程師。
---------- END ----------
招聘資訊