計算機視覺方向的頂級學術會議之一國際計算機視覺大會(ICCV)近日在南韓首爾落幕。會議期間舉辦的視訊描述競賽(VATEX Captioning Challenge)結果也同時揭曉。中科院自動化所視訊內容安全團隊和人民中科智慧技術有限公司組成的聯合團隊在中英文描述兩個賽道均獲冠軍。
“人民中科”是人民網與被稱為“人工智慧國家隊”的中科院自動化所強強聯合,共同發起設立的人工智慧科技公司。人民中科融合了人民網的內容風控能力和中科院自動化所的人工智慧技術儲備,人民中科作為人民網的“人工智慧技術引擎”,將圍繞“人工智慧+內容安全”,深耕行業需求,攻克核心關鍵技術,研發一系列內容風控產品。
據了解,ICCV會議由電氣和電子工程師協會(IEEE)主辦,每兩年召開一次,被中國計算機學會等機構評為最高級別學術會議,在業內具有極高的評價。本次比賽由國際計算機視覺大會ICCV和美國加州大學聖巴巴拉分校UCSB聯合舉辦,分為中文描述和英文描述兩個賽道,吸引了來自美國、歐洲、亞洲等世界各地20多支代表隊,包括英國帝國理工大學、澳洲阿德萊德大學、北京大學、人民大學等知名高校都派出代表隊參賽。
冠軍聯隊由中科院自動化所研究員、人民中科首席科學家胡衛明,中科院自動化所研究員、人民中科董事長李兵,以及中科院自動化所副研究員原春鋒帶隊指導,團隊成員包括研究生張子琦、史雅雅和魏久桐。
“視訊描述,簡單來講就是給出一段視訊,讓機器自動用文字進行描述,類似於‘看視訊說話’。”李兵告訴人民網記者,視訊描述涉及到計算機視覺和自然語言處理兩個領域,而且視訊中有表觀、運動、語義屬性甚至語音等多個模態。“因此如何更好地融合多模態資訊,成為本次比賽的最大挑戰。此外,在沒有大量樣本訓練的前提下,還需要採取恰當的訓練方式。”
李兵說,團隊堅實的技術積累是獲勝的重要基礎。他表示,視訊內容安全團隊是中國科學院自動化研究所模式識別國家重點實驗室中以網際網路內容理解與安全為主要研究方向的研究組。團隊深耕視訊理解與內容安全近20年,已在人工智慧權威國際學術期刊和會議上發表論文200餘篇。近年來作為第一完成單位獲得北京市科學技術一等獎、北京市發明專利一等獎、吳文俊人工智慧科學技術獎一等獎等多項獎勵。主持了國家自然科學基金重點專案、重大國際合作專案、聯合基金重點支援專案、國家傑出青年基金專案,國家863重點專項專案、北京市自然科學基金重點專案等三十餘項重大科研專案。