回覆列表
  • 1 # 人民郵電出版社

    影象分類、目標檢測、影象分割之類的專案已經有很多了,在這裡推薦一個比較特別的競賽專案:

    場景文字視覺問答

    (即在場景影象中,藉助文字資訊來回答問題,這是“ICDAR 2019 Robust Reading competitions”中一個重要的挑戰方向)

    Q表示提出的問題,A表示回答

    在上面的幾幅圖中,提出一個問題,比如,香蕉多少錢,火車行駛方向,人類可以輕易地獲得資訊並得到答案,但是這樣的任務對於計算機可不太友好。

    在以往的視覺問答(Visual Question Answer,VQA)問題中,一般不考慮資料集影象中文字傳達的豐富語義資訊。但實際上,人類生活環境中的文字內容傳達了重要的高階語義資訊,這些資訊是明確的,並且場景中其他形式的內容都提供不了這些資訊。

    事實上,利用影象中的文字資訊,可以解決非常多的日常問題,比如購物時一目瞭然的商品價格,道路、列車的指引標識,在城市中定位,檢查商店是否營業……帶有文字資訊的影象佔比非常大,比如,在MS Common Objects in Contex這個大規模的資料集中,大約50%的影象中存在文字資訊,在城市中,這一比例更高。因此,確保文字得到正確解釋對整體的場景解釋非常重要。

    但目前的自動場景解釋模型,如視覺問答(Visual Question Answer,VQA)模型,由於忽視了場景文字內容,存在嚴重的侷限性。

    為了讓場景得到更好的解釋,研究人員開始關注影象中的文字資訊。在“ICDAR 2019 Robust Reading competitions”這個競賽中,場景文字視覺問答就是一個重要的挑戰方向。

    研究場景文字視覺問答是為了回答下面這樣的問題:

    貨架上最便宜的米漿是什麼?

    圖中的藍色巴士要去哪裡?

    在這項競賽中,研究人員建立了一個包含文字的影象資料集ST-VQA(Scene Text Visual Question Answering),用來證明將影象中存在的高階語義資訊作為VQA過程中的文字線索的重要性。

    ST-VQA資料集整合了六大資料集的影象,包括場景文字理解資料集和通用計算機視覺資料集兩種型別。在收集資料時,使用端到端的單發文本檢索架構(single shot text retrieval architecture)選擇影象,從而定義問題和回答。自動選擇的影象至少包含2個文字例項,確保提出的問題至少包含2個可能的答案選項。最後建立的ST-VQA資料集包含23038幅影象,31791個問題。

    從下面這張圖中可以看到,在ST-VQA資料集中,提出了諸如“是什麼(what are)”、“什麼品牌(what brand)”、“哪一年(what year)”等各種各樣的問題。

    另外,這些問題是以一種需要具備某些先驗知識的方式制定的,例如,在一些關於什麼品牌、什麼網站、什麼名稱、巴士號碼是什麼的問題中,首先需要了解品牌、網站、名稱、號碼的定義。

    ST-VQA資料集提出者們還應用了很多當前流行的方法和模型來測試它們在這個資料集中的表現效果,比如:

    Scene Image OCR:使用一個端到端的網路構建文字識別模型,處理影象。Show, Ask, Attend and Answer(SAAA):包含一個CNN-LSTM網路架構,使用了ResNet-152網路和一個多層的LSTM網路。Stacked Attention Networks(SAN):使用了一個預訓練好的VGGNet,獲取尺寸為14 × 14 × 512的影象特徵。並透過使用RMSProp(Root Mean Square Prop)演算法,修改起始學習率以及衰變值來最佳化該演算法。

    ……

    這些模型已經能夠回答一部分場景文字視覺問答中的問題:

    這是幾種不同方法在ST-VQA資料集上回答問題的結果。在每幅影象中,Q代表問題,A(藍色)代表真實的答案,下面是幾種不同方法提供的答案(綠色代表回答正確,紅色代表回答錯誤)。

    具體的方法細節可以參考Scene Text Visual Question Answering 這篇文章。這個專案的資料集也已經在ICDAR 2019的官網上公開,感興趣的話可以去下載資料集並動手實驗一下,當你的方法能夠正確回答出問題甚至取得更好的效果時,相信你會很有成就感的

    更多好玩的科技資訊可關注

  • 2 # 老師明明可以靠顏值

    計算機視覺,致力於讓計算機擁有人類視覺功能。

    具體的話,就是給計算機輸入一張圖片,讓計算機判斷出圖片上的內容。

    人臉定位

    比如人臉定位:判斷出圖片上人臉的位置。

    人臉識別

    比如人臉識別:判斷出圖片上的人是誰。

    人臉五官的精確位置

    比如人臉關鍵點檢測:計算機會輸入人的五官的輪廓。

    看圖說話

    比如看圖說話:計算機需要輸出一段文字來描述輸入的圖片。

    總之,人的視覺有什麼功能,計算機視覺就 致力於 有什麼功能。

    計算機視覺有時候又叫機器視覺。兩者基本是一個意思。

    計算機視覺說到底只是計算機在模擬實現人類的能力。

    當前計算機視覺最前沿的演算法與人類的視覺綜合能力差距都是天壤之別。

    但是單一能力比人類強很多。

    比如在人臉識別方面,人機大戰的結果每次都是計算機贏。

    當時是銀行櫃員和雲從科技的人臉系別系統進行競賽。人類準確率75%,計算機系統95%。

  • 中秋節和大豐收的關聯?
  • 有好看的裙子推薦嗎?