人的視覺皮層由1.4億個神經元組成,是大腦中最神秘的部分之一,負責處理和解釋視覺資料以提供感知力並建立記憶。人們可以從少量資訊中獲取相關環境的大量資訊。例如給定一幅影象,我們可以利用上下文和先驗知識得知整個故事。
但是,使計算機感知視覺世界有多困難?截至2019年,我們才取得了一定進展,但依舊還有很長的路要走。計算機視覺是計算機科學的一個相對較新的領域,大約有60年的歷史。
人類視野的演變
5.5億年前生命主要存在於水中,但是5.43億年前地球上的物種急劇增加,牛津大學的動物學家安德魯·帕克(Andrew Parker)在他的著作《In The Blink Of An Eye》中稱其為寒武紀爆發。這是由於視覺的突然進化,引發了動物進化或死亡。也就是視覺激發進化大爆炸的方式。
大腦如何解決視覺問題?
直到1959年,我們對生物視覺的瞭解還是很少。1959年,哈佛醫學院的兩名神經生物學家David Hubel和Torsten Wiesel進行了一項驚人的實驗,揭示了人類視覺系統的幾個秘密,並獲得了2項諾貝爾獎。
https://www.youtube.com/watchv=NV1uBSSC8jE&feature=youtu.be
他們記錄了貓腦中單個神經元的電活動。他們使用幻燈機向貓展示了特定的圖案,並注意到特定的圖案刺激了大腦特定部位的活動。實驗表明,視覺皮層細胞對邊緣的方向敏感,但對邊緣的位置不敏感。他們得出結論,視覺皮層中有3種類型的細胞:簡單,複雜和超複雜。視覺處理從簡單的單元格開始,這意味著它從學習簡單的事物(即邊和角)開始。這為現代計算機視覺奠定了基礎。
從生物視覺到計算機視覺
上世紀70年代,麻省理工學院的神經科學家David Marr借鑑了Hubel和Wiesel關於大腦視覺處理系統的實驗的想法,開始制定計算機視覺來模仿人類的視覺能力。他說,為了理解視覺資訊,在視覺皮層中對其進行處理時需要分幾步進行處理。他提出了這樣的假設:存在少量形成原始視覺物件的幾何組成形狀。他把他的大部分發現都放在了《視覺》一書中。
多年來,受視覺皮層中分層處理的啟發,通用物件識別的分層方法變得越來越流行。人們開始思考人類視覺已經解決的問題,例如人臉識別,物體識別和分割。
1966年,麻省理工學院夏季視覺專案(MIT Summer Vision Project)在麻省理工學院開始了首次正式的計算機視覺工作,旨在在1966年夏季解決計算機視覺問題。
古典計算機視覺
在現代深度學習啟發計算機視覺之前,在70年代,人們開始使用模板匹配方法和滑動視窗方法來解決物件識別和檢測問題,以進行物件檢測和分類。
在給定物件模板的情況下,我們可以在數百個可能的視窗中查詢模板物件。但是在現實世界中,由於視點,比例尺和照明變化,遮擋而無法使用。同樣,我們不可能擁有所有可能的模板來為類內或類間變異建模。
因此人們開始使用基於功能的方法。特徵點是影象中特殊的點,其對於上述變化保持不變。
在另一個場景中匹配物件。-大衛·勞(David Lowe),1999年
在1999年,David Lowe 在ICCV會議上發表了SIFT -Scale不變特徵變換。SIFT的想法是-將影象內容轉換為對平移,旋轉,縮放和其他成像引數不變的區域性特徵座標。現在將其描述為經典計算機視覺的AlexNet時刻。由於使用SIFT,人們無需考慮比例尺,照明變化和遮擋物,因此為物件識別研究提供了動力。
機器學習啟發了計算機視覺
到2000年,統計機器學習已在人們眼中飛速發展。保羅·維奧拉(Paul Viola)和邁克爾·瓊斯(Michael Jones)在2001年使用機器學習開發了最好的人臉檢測演算法之一,目前它仍然是最快的人臉檢測方法之一。
Apple Face ID
2006年,Fujifilm製造了第一臺內建人臉檢測的相機。支援向量機在90年代後期的成功使計算機視覺更容易進行物件分類任務。仍然缺乏進行研究的資料集。為了建立一個標準的,面向研究的資料集,牛津大學視覺幾何小組的安德魯·齊瑟曼和馬克·埃弗林漢姆共同建立了PASCAL視覺物件類資料集為視覺和機器學習社群提供了影象和註釋的標準資料集,以及標準的評估程式。它導致了分類演算法和檢測演算法的發展,但由於現代機器學習演算法的模型容量較高,並且PASCAL資料集的大小相對較小,因此模型很容易過擬合,並且在看不見的影象上無法給出良好的結果。
深度學習的寒武紀大爆炸
研究人員一直在努力設計越來越複雜的演算法,以對多媒體資料進行索引,檢索,組織和註釋。但是好的研究需要好的資源。要大規模解決這些問題,如果存在大規模影象資料庫,將對研究人員有極大幫助。這是斯坦福視覺實驗室的李飛飛教授的ImageNet,超過15萬張圖片的資料集。李飛飛的博士之一 Pietro Perona是Jitendra Malik的學生。2011年,Jitendra致電Geoffrey Hinton並建議他使用ImageNet,在第二年的2012年NIPS大會欣頓(Hinton)與亞歷克斯·克里熱夫斯基(Alex Krizhevsky)共同釋出了AlexNet,在2018年GTC峰會上,這被NVIDIA執行長黃仁勳稱為寒武紀深度學習爆炸
幻燈片,黃仁勳(Jensen Huang),NVIDIA GTC,2018年
結果是非常驚人,甚至讓李飛飛教授也感到驚訝,並認為資料集有問題。從那時起,現代計算機視覺便一直受到深度學習的影響。
為什麼計算機視覺很難?
視覺理解遠遠超出了物件識別範圍。瞥一眼影象,我們可以毫不費力地想象超出畫素範圍的世界:例如,我們可以推斷人們的行為,目標和精神狀態。儘管這項任務對人類來說很容易,但對於當今的視覺系統而言卻是極為困難的,需要對世界的高階認知和常識推理。
該專案始於1966年的MIT夏季視覺專案,旨在於當年夏季解決計算機問題,即使經過這些巨大的努力,它也仍無法解決問題,它僅在少數特定的受限環境中有效。