首頁>科技>

自人工智慧誕生之初,科學家就一直夢想著創造出能“看到”世界的計算機。視覺在我們每天做的事情中扮演著關鍵的角色,破解計算機視覺的密碼似乎是發展人工通用智慧的主要步驟之一。

但就像人工智慧的許多其他目標一樣,事實證明,計算機視覺說起來容易做起來難。1966年,麻省理工學院的科學家啟動了“夏季視覺專案”,這是一個為期兩個月的專案,旨在建立一個能夠識別影象中物體和背景區域的計算機系統。但實現這些目標所花的時間遠不止一個暑假。事實上,直到2010年代早期,影象分類器和目標探測器才足夠靈活和可靠,可以在主流應用中使用。在過去的幾十年裡,機器學習和神經科學的進步幫助計算機視覺取得了巨大的進步。但是,要建立一個像我們一樣觀察世界的人工智慧系統,我們還有很長的路要走。

哈佛大學醫學院教授加Gabriel Kreiman所著的《生物與計算機視覺》一書對人類和動物如何處理視覺資料以及我們在計算機複製這些功能方面取得的進展進行了詳盡的描述。它有助於理解生物視覺和計算機視覺之間的區別,並詳細描述了數十億年的進化是如何讓我們擁有一個複雜的視覺處理系統,以及對它的研究如何幫助激發出更好的計算機視覺演算法。

1、硬體差異

生物視覺是數百萬年進化的產物,我們可以從生物學中學習如何解決視覺問題,並將這些解決方案作為靈感來構建更好的演算法。

的確,對視覺皮層的研究是計算機視覺和人工智慧的一大靈感來源。但在將視覺進行數字化之前,科學家必須克服生物視覺和計算機視覺之間巨大的硬體差距。生物視覺在皮層細胞和有機神經元的相互連線的網路上執行。而計算機視覺是在電晶體組成的電子晶片上執行的。

神經科學和醫學技術的進步使得以毫秒為粒度研究單個神經元的活動成為可能。這些研究的結果幫助開發了不同型別的人工神經網路,這種人工智慧演算法可以大概模擬哺乳動物大腦皮層區域的工作方式。近年來,神經網路已被證明是視覺資料模式識別中最有效的演算法,並已成為許多計算機視覺應用的關鍵組成部分。

2、體系結構的差異

近幾十年來,深度學習領域出現了一系列創新工作,幫助計算機模擬生物視覺的某些功能。卷積層的靈感來自於對動物視覺皮層的研究,卷積層在尋找視覺資料中的模式方面非常有效。池化層有助於泛化卷積層的輸出,使其對視覺模式的位移不那麼敏感。疊在一起,卷積和池化層塊可以從尋找小圖案(角、邊等)一直到複雜物體(臉、椅子、汽車等)。

在生物學中,大腦中的資訊會向多個方向移動:光訊號從視網膜到顳下葉皮質,再到視覺皮層的V1、V2和其他層。但每一層也會向其前序階段提供反饋。在每一層中,神經元相互作用並傳遞資訊。所有這些互動和相互聯絡幫助大腦填補視覺輸入的空白,並在資訊不完整時做出推論。

相比之下,在人工神經網路中,資料通常朝著單一方向移動。卷積神經網路是“前饋網路”,意思是資訊只從輸入層傳遞到更高的層和輸出層。有一種反饋機制叫做“反向傳播”,可以幫助糾正錯誤並調整神經網路的引數。但是反向傳播在計算上很昂貴,而且只用於神經網路的訓練。目前還不清楚反向傳播是否直接對應於皮層的反饋機制。另一方面,將高層的輸出與前一層的輸入相結合的迴圈神經網路在計算機視覺中的應用還很有限。

3、目標的差異

透過演進,已經發展出一種能夠完成許多工的神經結構。研究表明,我們的視覺系統可以動態地調整它對我們想要完成的目標的敏感度。然而,建立具有這種靈活性的計算機視覺系統仍然是一個重大挑戰。

目前的計算機視覺系統是為完成一項任務而設計的。我們有神經網路可以分類物體,定位物體,將影象分割成不同的物體,描述影象,生成影象,等等。

但核心問題是理解“視覺慣例”——我們怎樣才能以任務相關的方式靈活地傳遞視覺資訊呢?從本質上說,你可以在一張影象上回答無數個問題,不只是標記物件,還可以計算物件,可以描述它們的顏色,它們的相互作用、大小等等。我們可以建立不同網路來做這些事情,但我們沒有網路可以同時做所有這些事情。雖然透過問答系統可以找到一些有趣的方法,但與人類的表現相比這些演算法但仍然相當原始。

4、整合的差異

在人類和動物中,視覺與嗅覺、觸覺和聽覺密切相關。視覺、聽覺、軀體感覺和嗅覺皮質相互作用,從對方那裡獲取線索,以調整他們對世界的推斷。而在AI系統中,這些內容都是獨立存在的。

我們需要這種整合來製造更好的計算機視覺系統嗎?作者說:“作為科學家,我們經常喜歡把問題分開來解決,我個人認為這是一個合理的開始方式。沒有嗅覺和聽覺,我們也能看得很清楚。例如卓別林的默片電影。如果一個人天生耳聾,他們仍然可以看得很清楚。雖然有很多有趣的跨模式相互作用的例子,但我認為,透過這種簡化,我們將取得很大進展。”

然而,更復雜的問題是視覺與大腦中更復雜的區域的整合。人類的視覺與其他大腦功能如邏輯、推理、語言和常識深度融合。一些視覺問題可能花費更多的時間,需要將視覺輸入與現有的世界知識相結合。語言和常識等領域本身就是人工智慧的巨大挑戰。但是,這些問題是可以單獨解決,還是整合本身就是解決所有問題的關鍵,仍有待觀察。

總結

在某種程度上,我們需要研究認知的所有其他方面,很難想象在沒有語言和邏輯的情況下如何整合認知。希望在未來的幾年裡,將更多的語言和邏輯整合到視覺模型中;反之,也可以將視覺整合到語言模型中,這將是令人興奮的重大努力。

9
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 優酷副總裁與阿里副總裁先後離職,副總裁需要進行離任審計嗎