當人工智慧看到一張圖片,它看到的是什麼?它又是如何理解圖片的?
這篇文章會簡單具象地告訴你。
人類的大腦是如何工作的?在介紹人工智慧之前,先簡單看一下人類的大腦是如何工作的。
谷歌工程總監Ray Kurzweil是這樣描述的。
大腦中有一系列模組,大約有三億個。每個模組有特定的工作方式,可以學習和記住特定的模式,也可以執行特定的工作。
這些模組以層級的方式組織,形成我們的思維。
舉個簡單的例子。我們大腦中有一堆模組, 它們可以認知字母A中的一橫, 這一橫是它們關心的全部。 即使有一首動人的歌在播放,有一個美麗的姑娘經過, 這些模組都不在意。當它們看見字母A的一橫時, 它們就會很興奮地說“橫”!
這些模組會連線到更高層級的模組,告知後者它們所看到的這一橫。這些高層級的模組會有更加全域性、更加抽象的認知,比如,它們有能力認知字母A。
進一步去到更高層級的模組,它們將有能力認知 apple(蘋果)這個單詞。
再往上五個層級, 這些模組就在一個很高的水平,它們可以根據物品、聲音、味道來做出認知判斷,比如根據味道判斷一個人的到來。
繼續往上十個層級,這些模組會有非常抽象的意識,比如“那很諷刺”、 “那很有趣”、“她很美”。
人工智慧是如何工作的?很有趣的是,人工智慧的工作方式和人類大腦的工作方式是十分相似的。
人工智慧的“大腦”(即神經網路)中,也有很多不同的模組,這些模組也是以層級的方式組織,從具體到抽象,最後得到對世界的認知。
以人臉識別為例,根據圖片,識別出圖片中的物品。
在人工智慧的“大腦”中,第一層的模組會告訴機器,我看到特定的圖案(pattern),如下圖。
這些被識別出的圖案會被傳遞到更高層級,隨著層級數逐漸增加,更高層級的模組有能力分辨出五官。
再繼續增加層級數,這些模組將有能力認知和區分完整的人臉。
目前,人工智慧多停留於影象識別、語音識別這類對事物客觀的認知,就像我們看到單詞“apple”一樣。
然而,聯想人類大腦與人工智慧“大腦”相似的工作方式,也許只要讓人工智慧“大腦”的層級足夠多,足夠複雜,它們也將會具備主觀認知的能力,具備人類的情感。
主要參考:
https://www.ted.com/talks/ray_kurzweil_get_ready_for_hybrid_thinking/transcript#t-259001
https://www.kdnuggets.com/2016/11/intuitive-explanation-convolutional-neural-networks.html/3
https://experiments.withgoogle.com/what-neural-nets-see