我今天的報告講的是認知智慧:為什麼它特別難?現在到底做的怎麼樣了?以及,就我自己的一些粗淺思考,將來它到底該怎麼走?
回看整個人類的發展歷史,它呈現指數上升的趨勢。我們花了很長的時間來感知自然界,事實上我們現在的感知能力其實跟大猩猩、猴子等也差不了特別多。大約在250萬年以前發生了認知革命,從感知到認知,開始認知自然界。又到了大概1.2萬年以前,有了一個新的革命,就是從認知自然界到改造自然界。大約在500年前的文藝復興以後,又有一次飛躍,從改造自然界到創造自然界。到現在,文明達到了一個新的高度。
對機器而言,大抵也是如此,也要遵循一個類似的發展曲線。剛開始的時候,可能還是得先從感知做起,這也是現在人工智慧正在做的,而且做得相對比較成功。某種意義上,現在人工智慧正在經歷這麼一個所謂的正規化轉變(paradigm shift):從感知智慧到認知智慧的正規化轉變。
我們透過視覺、聽覺、觸覺、味覺等等,去感知自然界,得到一些初步的資訊。認知則是在感知的基礎之上,理解這些物件並且產生知識,做一些決策。某種意義上,感知到認知是整個行為決策過程中的兩個不同的環節。為什麼說從感知智慧到認知智慧是一個很重要的變化呢?
感知智慧與認知智慧
先看一個影片(見文前演講影片之中)。大家看了之後,可能會覺得這些人做的事情很蠢,但是我們想一想,這些人在感知自然界的時候,他們很蠢嗎?其實並不是,他們的感知和人的正常感知是一模一樣的,只是他們在做認知的時候、在做決策的時候做了一些我們覺得很愚蠢的事情。實際上,從感知到認知是一個很大的跨度,我們可能會覺得影片裡面的有些小夥伴們的行為比較愚蠢,但是現在機器並沒有做得比這好很多。這大概是現在人工智慧處在的一個現狀。從感知智慧到認知智慧,我們還有很長的路要走。
現在我們再比較一下動物和人類。人類是地球的主宰,但事實上我們感知的能力並不比動物強。論速度比不上豹子,論力量比不過熊,論視覺比不過鷹,論嗅覺比不過狗。但是為什麼我們成為了地球的主宰,因為我們有很強的認知能力。在感知之上,我們可以總結經驗,得到知識,創造新的知識,從而成為了萬物靈長。
以上,我是想傳遞一個這樣的資訊:認知跟感知很不一樣,它是一件非常重要的事情,是人類能夠變得一枝獨秀的最重要的原因。
下面我們看一下機器到底在感知和認知上做得怎麼樣。
在感知智慧上,現在的機器智慧正在接近和逼近人類,已經做得很不錯。比方說,現在已經廣泛應用的人臉識別,在火車站、在各個單位裡都已經開始得到廣泛應用;再比方說,語音識別也做得非常好,可以把語音方便地轉成文字;還有光學字元識別,對於報銷單等,可以直接提取出一個結構化的文件出來。在感知智慧這個層次上面,基於深度學習的一些技術在某種意義上已經能夠跟人類媲美了。
那麼認知智慧怎麼樣呢?其實認知智慧也取得了很多突破,例如國際象棋和圍棋等。1997年的時候人工智慧擊敗了人類的國際象棋冠軍;兩年前,AlphaGo橫空出世,在圍棋上橫掃人類;2011年的時候,IBM做了一個叫“沃森”的機器人,在類似於“開心詞典”的知識搶答競賽中,擊敗了人類的世界冠軍。我們很多小夥伴可能也玩遊戲,像星際爭霸、王者榮耀等等,在這些方面,現在人工智慧都有很多不錯的嘗試,而且已經取得了很好的成績。
但為什麼我們還會說認知智慧任重道遠呢?看下面一個影片(見文前演講影片之中),這是2015年Alpha機器人挑戰賽的一些失敗集錦。挺有意思的。我們做演講的時候往往會說一些正面的訊息,但事實上這些反面的或者失敗的經歷同樣很重要。它告訴我們人工智慧的邊界在哪,到底什麼事情做得好,什麼事情做得不好。當然,這個影片某種意義上也有一些誤導的嫌疑,因為現在的機器人技術已經突飛猛進了。比方說從2015年到現在,以波士頓動力為代表的一些公司,在平衡性上面已經做得很好了,像阿特拉斯機器人,還有機器大狗等等。
但是在一些特別簡單的認知任務上,人工智慧卻出人意料得差。比如開一個閥門、開一扇門,在這些事情上面,機器人比大家想象的要差非常得多。某種意義上,現在的機器人技術根本沒有辦法開啟任意一扇門。因為有不同的門,不同的把手,不同的開門方法。而機器人要用統一的方法來做這件事情,這是非常困難的。
這個事例告訴我們幾件事情。第一件事情,雖然認知智慧在某些點上已經做得很不錯了,但是反過來在有些很簡單的事情上面,其實還做得特別糟糕。為什麼?因為人跟機器不是一個物種,人跟機器有本質上的區別,某些人看起來特別難的事情,說不定對機器並沒有那麼困難。比方說下國際象棋,對機器來說,它就是個搜尋問題,對人來說,因為搜尋能力沒達到那個程度,運算量、運算智慧上面不夠,所以會覺得這個事情非常困難,要有很多的知識和技巧,很強的訓練。對於機器來說,在1997年的時候用一個比較強大的計算機,然後透過高階搜尋就可以做得很好了。再簡單一點,像五子棋之類的,機器透過搜尋可以輕鬆打敗人類。反過來,在有些人看起來特別簡單的事情,機器會覺得非常的困難。剛才的開門就是一個例子,因為有無數的不同的門,沒有辦法把它定義成幾種不同的開門方式。另外一個很難的事情就是所謂的常識知識。常識知識是那種我們認為很顯然的、根本都不需要說的、所有人都知道的知識,比方說如果天上下雨的話,地上就會溼。但這些常識知識非常多、非常複雜,處於不同的領域,所以機器在這方面獲取的能力比人要差很多。每次當有人問到:機器是不是要毀滅人類之類的問題,我只好笑一笑。讓它先去開個門試一試!
什麼是認知智慧?
我們從詞源的角度探討一下,到底什麼是認知智慧。簡而言之,“認知”基本上等於“認識知識”。尼爾森說過,人工智慧某種意義上是關於知識的科學。
在牛津詞典裡,關於智慧、關於認知這些詞的解釋經常變。其中,有一個解釋是這樣的:智慧是獲取和使用知識和技巧的能力。認知是一個心理狀態過程,也是獲取知識並且去理解這些知識的能力。某種意義上,認知智慧的核心就是怎麼去認識知識,它是關於知識處理方面的能力。
這些能力有三點是必備的,也是非常本質的。第一,需要把知識編碼出來,即要進行知識表示或者知識編碼。第二,怎麼去獲取這些知識,不管是常識知識也好,專業知識也好,不管是開門也好,下圍棋也好,這知識到底怎麼來的?第三,假設知識已經有了,到底怎麼去運用這些知識解決問題。
因此,我個人的粗淺理解是,對於認知智慧而言,它的核心就是知識到底怎麼表示、怎麼獲取、怎麼運用。下面簡單的講一下,現在的人工智慧在這三個方面到底怎麼做的,做得怎麼樣了。
三大流派
第一個就是現在特別火的“連線流派”,基於神經網路深度學習。上圖前面三位獲得了2019年的圖靈獎,右邊這一位也是深度學習的另一位領袖。他們提出了現在特別流行的一些概念,例如深度學習裡的卷積神經網路,還有迴圈神經網路等等。這些概念非常有用,也取得了很多成績。連線流派透過模擬生物神經網路的方法來做人工智慧,我們簡單分析一下一下連線流派在表示、推理和學習上面到底做得怎麼樣。
舉個簡單的例子,勾股定理(畢達哥拉斯定理),很早就發現了,那麼現在給深度學習一個神經網路,比方說一億個直角三角形,它能夠學得出勾股定理來嗎?恐怕是夠嗆的,因為它很難學習結構化知識。在表示上面,表示結構化知識的時候,也遇到了很大的問題。看上圖右邊圖案,連線流派在學習上面做得還不錯,但表示和推理還有一些缺陷和問題。
另外一個很重要的流派現在提的不多,但實際上也很重要,特別在機器人領域用的比較多,叫做行為流派。左邊這個人是MIT的Rodney Brooks,他提出了所謂的包容式體系結構,就是不同的層面都做簡單的反應式推理,就像條件反射一樣,但是從不同的層次來做。我估計大家用過他的一個產品,就是掃地機器人,iRobot,就是他和他的學生開的公司做的。除了掃地機器人之外,他也在嘗試新的機器人公司,包括通用工業機器人等等。
簡單分析一下基於反應式的行為流派在知識的表示、推理和學習上面做的怎麼樣。它最大的好處在推理效率快,因為反應,你給它一個刺激,它就推出來了。但是在表示和學習上面遇到了很大的困難,比方說反應式的規則怎麼得到,是不是能夠表示更復雜的知識等等。
第三個就是所謂的基於邏輯學的符號流派,這其實是原來人工智慧的一個主流的流派。比方說20世紀80年代第二波人工智慧的興起,主要是基於符號流派的專家系統所導致的。符號流派在人工智慧歷史中很輝煌,除了剛才說的三點陣圖靈獎之外,其他的人工智慧圖靈獎獲得者基本上都是符號流派的或和符號流派密切相關,包括達特茅斯會議的那幾位先驅 McCarthy、Minsky、Simon、Newell,還有後面的Pearl這些人。此外,人工智慧的祖師爺圖靈,他本身就是個邏輯學家、符號學家。整個機器也是建立在邏輯以及語言的一些基礎之上,所以符號流派當時在人工智慧領域佔據了很重要的地位。
為什麼符號流派現在大家聽得比較少,是因為它也遇到了很多困難。它遇到的困難主要在哪?在學習和推理上面。在學術界的時候,符號流派很吃香。因為當時假設知識已經有了,已經學習到了,討論該怎麼用這些知識去解決問題,但後來真正跟應用結合在一起的時候,發現一個慘痛的事實:這個假設不成立。知識並不是天生就有的,需要透過某種方法去獲取知識。而符號流派的方法就很簡單粗暴——專家去寫,所以這是專家系統為什麼當時很火,後來又遇到了很大瓶頸的一個原因。
所以符號流派在表示上面做得比較不錯。比方說像勾股定理之類的知識,甚至更復雜的知識,用符號的方法可以比較好的表示出來。但是在推理和學習上,它遇到了一些很大的問題,這是為什麼現在它有一點萎靡不振的原因。因為如果連知識都沒有的話,所有的東西都是空中樓閣。
可以看到這三個人工智慧很重要的流派,有一個很有意思的地方,就是每個都有一個優點。比方說連線流派,它在學習上面做得不錯;行為流派在推理上面;符號流派在表示上面做的不錯。於是,有一個很自然的想法,是不是可以把它們折中或者說把它們融合起來?確實如此,在最近幾年也做得非常多,例如現在還比較火的知識圖譜技術。但它真的就是一個折中,各方面的優點確實是取了一點,但是同時也犧牲了它們的一些特性。
分析之後會發現,人工智慧現在的主要的幾種方法,在知識表示、知識推理和知識學習上面,都遇到了一定的問題。這就是現在認知智慧為什麼難做的一個很大的原因。
人工智慧的6E目標
我們真正想要的是什麼?毫無疑問是這麼一個完美的三角形。我們希望人工智慧在知識的表示、知識的推理和知識的學習上面都做得很好,至少像人這麼好。但這是一個很困難的事情,個人淺見,為了這個事情,有下面幾點是必須要做到的,即6E:簡潔(Elegant),可擴充套件(Extensible),強表達(Expressive),高效(Efficient),可教育(Educable),可演化(Evolvable)。
從現在的人工智慧到想要的完美三角形,有很長的路要走,任重而道遠。就我個人的粗淺的理解,為了達到這個目標,需要開發新的人工智慧方法,來做到6E。其實,6E在已有的人工智慧理論和方法中,是相互衝突的。比如說在符號流派裡,表達能力跟效率之間的權衡,一直是一個核心問題。但在應用的時候都需要,怎麼去突破這些理論上的瓶頸,是非常困難的事情。
但反過來我們想想,對於我們人類自己來說,是不是某種意義上在6E的各個方面表現都還好。我們以自然語言為基礎的知識表示、推理和學習相對簡單、可擴充套件性超級好、表達能力非常強、雖然不特別高效但也足夠用。也是可教育、可演化的:既能夠總結經驗、又能學習新的知識。我個人的理解,這才是現在的人工智慧跟人真正的差距所在。
個人認為,達到完美三角形是人工智慧最重要的事情。屆時,針對以下一些認知智慧的關鍵科學問題,包括:什麼是知識?是否存在統一的知識(數學)模型?機器(人類/腦)如何編碼、獲取、運用知識?知識和資料、知識和智慧的關係是什麼?認知智慧和知識科學會有哪些殺手級應用?我們將會有一個更好的回答。在此基礎上,我相信人工智慧會有長足的進展,會有一個從感知智慧到認知智慧的正規化轉變,會有一個從現在特別火的資料科學到將來特別火的知識科學的正規化轉變。當然,還是那句話,任重而道遠。
演講者 | 周熠
文字整理 | 貓擼火鍋、王佳
排版 | John