機器學習是人工智慧的一個重要分支,而深度學習則是機器學習發展到一定階段的必然產物。
深度學習就像生物神經大腦的工作機理一樣,透過合適的矩陣數量,多層組織連結一起,形成神經網路“大腦”進行精準複雜的處理。深度學習的出現,讓影象、語音等感知類問題取得了真正意義上的突破。可以說,深度學習被引入機器學習,使其更接近於最初的目標——人工智慧。
當前,以深度學習為代表的人工智慧技術取得了飛速的發展,正落地應用於各行各業。但深度學習不是萬能的,深度學習的侷限性導致其在近幾年的發展中進入了瓶頸。
紐約大學教授 Gary Marcus曾經說,深度學習是貪婪、脆弱、不透明和淺薄的,而如何面對深度學習的貪婪、脆弱、不透明和淺薄,將決定深度學習在未來能否行穩致遠。
深度學習走向爆發
20世紀50年代到70年代初,人工智慧研究處於“推理期”。彼時,人們認為,只要能賦予機器邏輯推理能力,機器就能具有智慧。但隨著研究向前發展,研究人員們意識到,要使機器具有智慧,就必須使機器擁有知識。在這一階段,機器學習開始萌芽。
1952年,亞瑟·塞繆爾開發的跳棋程式,創造了“機器學習”這一概念,並將它定義為:“可以提供計算機能力而無需顯式程式設計的研究領域”。機器學習旨在透過給機器一些原始的“學習資料”,讓機器自動地學習如何判斷和輸出相應的結果。
機器學習的發展誕生了人工神經網路,而深度學習正源於對人工神經網路的研究。當前的深度學習系統就主要由神經網路的架構、演算法以及結構化資料三大要素構成。其中,神經網路的架構是深度學習最基礎也最必要的一環。網路架構的選擇讓深度學習以一種令給定演算法可學習的方式來表示資料中的結構。
神經網路的架構主要包括前饋神經網路,迴圈網路和對稱連線網路。前饋神經網路是實際應用中最常見的神經網路型別。第一層是輸入,最後一層是輸出,如果有多個隱藏層,即為“深度”神經網路。迴圈神經網路是一類以序列資料為輸入,在序列的演進方向進行遞迴且所有節點(迴圈單元)按鏈式連線的遞迴神經網路。
對稱連線網路與迴圈網路相似,只是單元之間的連線是對稱的(在兩個方向上的權重相同)。對稱的權重限制了網路模型變化的可能性,從而也限制了網路的能力,但同時也使得其比迴圈神經網路更容易分析。
比如,在計算機視覺領域,深度學習的優勢在於它能夠直接從大型影象資料集中自動學習複雜且有用的特徵,並且從神經網路模型的提供的影象中學習並自動提取各種層次的特徵。
深度神經網路效能的顯著提高也是深度學習領域迅速發展的催化劑。2012年,卷積神經網路AlexNet就以15.8%的top-5錯誤率獲得了ILSVRC的冠軍,而當年的第二名卻以26.2%的錯誤率遠落後於AlexNet。
根據ARK的研究,未來15-20年,深度學習將為全球股票市場增加30萬億美元的市值。此外,在很多方面,深度學習正在創造全新的下一代計算平臺。2020年,擁有AI技術的智慧音箱在世界範圍內迴應了1000億條語音指令,比2019年增長了75%。
在自動駕駛方面,美國Waymo公司的自動駕駛汽車已經在包括舊金山、底特律和鳳凰城在內的25個城市收集了超過2000萬英里的真實駕駛里程。使用深度學習技術進行影片推薦的中國公司TikTok,也已經超越了Snapchat加Pinterest。
可以說,作為人工智慧的一種形式,深度學習技術透過利用資料自動編寫程式,正在為各行各業帶來革命性的改變。
貪婪、脆弱、不透明和淺薄的深度學習
深度學習作為現今炙手可熱的概念,其更好的效能得到了學術界和工業界的廣泛認可,但伴隨這些進展而來的還有越來越多對深度學習的質疑。深度學習暴露的越來越多的弱點正在引起公眾對人工智慧的關注,比如在無人駕駛汽車領域,它們使用類似的深度學習技術進行導航,就曾經導致了廣為人知的傷亡事故。
Gary Marcus曾經指出,深度學習是貪婪、脆弱、不透明和淺薄的。
這些系統很貪婪,因為它們需要大量的訓練資料。對於卷積神經網路的影象分類來說,卷積神經網路對物體的姿勢並不敏感。如果要識別同一個物體,在位置、大小、方向、變形、速度、反射率、色調、紋理等方面存在差異,都必須針對這些情況分別新增訓練資料。
可以說,儘管深度神經網路在許多工中表現良好,但這些網路通常需要大量資料才能避免過度擬合。遺憾的是,許多場景無法獲得大量資料,例如醫學影象分析。
深度學習是脆弱的。當下,深度學習網路在做分類的時候,很難輸出一個百分百肯定的結果,這也就意味著網路並沒有完全理解這些圖片,只能透過各種特徵的組合來完成大概的預測。
一根香蕉,人工智慧卻能將其識別為烤麵包機。即使它使用了在自動駕駛、語音理解和多種AI 應用中表現出色的強大深度學習技術。也就是說,即便人工智慧已經見過了幾千張香蕉、蛞蝓、蝸牛和類似外觀的圖片,能夠對新輸入的影象預測其中物體的類別,但依然容易被誤導。影象中只需要多一張貼紙,就能讓系統的預測產生嚴重偏離。
而顯然,不管人們用來訓練的圖片庫有多大都是有限的,從而有些圖片是沒有在我們的訓練庫內的(對抗樣本),這些圖片很可能跟已有的圖片具有極其類似的特徵,從而出現將對抗樣本完全分錯類的情況。
深度學習是不透明的。與傳統機器學習不同,深度學習並不遵循資料輸入、特徵提取、特徵選擇、邏輯推理、預測的過程,而是由計算機直接從事物原始特徵出發,自動學習和生成高階的認知結果。雖然深度學習來自於人類的大腦的工作機制,但依然無法真正理解不同模型的各個引數的含義,從而導致整個深度學習網路成為了一個黑盒模型,除了一些超參以外,很難進行內部的調參。
而這個黑盒模型,不只意味著不能觀察,還意味著即使計算機試圖向我們解釋,人們也無法理解——被描述為黑匣子的深層神經網路何時能夠提供令人滿意的答案,何時不能?應用深度學習系統時,將相應領域知識、約束條件和對稱性考慮進來的最佳方式是什麼?如何確定和量化訓練和測試資料是否來自不同來源等都是深度學習需要回答卻至今未答的謎題。
深度學習還是淺薄的。當下的深度學習網路大部分傾向於表徵學習,而非真正的智慧,很依賴於其訓練資料,很難從有限的資料中學習到全域性的東西。同時,在一些不斷變化的情景下,這些網路也很難有很好的表現。
去年,OpenAI的GPT-3在外網走紅。GPT-3作為著名人工智慧科研公司 OpenAI 開發的文字生成人工智慧,以天文數字級別的1,750億引數量引發轟動。GPT-3是迄今為止最強大的語言模型,龐大的引數量也讓GPT-3幾乎無所不能,包括答題、翻譯、寫文章,甚至是數學計算和編寫程式碼。
但GPT-3類似人類的輸出和驚人的通用性只是優秀技術的結果,而不是真正的聰明。GPT-3的智慧是天文數字級別的引數量和運算的疊加。
可以看見,雖然深度學習在各科學學科的研究中已經取得了巨大的成功,但深度學習在持守優勢的同時,也有一定的侷限性,包括資料的侷限和智慧的侷限。
與此相對應的,就是為了突破侷限而生的資料合成、遷移學習、3D物件理解等新生學科。任何領域的根本性進展和爆發必然要經歷時間的考驗,這些挑戰是真實存在的,也正在被解釋。