[ 導讀:現在的人工智慧雖已突破了計算能力和資料資源的瓶頸,但隱患埋伏在一個“偏”字上。人工智慧熱潮是否會曇花一現?特推薦國際人工智慧理事會主席、香港科技大學電腦科學與工程系主任楊強的這篇專訪。]
楊強,這位1961年出生的電腦科學家是首位當選國際人工智慧協會院士的華人,似乎很擅長跳出主流偏重的視角來看問題。他認為,“人工智慧演算法的資料得不到更新,就像一臺好車沒有汽油。”當許多人在討論機器能否像人一樣實現無監督的學習,他卻認為無監督學習是一種假象,人類的監督學習隱藏得很深。如果演算法做得足夠好,就能像人類一樣從簡單的一張照片上提取到無數個標籤。此外,楊強注意到人渾身上下都是精妙的感測器,幫助人腦獲取資訊,在硬體發展沒有跟上的情況下,光用演算法實現通用的強人工智慧只能是奢望。對此,楊強表示,“只不過大家現在都在摘比較低垂的果子,還沒有深入去想。”以下為記者與楊強的對話實錄。
楊強:路還很長,但我們現在做的一些實驗證明是可以的。像遷移學習之前都是一些博士生、研究人員來設計,現在有個演算法叫自動機器學習,和遷移學習結合就變成自動遷移學習。自動遷移學習是怎樣的?比如在自然語言領域看到一個新的需求,它會把自己建好的模型和新的應用之間的差別變成一個目標函式,從而設計演算法。整個過程是可以自動化的。如果這個可以做,讓機器最終學會舉一反三是可能的,但路還很長。
楊強: 其實現在大家比較關注的一個問題是可解釋性,因為深度學習是個黑箱。我覺得這個問題遲早會解決。為什麼呢?你看人腦其實在某種程度上也在做深度學習,每個人的大腦都有好多神經元在做肉體的深度學習,同時我們可以對自己的某些決策作解釋。醫生可以給病人解釋為什麼開這個藥,老師也可以給學生解釋說錯在哪裡。人有這個功能,我相信機器一定可以發展出類似的功能,只不過我們現在沒有找到路子。除此之外,深度學習的穩定性問題也是國際上的研究熱點,現在有很多人工智慧可以通過假資料來欺騙,這說明現在人工智慧的魯棒性還不是很好。這是很自然的,一個技術出現後,大家就會開始關注魯棒性、可擴充套件性、透明性等非功能性性質,引起第二波研究。以前的資料庫和網際網路技術也是這樣。
楊強: 我覺得無監督是一個假象。大家都在類比人會做無監督學習,但我的觀點是人做的是有監督學習,只不過監督藏得很深。比方說給人看一朵花,以後看到花都能認出來。這是因為這個例子裡面其實包含了很多的資訊,現在的演算法只能從上面得到一個表面資訊,但是還有一些深層的資訊。所以這是演算法的不足。演算法做好了以後,會看到所有的無監督資料其實是有標籤的。包括小孩為什麼學得很快?這是因為他父母之前做了預訓練,這和遷移學習的方式非常像。我覺得以後一定可以從一幅影象中找到很多深層資訊,然後也能訓練個八九不離十。只不過大家現在都在摘比較低垂的果子,還沒有深入去想。
楊強: 強人工智慧就是通用的,一個模型可以做N件事。人肯定是一個模型做N件事,但機器現在是一個模型只做一件事。我覺得強人工智慧未來是可以實現,但可能不是用我們現在這種方式。為什麼呢?現在的方式是我們準備很多資料,然後去訓練出一個模型,這是人的運作方法。人渾身上下都是感測器,這些感測器比現在的物聯網要強很多,所以除非硬體到了這個程度,否則只談人工智慧演算法就是奢望。現在的情況是硬體遠遠落後,要等那邊跟上來。
楊強: 首先,我覺得國內在人才培養上出現了非常可喜的局面,好多大學在建人工智慧學院、人工智慧專業。五年之後會湧現一大批人工智慧從業者,可能會出現良莠不齊的情況,但沒關係,裡面肯定會出現一些精英;其次,國內人工智慧產業發展也比較興旺,許多公司設立了人工智慧部門,這些都是特別好的事。但在比較冷門的研究領域,國內和國外還有很大的差距。比如果很多國外的大學都有邏輯推理這方面的教授,但國內一般就把機器學習等同於人工智慧。另外,國內研究神經學和人工智慧結合的也比國外少。在這些方面,我希望還是不要那麼功利,要去研究一些眼下沒有大的進展、比較冷門、好奇心驅使的方向。
楊強: 我現在就在做一線的事情,防止它們冷下去。過去冷下去有好幾個主要原因,一個是計算能力跟不上,一個是資料資源不夠。現在計算資源和資料資源都有了,但案例製造還不夠。比如說,現在計算機視覺主要還是用在政府安防等領域。其實產業裡有大量的需求,但大家做得太偏了,沒有充分地挖掘。一個產業如果只有一個支柱,那麼它是很危險的。人工智慧如果只有視覺、或者政府安防這個支柱也很危險。所以,你說有沒有危險進入到另一個寒冬?是有的。下一個寒冬可能是大家一蜂窩做的那件事沒有真的做出來,這一批人可能就會很失望。但現在努力做不同的事情的,也許會有新的驚喜。
楊強:遷移學習和聯邦學習之間的共性都是在兩個或兩個以上的領域之間進行,這和深度學習是截然不同的。深度學習和以前的各種學習都是在一個領域進行。在兩個領域進行,第一層的考慮是知識的遷移共享,第二層考慮就是加密和安全。比如說原來有一個保險公司,它對車險的定價基於一些很粗的維度,像駕駛員的年齡和車齡。為什麼只能做這麼粗的定價?因為它對使用者的了解非常少。如果有一個碼農張三年紀很輕,但開車卻很小心,這一點它就無法了解,也無法進行個性化。現在它可以和一個移動網際網路公司合作。運營商那邊有張三的行為資料,但對保險領域並不了解。它們兩邊需要合作,但又不願意把資料暴露給對方,以防失控和監管不嚴的問題。聯邦學習恰恰就是在這可以幫忙,不交換資料,但可以在重疊的資料上建立一個更好的模型。
楊強: 橫向聯邦學習的場景是各方都有一部分使用者資料,這些使用者都不一樣,他們可以利用加密的共享共建模型來得到一個更好的模型,但是這個模型不必用到所有使用者的資料,我們假設有1000萬的手機使用者,你可以在裡面選比較有用的300萬,建立起橫向的模型,分散到上千萬的使用者。還有一個是縱向聯邦學習,意思是兩個機構同樣進入這個資料,但是維護不一樣。比如一個收集使用者的年齡性別,另一方收集使用者的學習成績和平時的衣食住行。具體到金融案例,橫向聯邦學習的場景是很多家不同銀行的維度是一樣的,都了解信用、還款情況等資訊,但使用者是不一樣的,因為它們位於不同的城市。而縱向聯邦學習是同一個城市,同樣一個使用者,但是他在接受不同的金融服務。比如面對小微企業的貸款,我們需要了解這些企業的稅收情況和經營情況,但銀行沒有這部分資料。我們就可以找一些專門處理髮票的機構來合作。除此之外,我們也在探索一些非常不一樣的業務。舉個例子,我們跟一個深圳的公司合作,他們是做工地安全的視訊檢測,有沒有著火、工人有沒有戴帽子等等。但不同的工地、不同的公司不願意交換這種資料,就可以用聯邦學習來建立一個聯邦模型,這樣一個工具要比單獨的資料更靠譜。
楊強: 我管這個叫人工智慧應用的最後一公里。意思是說,除非你能到使用者的那一段,不然你搭得再好最後還是沒有銜接上。那麼什麼東西沒有銜接上?就是資料。人工智慧演算法都需要很多資料,資料得不到更新,最後就像一臺好車沒有汽油。所以在我看來,這最後一公里確實特別關鍵。只有通過這種合作的方式,才能把大資料真正建立起來。無監督學習是“假象”。