導讀:人類的智慧寬廣而複雜。有些人類成就遠遠超出現今機器可達的領域,要想讓機器觸及這些領域,還需要一段漫長的時間。對於解決抽象問題、概念生成、情緒知識、創造力甚至是自我認知,即便是最強有力的深度學習演算法,也無法在這些領域與人類智慧相提並論。
把所有這些認知能力融合到一臺機器中,從而能夠應對所有通用場景的人工智慧稱為通用人工智慧。目前,通用人工智慧還停留在理論階段。
不過,當前的技術在執行特定型別任務方面取得了較大成功,這些任務過去都依賴於人類智力。我們稱這類人工智慧為狹義人工智慧或弱人工智慧。弱人工智慧主要指三種能力:學習、感知和認知。
▲AI能力備忘單
上圖概述了本文介紹的AI的核心能力。
談到AI的時候,客戶們不停地在問:“這事兒成了嗎?”在一個AI被過度炒作的世界,確實很難分清AI是幻想還是現實,是實際能力還是營銷表演。
所有這些能力在今天都是真實存在的。今天的AI是真實的,成千上萬的公司正在使用AI進行業務轉型。關注AI未來的可能性固然重要,但是你更需要了解現在的AI能做些什麼。
01 學習▲學習——無顯式程式設計的學習
機器學習的首要特徵就是隨時間學習的能力,並且不需要明確程式設計。和人類一樣,機器學習演算法透過探索與實踐學習,而不是遵循一步步的指令(當然我知道有些讀者是小孩子的父母,有時候你們可不希望孩子們這樣)。
機器學習演算法是按照學習方式分類的。當下最流行的、你的企業90%的時間可能都會採用的技術就是有監督學習。
有監督學習使用包含輸入和期望輸出的資料集。透過迭代最佳化,學習演算法可以找到一個函式,對輸入如何轉化為輸出進行建模。這個模型會被應用於訓練集外的新的輸入,並預測對應的輸出。
找到正確的演算法和引數,部分靠科學,部分靠創造力和直覺。如何將機器學習應用於這一過程本身就是個研究課題——這種技術稱為自動化機器學習(AutoML)。
有監督學習演算法都有相同的缺陷:它們需要大量資料。而且不是任何資料都行,它們需要同時包含輸入和對應輸出的訓練資料,也稱之為標記資料。
有時我們會有在記錄系統或互動系統中儲存的已經標記過的歷史資料。例如,對於客戶流失模型——我們可以檢視流失客戶的歷史資料,加上客戶的歷史互動一起作為訓練資料的輸出部分。透過使用正確的演算法,我們僅僅透過檢視一系列的互動,就能夠預測未來的客戶流失情況。
然而有時我們不會如此幸運,資料並不會被標記。無監督學習演算法會處理一組沒有標記的資料並找出其中的結構。聚類演算法是無監督學習演算法中最流行的一種,它透過不同的技術,在資料中找到共性並對其分組。你可能使用這種演算法對你的客戶群或網頁訪問者進行客戶細分。
其他常用的無監督學習演算法有關聯規則(定義資料間的關聯,如購買某種特定產品的使用者會對其他特定產品感興趣)和異常檢測(找出與主體資料不同的罕見或可疑部分資料)。
在其他情況下,我們完全不使用訓練資料。想想人們如何學會玩一款影片遊戲。解決這個問題的有監督方法就是觀看成千上萬的遊戲影片並從中學習。這是許多Youtube播主的商業模式,我的孩子們就看這種影片,但我發現這種方式極度枯燥。
一個更有趣的學習方法是實際上手玩這個遊戲。在玩的過程中,如果我們做對了(比如得分)就會得到正向強化,如果我們做錯了(比如被殺死)就會得到負向強化。強化學習演算法就是這麼做的:它們透過探索環境並強化正確的行為來學習機器學習的功能。
強化學習由於其不需要資料的特性,成為商業上一種極其有前途的機器學習方式。它特別適合自動化系統——無論是移動的(如車輛、遙控飛機)還是靜止的(如空調系統、電力系統)——同時也可以應用於複雜的業務流程。強化學習通常被認為是AI中最困難的學科。
02 感知▲感知——解釋周邊世界
如果說有某個領域為人類所獨有,那就是感知了。數十年來,我們嘗試模仿人類的能力去感知周圍的世界,卻鮮有成功。理解一幅圖畫或將語音轉文字的複雜度使其幾乎無法用程式設計的方式實現——想象一下如何用一步步的指令來定義圖片裡的一匹馬。
機器學習演算法更適合解決這類問題。然而,傳統機器學習演算法在處理感知任務時的準確性與人類能做到的程度相去甚遠(我仍然記得在Windows Vista上給開發們演示語音識別功能的情景……這件事教我學會要做個更堅強的人!)。
以影象分類為例。ImageNet是影象分類中最著名的挑戰。自2010年起,全球的參與者提交他們的演算法來建立最精準的模型。在競賽初期(即2010年),能達到的較好的誤差率約在25%左右。作為比較,同一資料集下人類對應的誤差率約為5.1%。
到了2012年,Alex Krizhevsky(一位來自多倫多大學的學生)提交了他的方案:一個包含8層名為AlexNet的神經網路。AlexNet擊敗了其他競爭對手,達到了15.3%的誤差率—比僅次於他的競爭者低了10個點。
在接下來的數年內,他引入的技術被持續改進並增加了更多層數,直到2014年,一個名為GoogLeNet的22層神經網路達到了6.7%的誤差率。
次年,一個來自微軟研究院的團隊提交了使用全新神經網路技術的作品,其神經網路的深度達到了超大的152層,誤差率僅為3.57%,首次超過了人類的表現。
深度學習永遠地改變了計算機視覺。如今,這項技術實際上已經被用於計算機視覺的所有高精度場景,這使其成為企業中最常見的用例。以下是一些計算機視覺在當今的應用:
為影象的內容分類(影像分類)識別一幅影象中的多個物體,並識別每個物體的邊界(物體檢測)識別影象中的場景或行為(如:工作場所的不安全情形,或零售商店的補貨)檢測人臉,識別身份,甚至辨識每張臉的情緒識別書寫文字,包含手寫體文字(光學字元識別)鑑別影象或影片裡的攻擊性行為研究員Harold Stolovitch和Erica Keeps在他們的書Telling Ain’t Training(ASTD出版社)中斷言,我們獲取的資訊中,有83%來自視覺,次之是聽覺,提供了11%的感覺輸入。兩者合起來佔據了我們從外界獲取資訊的94%。毫無疑問,音訊處理是人工智慧關注的另一個較大領域,僅次於計算機視覺。
相似的深度學習技術可以應用到音訊訊號上,幫助計算機識別聲音。你可以利用這項能力區分鳥兒們的歌聲,或透過風力渦輪機發出的聲音來預測故障。
不過人工智慧在音訊處理方面最激動人心的還是語音識別。用於語音識別的參照資料集被稱為總機,它包含了約260小時的電話交談錄音。測量後人類的轉錄誤差率為5.9%。該誤差率在2016年被微軟研究院設計的神經網路追平,並於1年後被其以5.1%的誤差率擊敗。有史以來第一次,一臺機器可以比人類自身更好地理解人類。
這些突破不但讓機器更懂我們,而且使得機器可以用自然的方式與我們溝通。2018年,Azure上線了基於深度學習開發的文字轉語音服務,該服務能夠合成出與真人無異的人聲。
這些能力的結合將實現計算機科學的法寶:全自然使用者介面(NUI)。機器既可以看見和理解人類,又可以用自然語言與人類交流,這看起來就像是我們已經實現了科幻電影的幻想一樣。不過,我們真的做到了嗎?要與計算機進行真正有意義的交流,計算機不但要能轉錄我們說的話,還要能理解話裡的意思。
自然語言處理(NLP)是人工智慧中從人類語言中分析、理解並提取含義的領域。NLP最常見的場景之一就是語言理解,語言理解是現代會話型人工智慧體驗(比如數字助理)的基礎。
當你向Siri、Alexa或Cortana詢問天氣時,系統首先將你的會話音訊轉換成文字,然後透過自然語言理解模型抽取出你的意圖,然後將意圖(如“獲取天氣”)對映到對應輸出(在這個例子中,就是提供當地的天氣資訊)。
NLP技術在過去幾年中飛速發展。有些只能處理簡單任務,比如情緒分析、關鍵字抽取或個體識別,有些則可以處理更復雜的任務,如文字歸納或翻譯。2018年,微軟的機器翻譯團隊首次在自動翻譯方面達到人類水平——這是個極度複雜的任務,曾一度被認為是不可能實現的。
自然語言理解最激動人心的應用之一便是機器閱讀理解。2018年1月,來自微軟亞洲研究院的團隊使用斯坦福問答資料集(SQuAD)達到了人類的水平,該資料集由針對一組維基百科文章的問題所組成。實際上,有關這些文章的開放性問題,系統能夠給出比人類更好的答案。許多公司為之做出了貢獻,幫助它走得更遠。
儘管如此,這些系統仍然無法達到人類的抽象層次。在其核心,問答演算法會搜尋文字來尋找可以指向正確答案的線索。對於每個問題,系統都要搜尋整個文字來匹配。人類也這麼做(特別是當我們很匆忙時),但是當我們真正想理解一段文字時,我們會從中抽取知識,進行概括,並使其更易於理解。
想象一段描述加利福尼亞的文字。人類會從這段文字中歸納出“加利福尼亞”這個實體並給它賦予屬性(如人口、面積),甚至與其他實體的關係(如鄰州、地方長官)。歸納後,我們不再需要那段文字來回答關於加利福尼亞的問題。我們已經概括了有關的知識。
人工智慧中與此過程對應的是知識抽取,其對企業有著深遠的意義。透過使用這些技術,我們可以從混沌、無序,甚至令人困惑的資訊中抽取高階概念。結果知識圖不但能用於回答關於整個資料產業的寬泛問題,還能瀏覽和理解這些資訊。
這種水平的抽象遠遠超出了傳統NLP的能力範圍,使其更接近我們所說的認知。
03 認知▲認知——基於資料進行推理
嚴格來說,認知是獲取和處理知識的能力。它包含人腦用於推理、理解、解決問題、計劃和決策的高層次概念。
我們目前探索的技術包含了一定程度的認知,雖然有時不那麼明顯。以影象分類為例,如果我們仔細審視用於影象分類的深度神經網路,實際上就可以看出神經網路是如何在每一層將問題分解成更小的步驟的。
沒有人工干預,神經網路自動展示了某種程度的概括:第一層檢測簡單的特性,如邊緣或紋理。往更深層走,每一層都能夠抽取更復雜的屬性,如圖案或元素。某種意義上,神經網路已經可以獲取一些知識並使用這些知識做一些基礎推理。
自然語言處理展示了類似的內在抽象。在其核心,大部分現代的NLP技術都使用了被稱為詞嵌入的技術。透過詞嵌入技術,文字中的每個詞都轉換為一個代表單詞含義的向量。在這個新的空間,語義相似的詞(如“天氣”和“預報”)彼此接近。
透過這種方式,系統會將“今天天氣如何?”和“獲取未來24小時的預報”匹配為相同的意圖。即使詞不同,它們的含義卻是相似的,因為它們的語義相近。翻譯也是相同的工作原理:翻譯技術使用詞嵌入來抽象輸入的文字,將其轉換為與語言無關的“想法”,再用反向流程將其翻譯為任意一種語言。
在這些例子中,認知是感知的內在。然而,許多人工智慧場景是單純的認知。它們不專注於感知周圍的世界,而是專注於抽象這個世界並基於抽象進行推理。一些最基礎的有監督學習方法便是如此。迴歸分析是根據現有資訊預測數值的能力,例如基於房屋的特徵和位置評估其價值,或根據歷史資料預估其銷售額。
分類是根據物品自身特徵對其分級或分類的能力,例如,判斷一棟房屋是不是會被出售給某個特定的買家。最佳化演算法則是基於流程進行推論,從而最大化某個特定的結果,比如在醫院裡分配資源。
推薦系統僅透過評分或購買習慣就能夠找出電影、書籍或歌曲等物品間不為人知的共性。其他技術,如前所述,如聚類分析能找出資料中的模式,並以無監督方式對物品歸類。
我們在強化學習技術中也能看到認知能力。2017年,蒙特利爾微軟研究院(前馬魯巴島)跨越了100萬分大關,創造了吃豆人遊戲的新紀錄。該系統透過玩成千上萬把遊戲來實現自我訓練。
同樣地,在2018年,OpenAI Five(一個由五個神經網路組成的團隊)在Dota2遊戲中打敗了人類隊伍。OpenAI Five透過自我對戰進行訓練,每天的訓練量相當於180年遊戲時長。
最著名的例子應該是由Google DeepMind取得的成就:其系統AlphaGo第一次擊敗了一位9段圍棋專業選手。相對於其他遊戲(如象棋),圍棋被認為是對電腦來說更為困難的遊戲。
深入觀察所有AI系統參與的遊戲,你會覺得它們展現出了認知的另外一種特徵——計劃。系統能夠提前“思考”最佳的方式來獲得長期看來最大化的分數。
本文摘編自《AI重新定義企業—從微軟等真實案例中學習》,經出版方授權釋出。
延伸閱讀《AI重新定義企業》
推薦語:基於真實案例,帶你瞭解AI核心概念,探尋適合你的企業的AI用例,同時指導如何在組織和文化層面進行業務轉型。