本文旨在向讀者指出通用性AI發展面臨的許多挑戰和誤解。短期應用成果應與長遠藍圖相得益彰。我們需要淵思寂慮,精進系統研發,從而理解主體感知,並使之實時適應不斷變化的環境。
撰文 | Patrick Hammer(Temple University,USA), Tony Lofthouse(Evolving Solutions Ltd., UK)
翻譯 | 劉凱(渤海大學教育科學學院、渤海大學通用人工智慧研究所)
能記憶和推理不同情境資訊的個人AI助手總似“呼之欲出”,但直至鼠年年末,這樣的AI助手竟仍未實現。同樣,機器學習儘管進展斐然,可一旦離開“人工”協助,自主系統依舊難言“智慧”——無法在不同學習中貫通資料並整合模型,以實現經驗的跨領域遷移。
若將AI的目標設定為最佳化函式來解決領域問題,那麼我們一直在與日俱進。很多曾被視作難如登天的特定問題(參考文獻[1][6][11]),用最最佳化——尤其是深度神經元網路(DL)的反向傳播來解決,已被證實立見成效,且遠超人力之際。計算機視覺、機器翻譯、語音識別、棋藝博弈、電子競技等諸多領域煥然如新——人工智慧正迅速被全面“馴化”。
正所謂“莫為風波羨平地,人間處處是危機”,此類“馴化”的共同缺陷是:學習僅發生在模型部署之前。可事實上,實時學習才是動物獲得生存優勢的智慧展現。相較而言,支撐機器學習的脊檁則是狹隘的學習理念。更深入地看,所有的離線最佳化(Offline Optimization)問題,本質上都是基於進化而非個體智慧。例如,假定被植入某種遺傳密碼,轉基因螢火蟲就能準確探測特定獵物併成功捕食。這種情況下,螢火蟲無需實時學習便可擁有相應技能。類似地,只要預裝導航、定位、目標檢測(Object Detection)等預置功能的模組或經離線最佳化設定引數,自動駕駛汽車就應該能夠即開即走。
時至今日,如何從離線最佳化轉向快速可靠的實時學習,主流人工智慧仍未給出令人信服的回答。但這既是對智慧本質之叩問,也是人工智慧的初心所向。與荒野生存的動物一樣,通用人工智慧(Artificial general intelligence,AGI)能夠在執行時應對無法預見的情況。快速和可靠的適應力不僅能夠推動新一代機器人及個人助手的實踐發展,也理應被視為智慧理論的那塊“核心拼圖”。
對“智慧”一詞的理解萬別千差、百口不一,王培為此專門撰寫《人工智慧定義專論》一文,並刊發於《通用人工智慧》(JGAI,2019年第10卷)。這篇文章被認為是解決人工智慧領域核心歷史遺留爭議最給力的嘗試之一,受邀的同行評議專家多達110位,且廣泛來自多所著名大學以及DeepMind、Google Brain等知名業界公司。文章標靶為智慧的“非主流”定義,即“智慧是知識和資源不足情況下,主體對環境的適應能力”。儘管該定義在另一項對567名人工智慧專家的調研中高票獲選,但對資源限制和實時適應必要性的質疑之聲也同樣存在。有些質疑源自人工系統與生物系統的差異,認為後者總是在知識和資源不足的條件下透過演化進行適應,但部署後的AI系統則無需再配備這種能力。
對智慧本質的不少誤解都為忽視實時學習所致。比如,遺傳演算法(GA,參考文獻[5])有時被當做強化學習(RL,參考文獻[12])的“替身”。誠然,根據前文所述,遺傳演算法之於強化學習,正如進化之於智慧。但只有當學習發生在海量的代際例項模擬中,上述類比方才成立。而這對自主機器人或動物毫不適用,因為二者都能在單次生命週期內以最快速度適應未知環境。很顯然,只要致命事件發生一次,個體學習也就戛然而止。這也正是高度模擬領域(如參考文獻[11])取得了巨大成功卻難以“變現”的主要原因。於是,與實時的適應性系統相比,離線最佳化這位“同學”著實有些志大材疏。
機器學習視角下,存在三項重要挑戰:
一是,智慧主體若想適應動態(非穩態)環境,“好用”的決策理論便不可或缺。對動物而言,這是透過進化實現的。但對機器而言,單獨個體的一生中卻無法學到。因此,儘管離不開先天預設,但其行為表現則是先天和後天的相互結合。
強化學習就是一個非常成功的決策理論(RL,參考文獻[12])。雖在非穩態環境中難堪大用(主體的適應性需求與學習速率衰減是一對矛盾),不過至少能夠用於實時學習。強化學習有一些主要概念的限制,基於行為主義的強化學習最為常見。透過對具有最高預期回報的“狀態—行為”之間的響應對映(策略)進行學習,且無須對所在情境的其他因果關係進行建模,令此類主體具有獎勵中心主義的世界觀。這意味著,一旦效用函式發生變化,主體就必須重新習得一個新策略,既有知識也無法藉助先天設計而遷移到新任務中。對於存在單一明確取勝標準的電腦遊戲來說(如:賽車遊戲中的圈速、象棋中的將軍等),效用函式的變化不是問題。但對於生物系統而言,這卻是日常的現實考量。
動物在餓與渴的時候行為完全不同,前者會尋找獵物或美味的枝葉,後者會尋覓水源。也就是說,個體行為不僅取決於外部因素,也取決於內部需求。當出現特定需求時,個體尋求“因果知識”,這一知識會自動遷移到解決下一次其他需求。如此,便能對不斷變化的需求予以及時響應。但是,個體並不總能預先知道該如何滿足特定需求。要解決這一問題,可將具體信念與動機系統解耦,令主體在不同的環境中學習到行為的不同結果,建立不同的因果模型。這是那些抱持AI初衷的AGI研究者所追求之路,但在專用人工智慧(Special-purpose AI,SAI)領域中卻常常無人問津。
二是測量。毋庸置疑,不測量便無從知曉是否有進步,但測量的物件也很重要。我們在每個領域下測試主體表現,如果允許對不同領域設定不同的超引數(譯者注:在機器學習中,模型“自學”得到的是引數,無法“自學”必須由“上帝”賦予的是超引數。深度學習“煉丹師”的一項重要操作就是對超引數的調校),得到的將是不同主體的“專項成績”。雖在應用層面上十分有用,卻對了解個體的一般性頓口無言。另一方面,如果因領域各異而設定不同超引數不被允許,那麼得到的則是主體“各科考試”的“總成績”。
目前,最好的通用系統仍無法與專用系統(其超引數針可對特定目標領域進行調整)相媲美,但最好的專用系統其通用性得分卻不會很高。類似情形在自然界比比皆是(如圖1所示),儘管在特定靜態環境,特定的專用方案往往是首選,但通用性卻能使適應特殊環境條件變得更為容易。
圖1:高專用性的昆蟲與高通用性的昆蟲
衡量AGI成功與否需要改變已有的評估方式。AGI亦非AI超集,特定領域內大發神威的專用化最優方案,很可能在其他領域百無一用。在通向AGI的道路上,儘管並非總是,但一般情況下確與專用能力交集寥寥。
寫作此文正是想向讀者指出通用性AI發展面臨的許多挑戰和誤解。短期應用成果應與長遠藍圖相得益彰。我們需要淵思寂慮,精進系統研發,從而理解主體感知,並使之實時適應不斷變化的環境。
三是系統實現。非知之艱,行之惟艱。打造具有通用能力的系統實屬不易,我們只是在漫漫前行路上邁出了一小步。王培提出的非公理邏輯推理系統NARS(Non-Axiomatic Reasoning System)[9]便是其中重要一例。NARS專案歷經30餘年,在實時學習、推理和目標滿足等關鍵領域成效斐然。系統能透過自身感知對環境進行建模,適應環境,透過推理來決定下一步行動,從而實現自我目標。近期的研究亮點是,將深度神經網路(YOLOv4,參考文獻[1][6])的視覺感知與NARS實時學習和推理能力(OpenNARS for Applications,參考文獻[4][13])進行整合,很好地完成機器人瓶子收集的任務(如影片所示)。
機器人尋找瓶子、機器人抓住瓶子
機器人舉起瓶子、機器人運送瓶子
圖2:體現NARS實時推理與學習能力的瓶子收集任務
圖注:此例雖小,但意義重大。首先,再次印證同一個通用人工智慧系統能夠完成不同的專用任務,而無需再次開發或修改原始碼重新編譯;其次,明確說明通用人工智慧系統的多種感知與運動功能能夠在“大腦”的指揮下被妥善協調,而對算力僅有“微弱”的要求;最後,儘管單項能力非其所長,但對開放世界裡又“找”又“避”又“抓”又“舉”的“多強全能”冠軍而言,通用人工智慧系統必定是最有力的競爭者,沒有之一。
在這一任務中,機器人不僅需要協調視覺搜尋和機械操作等多種感知運動功能,同時還要學習探索如何避障。這讓NARS實時學習和實用推理相得益彰,二者融合一目瞭然——既能夠充分體現實時學習的能力(常被視為強化學習的優勢),又不失目標規劃及利用背景知識的認知靈活性。而且,透過整合最新的深度學習模型來處理其所擅長的目標檢測任務,可將機器學習的離線最佳化特點與AGI系統的實時學習和推理優勢相互結合,此為SAI與AGI系統的共生之道。我們的AGI方案有望實現智慧系統自主性的極大提升,並用於:
救援機器人探險機器人基於智慧手機或PC的個人助手無論是某種新型自主代理還是其他專案,AGI的應用不拘形跡——“一切皆有可能”。一言以蔽之,實時學習乃AGI關鍵之法,離線最佳化的人工智慧技術可以成為服務AGI“大腦”的其他延展“器官”,從而令多模態學習及跨域遷移的交結變為現實。這樣的系統具備真正意義上的智慧,能迅速適應多變的現實環境。
最後,總結本文要點如下:
AGI與SAI根本目標各異——通用VS專用AGI與SAI評價方式完全不同實時適應性是智慧系統的必然要求NARS所依據的通用推理系統是實現真正智慧的一種方法AGI時代的大幕正徐徐升起。2021,你好牛年,你好牛·年!
參考文獻
[1] Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M. (2020). YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv preprint arXiv:2004.10934.
[2] Bratman, M. E. (1987). Intention, Plans, and Practical Reason. CSLI Publications. ISBN 1-57586-192-5.
[3] Georgeff, M., Pell, B., Pollack, M., Tambe, M., & Wooldridge, M. (1998, July). The belief-desire-intention model of agency. In International workshop on agent theories, architectures, and languages (pp. 1-10). Springer, Berlin, Heidelberg.
[4] Hammer, P., & Lofthouse, T. (2020, September). ‘OpenNARS for Applications’: Architecture and Control. In International Conference on Artificial General Intelligence (pp. 193-204). Springer, Cham.
[5] Holland, J. H. (1984). Genetic algorithms and adaptation. In Adaptive Control of Ill-Defined Systems (pp. 317-333). Springer, Boston, MA.
[6] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).
[7] Wang, P. (2019). On Defining Artificial Intelligence. Journal of Artificial General Intelligence, 10(2), 1-37.
[8] Monett, D., Lewis, C. W., & Thórisson, K. R. (2020). Introduction to the JAGI Special Issue “On Defining Artificial Intelligence”—Commentaries and Author’s Response. Journal of Artificial General Intelligence, 11(2), 1-100.
[9] Wang, P. (2013). Non-axiomatic logic: A model of intelligent reasoning. World Scientific.
[10] Wang, P. (2009, October). Insufficient Knowledge and Resources-A Biological Constraint and Its Functional Implications. In AAAI Fall Symposium: Biologically Inspired Cognitive Architectures.
[11] Schrittwieser, J., Antonoglou, I., Hubert, T., Simonyan, K., Sifre, L., Schmitt, S., ... & Lillicrap, T. (2020). Mastering atari, go, chess and shogi by planning with a learned model. Nature, 588(7839), 604-609.
[12] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
[13] OpenNARS for Applications (ONA), last accessed January 3, 2021