同盾科技合夥人、人工智慧研究院院長李曉林教授
儘管已經離開講臺,李曉林身上仍留著些許象牙塔內的痕跡。
之前,他是學界精英,佛羅里達大學終身教授;現在,他是同盾科技人工智慧研究院的院長。平時與人交談時,他語言溫和,但一旦涉及專業問題時,立即進入學者氣場。
在談及知識聯邦相關話題時,這種轉變尤為明顯。
這是他帶領研究院夥伴們提出的理論體系,希望一種更安全的方式,利用好現有資料,搭建一個開放的智慧大腦,最終推動人工智慧3.0時代的到來。
打破資料孤島上世紀80年代,中國人工智慧專家姚期智曾提出過“百萬富翁”假設:兩個百萬富翁在街頭相遇,他們想知道誰更有錢,但是出於隱私,又不想讓對方知道自己到底擁有多少財富。
姚期智提出用“多方安全計算”方式來解決這一問題。如今的人工智慧領域,正面臨類似的困境,人工智慧的發展進步,離不開大資料,但大家對資料邊界越發重視,又不願資料離開本地。
在李曉林教授看來,這是AI 2.0時代必須要解決的困境。他認為,我們當下經歷的人工智慧熱潮,興起於21世紀第二個十年初期,屬於AI 2.0時代,依託於深度學習理論。
AI 2.0的快速發展,主要依靠三個因素:演算法、算力和大資料。深度學習提供演算法,CPU和GPU提供算力,資訊社會則儲存和提供足夠的資料。
李曉林舉例,谷歌的AlphaGo之所以能實現快速進化,便在於它一共學習了3000萬盤已有的棋局,自己跟自己又下了3000萬盤。
這種依靠海量資料訓練的人工智慧模式,經過初期野蠻發展後,正面臨無資料可用的困境。
原來主要來自兩個方面,首先是資料不足,擁有海量資料的往往只有少數行業,大多數領域的資料往往有限,或者資料質量較差。其次則是“資料孤島”和資料安全使得資料共享越發困難。資料在不同公司間,甚至同一家公司內部,都難以實現無障礙流動。
而資料帶來的隱私暴露或資料洩露,使得加強保護資料安全和隱私保護,成為各國政府的共同選擇。
2018年5月25日,歐盟《通用資料保護條例》(GDPR)正式生效,這個堪稱目前世界範圍內最嚴格的使用者資料保護條款,允許使用者對自己資料擁有完全自主的權利。而美國和中國正在制定類似的隱私和安全法案。
這些現象都預示著,AI 2.0時代,似乎即將因為資料孤島與資料安全,陷入雙重困境。在同盾科技所在的金融科技領域,這一問題尤為重要。銀行等金融機構,迫切想要提高風控水平,卻又對資料安全極端看重,甚至將其作為立身之本。
2019年春天,李曉林加盟同盾科技後,出任合夥人、人工智慧研究院院長,試圖透過“知識聯邦”技術,來解決這一問題。
當年冬天的網易未來大會上,同盾首次提出知識聯邦概念,它不是單一技術方法,而是一套層次化技術框架體系:將散落於不同機構或個人的資料聯合起來,轉換成有價值的知識,並在聯合過程中採用安全協議保護資料隱私。
這一理論提出後發展迅速,已經成長為國內聯邦學習五大代表流派之一。
搭建數字技術生態2017年,為保障資料交換時的資訊保安,保護個人隱私,谷歌公司的科學家在一篇文章裡首次提出聯邦學習概念。理論提出後不久,國內各網際網路公司紛紛搭建團隊,投入相關研究。
李曉林說,矽谷的競爭速度更像是古代戰場:你來一劍,我捅一刀,大家排兵佈陣慢慢打。而在中國,“基本是赤膊角鬥,相當激烈”。
根據國內媒體統計,目前聯邦學習在國內已經形成“五大流派”,分別是微眾銀行主打的聯邦學習,螞蟻金服主攻的共享智慧,平安科技的聯邦智慧,京東數科開展的非同步聯邦學習研究,以及同盾科技推出的知識聯邦理論體系。
要在多方競爭中佔據一席之地,無疑需要具備獨特優勢。李曉林指出,知識聯邦比聯邦學習的範疇更大、更系統,更有層次,“聯邦學習是知識聯邦的一個子集。”
知識聯邦作為一套技術框架體系,與聯邦學習、區塊鏈、隱私計算、安全多方計算等其它技術領域都緊密相關。這些單一技術,在知識聯邦的不同層面各自發揮作用,共同服務於資料“可用不可見”的大目標。
同盾釋出的知識聯邦白皮書顯示,知識聯邦具有三大優勢:第一是全樣本觸達。聯邦後機構間的資料,雖然各自為所有者控制,由於可以觸達更多的資料,其效能甚至會超越維度有限資料的中心化聚集方式。
第二是資料不動模型動。聯邦後的原始資料保留在本地,計算和學習也發生在本地,中心節點僅對參與方模型知識進行安全的聚集。弱中心化模式達成了效率和安全之間的平衡,尤其適合在強監管行業應用。對銀行等金融機構來說,知識聯邦的應用前景尤為廣闊。
第三是知識也可以安全的共享融合。比如參與方透過NLP構建本地的知識圖譜和各種網路節點的關係,再透過知識聯邦來構建更完整的虛擬圖譜,這樣既能幫助識別欺詐團伙,又能提升企業徵信的風控模型。人工的知識也可以融入其中(human in the loop),自主自適應的構建和融合多源知識,提煉出最有效的洞見來做智慧分析與決策。
李曉林說:“在知識聯邦的模式下,模型訓練時每個銀行和金融機構,各自的資料不需對外輸出,甚至連模型的引數都不用給到對方,只需要將模型梯度的變化加密後在密文空間裡安全的聚合。這樣攻擊者不能反推出源資料。”
基於知識聯邦理論體系,同盾科技推出了工業級應用產品智邦平臺(iBond),透過建立相應的任務聯盟,解決不同應用場景需求。
在2020年10月舉辦的全球人工智慧大會智慧金融高峰論壇上,同盾聯合浙江大學、復旦大學、百度大資料實驗室、360集團、平安科技、等學界業界等多家頂尖機構成立“知識聯邦產學研聯盟”,旨在實現資料安全前提下,共同構建優質數字技術生態。
李曉林認為,按照目前人工智慧發展態勢,2040年前後,人工智慧將步入3.0時代,除資料、算力、演算法三要素之外,知識要素將成為第四要素。
開放智慧大腦浮出水面2020年11月,同盾人工智慧研究院釋出知識聯邦技術體系下的資料安全交換(FLEX)協議,並於12月將其開源。該協議中包含一系列的約定,只要遵守這些約定,參與方就可以安全地加入到聯邦,無需擔心資料隱私會有洩漏風險,全面實現資料可用不可見。
協議背後,藏著李曉林和同盾對未來的野心。在李曉林看來,未來肯定不會只有知識聯邦一個聯邦平臺存在。
行業需要一套完整的聯邦資料安全交換標準,讓各個參與方在選擇使用聯邦平臺時有規可依,只要遵循相應標準,不同體系之間同樣可以實現資料交換,知識互通。
一旦參與機構(資料提供者)足夠多,聯邦規模足夠大,資料多樣性就有保障,也就會有更多機構(資料使用者)願意來使用聯邦服務,也會有更多科技型機構(模型和應用開發者)來提供豐富的演算法、模型和應用。
屆時,知識聯邦可以充分發揮平臺作用,對參與機構提供的資料,以及科技機構提供的模型和應用進行評估,將資料作為生產資料的價值發揮到最大。
李曉林將其稱之為電商式的平臺,參與方在資料可用不可見的安全環境中,進行資料、模型應用的交換,甚至可以在區塊鏈等技術的保障下進行自由交易。而知識聯邦作為平臺方,可以對參與方貢獻出的資料和模型評分。
良性迴圈就此建立,李曉林說,知識聯邦的應用範圍,也將不再侷限於某一個行業,而是有可能成為貫穿各行各業的開放的智慧大腦。
上世紀90年代,李曉林在浙大讀書時,人工智慧尚是冷門專業。機器學習課堂上只有五六個學生,圖書館裡的資料大多是過期的油印本。如今的機器學習課堂,500人的教室常常坐滿,課上提出理論,課後甚至可以立刻做出樣品,一個學期的作業就可以做出自動駕駛的原型,行業應用不斷創新。
這一切都讓李曉林覺得,人工智慧的下一個時代或許加速到來,在這其中,必然將有知識聯邦的身影。