「資料饑荒」之後，人工智慧的未來在哪裡？

首頁>科技>信風智庫2019-10-16 13:19

聯邦學習聯邦學習是一種新興的人工智慧基礎技術， 2016 年由谷歌最先提出，原本用於解決安卓手機終端使用者在本地更新模型的問題，其設計目標是在保障大資料交換時的資訊保安、保護終端資料和個人資料隱私、保證合法合規的前提下，在多參與方或多計算結點之間開展高效率的機器學習。

1956年，人工智慧第一次被視為學術學科進行研究和探索。

到今天為止，儘管已經過去了60餘年，但它仍處於起步階段。與其他學科相比，未來的道路崎嶇不平，這主要是由道德倫理和資料可用性的挑戰造成的。

命運多舛的AI

自誕生以來，人工智慧經歷了三大突破點和兩個停滯期。

它最近一次被福斯關注，是在2016年。彼時，Alpha Go成功擊敗了世界排名第一的圍棋選手，這被看作是人工智慧一次「里程碑式的勝利」。

正如許多新興技術那樣，每當它們出現成就巨大的飛躍時，人們都會對它帶來的社會變革和倫理問題進行大量的審視和關注。最終，人工智慧的部分應用在公眾中引起了高度爭議，並從而進入了“幻滅的低谷”。

為什麼人工智慧在發展60多年後，爭議仍然如此巨大？

事實證明，福斯對於人工智慧的「期望」和它當前的「現實」之間有很大的差距。真正能夠運用人工智慧技術的場景仍然極度稀少，而且經常集中在非常特殊的案例上。想要走向主流，人工智慧還有很長的路要走。

由於我們在這個領域並不缺乏遠見，我們看到了懷疑人工智慧今天能真正完成什麼的訊號。現在，在人工智慧第三次崛起的末期，這個新興領域的命運仍然不確定。

凜冬已至

很大程度上，人工智慧的興起是由大資料的可用性推動的。

大資料推動了面部識別、營銷推廣等許多領域深度學習的發展，這一度被視為人工智慧浪潮的主要突破之一。

但在疾病診斷等更復雜的領域，深度學習仍然面臨著企業和機構之間巨大鴻溝的挑戰，一個最主要的問題就是資料的可訪問性。

從整體角度來看，資料是可用的，但有幾個原因是不可評估的。一個常見的問題是資料儲存在孤島中，這些孤島通常是公司內部網路甚至公司內部物理隔離的結果；另一個突出的問題則是資料結構不相容，格式不夠統一，接收方無法拿來直接使用。

結局是，沒有集中的資料中心，通過深度學習機制進行訓練。以往，基於「雲」的計算通常被認為是資料孤島問題的潛在解決方案，但事實證明，對於大量資料來說，這一過程既昂貴又耗時。

此外，還有越來越嚴格的資料隱私法規，例如GDPR（General Data Protection Regulation）。

雖然這些政策對於保護消費者隱私很重要，但它們也對資料的使用施加了嚴重的限制，從而間接影響了人工智慧應用程式未來發展的新方向。

破局的希望

消費者保護措施和資料隱私是不可協商的，也是建立必要信任的底線。但在另一方面，它也帶來了資料饑荒和人工智慧增長放緩的風險。

「聯邦學習」(Federated Learning)這一人工智慧新方法的提出，有可能給行業帶來下一個重大突破，進而克服這波浪潮中的資料隱私和信任挑戰。

聯邦學習是一個機器學習框架，它允許使用者使用分佈在不同位置的多個數據集來訓練機器學習模型，同時防止資料洩露並遵守嚴格的資料隱私法規。實際上，根據資料的分佈特徵，聯合學習有三個主要類別。

橫向聯邦學習（Horizontal federated learning ）根據特徵劃分資料集，通常在特徵重疊多於使用者的情況下實現。

例如，在不同地區運營的三家物流公司可能會保留其消費者的類似資料，但消費者之間的重疊相對較小。因為他們的特徵幾乎相同，所以可以提取具有相同特徵的使用者來訓練模型。

但當多個數據集有很大的使用者重疊但有不同的特徵時，通常使用縱向聯邦學習（Vertical federated learning）。

比如，一家外賣配送機構和在同一地區的醫院可能擁有相似的使用者群，但會跟蹤彼此之間的不同資訊。醫院跟蹤健康資料，而外賣配送機構則跟蹤使用者瀏覽習慣和購買資料等資訊。縱向聯合學習集合了所有的特性，能夠為雙方合作構建一個模型。

當資料集的使用者和特徵之間幾乎沒有重疊時，可以使用聯邦轉移學習（Federated transfer learning）來避免資料或標籤的缺乏。

以中國的製造商和美國的物流提供商為例，由於雙方在地理上都受到限制，使用者之間幾乎沒有重疊。由於它們是不同型別的機構，所以它們的特徵也幾乎沒有重疊。

在這種情況下，聯邦遷移學習就可以與聯邦學習結合使用，以提高模型的整體效能。

儘管聯邦學習在技術層面已經得以實現，但僅靠有效的框架仍不足以完全應對挑戰。

聯邦學習必須開發成商業應用程式，為特定行業提供靈活、互惠的商業模式。通過跨不同機構，聚集多個孤立的資料集，聯邦學習使得開發一個理想模型的夢想正成為可能，還避開了侵犯個人隱私的可能。

簡而言之，這是一種新型的「資料共享經濟」，它通過使用多個利益相關方的資料來訓練演算法。資料持有者通過共享資料資源受益，而應用程式提供商則通過提供服務而受益。