如果說人工智慧是一輛飛奔的豪華跑車,那麼資料就是提供強勁動力的燃料,這種能源不僅要充沛,還要確保品質。否則,就會產生瑕疵影響跑車的速度和行進軌道,甚至會引發AI的“風險”。
資料顯示,如果大資料被充分利用,全球企業將額外獲得1.6萬億美元的數字紅利。當然,前提是要對海量資訊進行分析,無論是深度學習還是神經網路,最終都要轉換為產品或服務惠及使用者。數字經濟、分享經濟、工業4.0...背後都少不了大資料和雲端計算的支援。
然而,就像柴油注入汽油車會出問題,也不是任何資料對人工智慧都有積極作用,不少案例已經可以證明這一點。例如,有些聊天機器人在網路上學習了負面評論,就會變得“尖酸刻薄”甚至引發了種族歧視問題。可見,資料的開源性固然重要,但如何找到有品質的資料對AI發展有著決定性的影響,尤其是在受到高度監管的行業。
現在,人工智慧涉及的領域非常廣泛,工業、航天、商業都有應用,並且已經深入人們的生活,開啟手機中的Cortana或者Siri,這就是AI的產物。要知道,在幾十年前,這種超前的技術是不受認可的,教授相關課程的學校也是寥寥無幾。究其原因,主要就是資料的積累和應用。高容量儲存裝置豐富了資料量的留存,隨著資料的不斷增加,人們開始在其中發現某種規律,引發了分析的需求。
分析讓大量的資料有了價值,機器開始懂得使用者想要什麼,可以預測未來的天氣和球賽的比分,這種人工智慧與場景的結合,要實現的就是改變生活方式和解放生產力。具體來說,很多過去只有人能做的事情,現在更多的情況下能夠通過機器實現,典型的例子包括語音助手、無人駕駛汽車。更重要的是,當硬體效能逐漸提升、計算資源越來越強大時,成本卻越來越低廉。
網際網路時代的快節奏讓資料也跑在快車道上,鬆懈不得。以城市交通治理為例,每天在城市道路上都在發生著堵車或者事故,如果做不到對資料的實時分析就難以立刻找到有效的疏通辦法,而在上下班高峰期時的交通堵塞往往因為某一個訊號燈故障就會引發。
要知道,AI的思考方式與人類有著本質區別。舉個例子,計算機在進行視覺訓練時,如果用1萬把椅子的照片讓其學習,人的固有思維會先記住椅子外觀的關鍵組成部分,比如椅背和椅子腿。而對於機器學習來說,它們或許會找到一些新的特徵,並對這些特徵進行歸納來識別出一把新的椅子。這一過程中,需要有海量、不同的椅子照片供給計算機去學習。
資料分析所用的map-reduce演算法可將資料分解為多個部分,利用hadoop叢集對每一部分的資料進行分析,之後將效果彙總經過多輪計算篩選出結果。解析過程中,對每輪結果的優化又會引入Spark這種快速通用的計算引擎。如果強調實時資料處理,也會用到storm等計算框架。
不過,如果資料本身是有瑕疵的,那麼不管是有意還是無意,人工智慧系統都會基於這樣的資料進行訓練,帶來的後果可想而知。舉個例子,一個信用卡稽核系統要是用有偏差的資料構建解決方案,就會對某一類的申請人給初帶有偏見性的結論。往壞處想,這或許就是馬斯克眼中“AI毀滅人類”的開端。
資料影響著模型的訓練品質,而資料本身的傳輸也經受著安全考驗,資料傳輸是導致網路威脅的誘因,而傳統的流量檢測對監控和警報有效,慣用方法是對映接入點或建立測試點,包括在內外網之間建立安全層,但這種方式所帶來的經濟成本卻難以忽視。同時,黑客也可以定位路由器、交換機等資料中心網路裝置的位置,從而在獲取控制權後進行跨網攻擊。
由此來看,人們需要藉助資料在多重的維度當中,既包括在雲端,也包括在雲邊緣得到相應的解答,這是很難做到的。同時,人們還要做到公正和多樣性,當然現在只能用一組系統處理一個數據,但是人們還沒辦法在多種情景下進行部署。AI並不是萬能的,如果稍有不慎,AI或許就會偏離航道。