陳根：當我們談論大資料時，我們在談論什麼？

首頁>科技>陳根2021-02-22 09:40

陳根：當我們談論大資料時，我們在談論什麼？

未來的商業競爭，是資料的競爭。

隨著數字經濟在全球的加速推進以及 5G、人工智慧、物聯網等相關技術的快速發展，資料影響商業競爭的關鍵戰略性資源地位的觀點，已經獲得普遍認可。只有獲取和掌握更多的資料資源，才能在新一輪的全球商業競爭中佔據主導地位。

2014年3月，“大資料”一詞首次被寫入政府工作報告，大資料開始成為國內社會各界的熱點。2016年3月，《十三五規劃綱要》正式提出“實施國家大資料戰略”，國內大資料產業開始全面、快速發展。隨著國內大資料相關產業體系日漸完善，各類行業融合應用逐步深入，國家大資料戰略走向深化階段。

2020年，資料正式成為生產要素，資料要素市場化配置上升為國家戰略。可見，“大資料”已經不僅是大量的資料，更進化成一種全新的思維方式和時代標誌。從資料到“大資料”，資料之大，究竟何為？

從體量之大到價值之大

大資料，顧名思義，可以解釋為大量的資料。大資料技術，則是透過獲取、儲存、分析，從大容量資料中挖掘價值的一種全新的技術架構。

從資料的體量來看，傳統的個人電腦、處理的資料，是GB/TB級別的資料。其中，1 KB = 1024 B (KB - kilobyte) ；1 MB = 1024 KB (MB - megabyte) ；1 GB = 1024 MB (GB - gigabyte) ；1 TB = 1024 GB (TB - terabyte) 。比如，硬碟就通常是1TB/2TB/4TB的容量。

而大資料則處理的是PB/EB/ZB級別的資料體量。其中，1 PB = 1024 TB (PB - petabyte) ；1 EB = 1024 PB (EB - exabyte) ；1 ZB = 1024 EB (ZB - zettabyte)。

如果說一塊1TB的硬碟可以儲存大約20萬張的照片或20萬首MP3音樂，那麼1PB的大資料，則需要大約2個機櫃的儲存裝置，儲存約為2億張照片或2億首MP3音樂。1EB，則需要大約2000個機櫃的儲存裝置。

當前，全球資料量仍在飛速增長的階段。根據國際機構 Statista的統計和預測，2020年全球資料產生量預計達到 47ZB，而到2035年，這一數字將達到2142ZB，全球資料量即將迎來更大規模的爆發。換言之，大資料時代已真正降臨。

除了體量之大，大資料真正的“大”還在於其發揮的價值之大。早在1980年，著名未來學家阿爾文·托夫勒在他的著作《第三次浪潮》中，就明確提出“資料就是財富”這一論斷，大資料的核心本質，就是價值。

事實上，社會各界之所以對大資料抱以極大的熱情，認為引入大資料能夠提高自身的競爭力，是因為透過大資料處理與分析，人們能夠洞悉客戶、友商、產品、渠道在各個維度的資訊情報和知識洞見，藉此為創新應用模式及商業模式的設計提供研判線索和技術基礎。

以芝麻信用為例，其從身份特質、行為偏好、人脈關係、信用歷史、履約能力等多個角度對一個自然人的相關資料進行蒐集和匯聚，在此基礎上對個人進行信用研判。根據信用評級就可以進一步進行信用騎行、便利交通、基礎通訊、信用借還、信用回收等一系列產品的設計和運維。

此外，作為一種商品，資料可以買賣，可以增值，這也是大資料時代的一個基本特徵。

國外資料交易大致開始於2008年，一些前瞻性的企業開始加大對資料業務的投入。初見端倪的資料應用新業態包括“資料市場”、“資料銀行”、“資料交易公約”等，知名資料服務商則有Microsoft資料市場、Amazon公共資料集、Oracle線上資料交易等。

國內資料交易則起步於2010年左右。2015年9月，我國發布的《促進大資料發展行動綱要》中明確提出要引導培育大資料交易市場，開展面向應用的資料交易市場試點，探索開展大資料衍生產品交易，建立健全資料資源交易機制和定價機制。

可以說，不同利益主體迥異的價值期望都是大資料價值實現的目標，也正因為大資料的“大價值”，才引發了社會各界對大資料的普遍關注。

在向好裡審慎大資料的未來

大資料的價值在2020年疫情的強壓力測試下得以彰顯。

比如，透過大資料可以對疫情監測追蹤和防控救治。在疫情趨勢研判、流行病學調查、輿情資訊動態、人員遷徙和車輛流動、資源調配和物流運輸等方面，透過政企合作開發大資料分析產品或服務，為政府、企業和公眾提供實時動態的資訊以輔助決策。

諸多大資料企業和網際網路平臺發揮了大資料技術的優勢，為人們提供線上教育、線上醫療、遠端辦公、無接觸外送、線上娛樂等服務，大批中小微企業開啟數字化轉型。

在大資料技術一片利好的景況下，大資料實現狂飆突進。但也正因為如此，我們才更應認真審視大資料的發展和未來。

其中，資料的品質——資料的準確性、完整性、可追溯性、持續性、真實性和共享性，決定了大資料價值實現的最終成果。針對特定領域的資料集越龐大、越真實、越準確、越可追溯、維度越豐富、越協同共享，越能得出最佳演算法並帶來競爭優勢。

然而，從準確度來看，儘管使用者源源不斷地產生資料，對於企業來說，資料的收集和儲存能力並不構成障礙，但90%的資料沒有被真正利用起來，成了“廢資料”。

資料的準確性，特別要強調與特定場景的相關度。比如，傳媒、金融、醫療等各行業需要的細分資料不同，具體到同一行業的子領域也不同。比如，在醫療領域，心血管疾病和癌症診斷所要的細分資料就不一樣。但現下，大部分人工智慧的應用場景，都是針對一個具體的任務。

就融通和共享來看，資料的品質也並不理想。政府服務方面，來自各個部門、各個渠道的資料口徑不規範、標準不統一、時間不準確、可信度不高等問題較為普遍。並且，資料質量堪憂，資料資源統籌管理不足，導致資料散而不聚、聚而不通、通而難用。

而促進政務資料、公共資料共享開放的制度規章和政策措施也還不健全，限制資料有序安全流動的體制機制障礙仍然存在，資訊孤島、資料壁壘問題突出。分級分類、權責清晰的資料管理制度體系還未建立。資料要素市場培育發展滯後，資料交易流通體系建設尚處探索初期，企業間、行業間資料共享開放不理想。

除了資料的品質外，大資料的最大挑戰，就是安全。資料是資產，也是隱私。沒有人願意自己的隱私被暴露。所以，人們對自己的隱私保護越來越重視。對資料安全和個人隱私的保護，是大資料行穩致遠的重要因素。

然而，現階段，卻尚未建立起適用於大資料環境下的資料分類分級安全保護制度。個人資訊保護和資料安全管理跟不上快速發展的形勢需要，存在個人隱私洩漏、資料洩露以及資料濫採濫用、不當使用和違規違法交易資料等風險。而即使企業合法獲取資料，也要擔心是否會被惡意攻擊和竊取。

最後，資料監管仍相對滯後。行業、企業及機構資料龐雜分散和集中集聚現象並存，網際網路巨頭存在利用資料不公平競爭、限制競爭的壟斷風險，針對大資料“殺熟”、平臺“二選一”等問題的資料和演算法監管相對空白。

近年來，大資料技術的內涵伴隨著大資料時代的發展產生了一定的演進和拓展，從基本的面向海量資料的儲存、處理、分析等需求的核心技術延展到相關的管理、流通、安全等其他需求的周邊技術，逐漸形成了一整套大資料技術體系，成為資料能力建設的基礎設施。

如今，大資料已進入一個新的發展階段，一個需要技術、產業和制度、標準協同推進的新階段。大資料作為一個時代熱詞，更代表了一種全新的思維方式和時代標籤。時代誕生了大資料技術，大資料技術也正重塑著時代。

最新評論

∧ 整治雙十一購物亂象，國家再次出手！該跟這些套路說再見了

∨ 跨境電商和外貿如何選擇FBA頭程物流，瞭解這幾點你絕不會吃虧

熱門排行

劇多

陳根：當我們談論大資料時，我們在談論什麼？