關於大資料的書籍和文章鋪天蓋地,似乎在一起傳遞著一個資訊:越來越多的行業和人們開始關注並實際探索大資料的應用。我們正在一起為大資料的巨大效用繪製藍圖,但在實踐中,我們仍在初級階段邁出一小步。
大資料根源基於網際網路,資料倉庫、資料探勘、雲計算等網際網路技術的發展為大資料的應用奠定了基礎。然而,實際應用仍在探索中。
什麼是大資料?
列舉三個常用的大資料定義:
(1)具有較強決策、洞察和流程最佳化能力的海量、高增長、多樣化的資訊資產需要新的處理模式。
——Gartner
(2)海量資料量、快速資料流和動態資料速度、多樣的資料型別和巨大的資料價值。
—— IDC
(3)或者是海量資料、海量資料、大資料,是指所涉及的資料太大,無法在合理的時間內被擷取、管理、處理、整理成人類可以解讀的資訊。
—— Wiki
大資料的其他定義也差不多,可以用幾個關鍵詞來定義大資料。
首先是“大尺度”,可以從兩個維度來衡量,一是從時間序列中積累大量資料,二是對資料進行深度提煉。
其次,“多樣化”可以是不同的資料格式,比如文字、圖片、影片等。,可以是不同的資料類別,如人口資料、經濟資料等。,也可以有不同的資料來源,如網際網路和感測器等。
第三,“動態”。資料是不斷變化的,它可以隨著時間迅速增加大量的資料,也可以是在空間不斷移動變化的資料。
這三個關鍵詞定義了大資料的形象。
但是,需要一個關鍵能力,就是“處理速度快”。如果有這樣的大規模、多樣化、動態的資料,但是需要很長時間的處理和分析,那就不叫大資料。從另一個角度來說,要實現這些資料的快速處理,肯定沒有辦法手工實現,所以需要藉助機器來實現。
最後,藉助機器,我們可以快速處理和分析這些資料,以獲得所需的資訊或整個應用系統,這可以稱為大資料。
最新評論