大資料是隨著近年來網際網路應用的蓬勃發展而興起的,主要解決了網際網路上資料產生的速度快、結構不規則、資料量大並且有價值的資料比較分散的資料儲存和利用的方案。
一般認為,大資料主要具有以下四個方面的典型特徵:規模性(Volume)、多樣性(Varity)、高速性(Velocity)和價值性(Value), 即所謂的“4V”。
1.規模性。隨著資訊科技的高速發展,資料開始爆發性增長。社交網路(微博、推特、臉書)、行動網路、各種智慧終端等,都成為資料的來源。淘寶網近4億的會員每天產生的商品交易資料約20TB;臉書約10億的使用者每天產生的日誌資料超過300TB。迫切需要智慧的演算法、強大的資料處理平臺和新的資料處理技術,來統計、分析、預測和實時處理如此大規模的資料。
2.多樣性。大資料大體可分為三類:一是結構化資料,如財務系統資料、資訊管理系統資料、醫療系統資料等,其特點是資料間因果關係強;二是非結構化的資料,如影片、圖片、音訊等,其特點是資料間沒有因果關係;三是半結構化資料,如HTML文件、郵件、網頁等,其特點是資料問的因果關係弱。
3.高速性。大資料的交換和傳播是透過物聯網、移動網際網路、雲計算等方式實現的,因此對處理資料的響應速度有更嚴格的要求。
4.價值性。這也是大資料的核心特徵。現實世界所產生的資料中,有價值的資料所佔比例很小。相比於傳統的小資料,大資料最大的價值在於透過從大量不相關的各種型別的資料中,挖掘出對未來趨勢與模式預測分析有價值的資料,並透過機器學習方法、人工智慧方法或資料探勘方法深度分析,發現新規律和新知識,並運用於農業、金融、醫療等各個領域,從而最終達到改善社會治理、提高生產效率、推進科學研究的效果。
綜上所述,大資料是建立在分散式資料庫、分散式檔案儲存等資料儲存方案之上的,並透過資料探勘、人工智慧、機器學習等一系列手段進行資料分析利用的一類解決方案的統稱。
可以認為資料庫是大資料中一個重要的子範疇,解決了大資料儲存和讀寫的問題。如果能結合資料探勘、機器學習等資料科學的手段,讓大資料發揮出更大價值,那將可以形成一個大的資料生態鏈。
大資料是隨著近年來網際網路應用的蓬勃發展而興起的,主要解決了網際網路上資料產生的速度快、結構不規則、資料量大並且有價值的資料比較分散的資料儲存和利用的方案。
一般認為,大資料主要具有以下四個方面的典型特徵:規模性(Volume)、多樣性(Varity)、高速性(Velocity)和價值性(Value), 即所謂的“4V”。
1.規模性。隨著資訊科技的高速發展,資料開始爆發性增長。社交網路(微博、推特、臉書)、行動網路、各種智慧終端等,都成為資料的來源。淘寶網近4億的會員每天產生的商品交易資料約20TB;臉書約10億的使用者每天產生的日誌資料超過300TB。迫切需要智慧的演算法、強大的資料處理平臺和新的資料處理技術,來統計、分析、預測和實時處理如此大規模的資料。
2.多樣性。大資料大體可分為三類:一是結構化資料,如財務系統資料、資訊管理系統資料、醫療系統資料等,其特點是資料間因果關係強;二是非結構化的資料,如影片、圖片、音訊等,其特點是資料間沒有因果關係;三是半結構化資料,如HTML文件、郵件、網頁等,其特點是資料問的因果關係弱。
3.高速性。大資料的交換和傳播是透過物聯網、移動網際網路、雲計算等方式實現的,因此對處理資料的響應速度有更嚴格的要求。
4.價值性。這也是大資料的核心特徵。現實世界所產生的資料中,有價值的資料所佔比例很小。相比於傳統的小資料,大資料最大的價值在於透過從大量不相關的各種型別的資料中,挖掘出對未來趨勢與模式預測分析有價值的資料,並透過機器學習方法、人工智慧方法或資料探勘方法深度分析,發現新規律和新知識,並運用於農業、金融、醫療等各個領域,從而最終達到改善社會治理、提高生產效率、推進科學研究的效果。
綜上所述,大資料是建立在分散式資料庫、分散式檔案儲存等資料儲存方案之上的,並透過資料探勘、人工智慧、機器學習等一系列手段進行資料分析利用的一類解決方案的統稱。
可以認為資料庫是大資料中一個重要的子範疇,解決了大資料儲存和讀寫的問題。如果能結合資料探勘、機器學習等資料科學的手段,讓大資料發揮出更大價值,那將可以形成一個大的資料生態鏈。