傳統的資料庫,一般都是資料集很小,而且是基於機構化、關係性的資料做來分析、預測和判斷的。而大資料,首先,關鍵詞在於“大”。什麼樣的量級才能叫大資料呢?反正G和T的單位都是遠遠不夠的,但卻又沒有具體的計量標準。
其次,大資料的資料結構與普通資料庫不同。大資料中的資料是多樣化的,包括結構化、半結構化和非結構化的資料,而非結構化的資料是大資料的主要部分,大概佔到了80%左右,而且這種非結構化的資料每年都按指數增長60%。
而正是因為大資料中的資料過於零散,所以才需要強大的資料處理能力來處理這些海量的、快速增長的資料。這個時候,就該雲計算出場了。大資料真正的意義並不在於掌握龐大的資料資訊,再多零散的資訊給到你又有什麼用的?他真正的價值在於對這些資料進行專業化處理,透過對資料的加工,實現對有價值資訊的獲取。
其實,大資料這個概念大約在1980年就被提出過,卻是到了2009年才開始慢慢流行起來。根據美國網際網路資料中心的報告,網際網路上的資料每年都增長50%,每兩年將會翻一番,而目前世界上90%以上的資料都是近幾年才產生的。
什麼資料能成為大資料呢?不僅僅是咱們在網際網路上釋出的資訊,還有日常生活中透過網路產生的衣食住行資訊,以點外賣這個動作舉例,你什麼時候點的外賣,點的什麼食品,通常是幾個人的量,售後地址在哪裡,會留下什麼特殊備註,對菜品的評價偏好等等,都會被一一記錄下來。隨著時間縱深的發展,你的一個微小的動作,縱向積累久了,也就變成大資料了。同時,你這個動作與你其他的動作資料關聯起來,又形成了橫向的大資料。也就是說,你就是一個移動的資料製造機。
記得馬雲曾經說過,大家還沒搞清PC時代的時候,移動網際網路來了;還沒搞清移動網際網路的時候,大資料來了。大資料的意義是由人類日益普及的網路行為所伴生的,而大資料的騰飛又是與移動網際網路、雲計算、物聯網、人工智慧的應用捆綁在一起的,正是因為人類活動有了海量的資料,才有了對資料處理的需求。
你以為“阿爾法狗”憑什麼打敗柯潔?並不是表面的一臺機器和一個人的對弈,而是一群計算科學家和一個人的對弈。“阿爾法狗”的背後,就是大資料和人工智慧!
大資料,就是big data,足夠大、足夠複雜,所以我們稱其為“海量”。海量到需要一個龐大的平臺來儲存,這個稱為“雲平臺”;海量到需要一個複雜的計算程式來分析、提煉和預測,這個稱為“雲計算。”
區塊鏈也與資料有關,它是一種按序整理成區塊的鏈式資料結構,透過網路中多個節點共同參與資料的計算和記錄,並且相互驗證資料的真實和有效性。所以,區塊鏈從一定程度上來說也是一種資料庫,但是是一種去中心化的、分散式的資料庫,更安全、更便捷。
除此之外,大資料和區塊鏈還有著如下的差異:
1. 結構化和非結構化的差異:區塊鏈是結構嚴謹的塊,是嚴格意義的結構化資料;而大資料需要處理的大多是非結構化的資料。
2. 獨立和整合的差異:區塊鏈系統為保證安全性,資訊是相對獨立的,而大資料則需要大量的整合分析。
3. 直接和間接的差異:區塊鏈系統本身就是一個數據庫,是可以直接使用的資料;大資料還需要對資料進行深度的分析和挖掘,是一種間接的資料。
4. 數學和資料的差異:區塊鏈試圖用數學和程式碼說話,而大資料只能用資料說話。
5. 匿名和個性的差異:區塊鏈是匿名的,而大資料則是想做個性化的資料分析。
說了這麼多,大概說明白了大資料和區塊鏈是不一樣的,但是他們並不是完全不相關的兩樣,因為區塊鏈和大資料今後是可以互相融合、互相促進的。
區塊鏈是不可篡改的、全歷史的、分散式的資料庫儲存技術,巨大的區塊鏈資料集合包含著每一筆交易的全部歷史。隨著技術的發展、時間的推移,區塊鏈中的資料規模肯定會越來越大。
而因著區塊鏈不可篡改的特性、可追溯性,使得錄入到區塊鏈中的每一個數據的有效性得到了提升,資料的質量得到了前所未有的提高,很多資料空間會被解放出來,這樣獲得的資料最後透過雲計算分析和挖掘出來的結果信度和效度都會特別高。
也就是說,在大資料中利用區塊鏈技術提取資料,或者在區塊鏈中使用大資料的儲存和計算平臺,都能有效促進兩者的協同發展,共同構建未來資料社會的基礎。
關注區塊戀,輕輕鬆鬆看懂區塊鏈
傳統的資料庫,一般都是資料集很小,而且是基於機構化、關係性的資料做來分析、預測和判斷的。而大資料,首先,關鍵詞在於“大”。什麼樣的量級才能叫大資料呢?反正G和T的單位都是遠遠不夠的,但卻又沒有具體的計量標準。
其次,大資料的資料結構與普通資料庫不同。大資料中的資料是多樣化的,包括結構化、半結構化和非結構化的資料,而非結構化的資料是大資料的主要部分,大概佔到了80%左右,而且這種非結構化的資料每年都按指數增長60%。
而正是因為大資料中的資料過於零散,所以才需要強大的資料處理能力來處理這些海量的、快速增長的資料。這個時候,就該雲計算出場了。大資料真正的意義並不在於掌握龐大的資料資訊,再多零散的資訊給到你又有什麼用的?他真正的價值在於對這些資料進行專業化處理,透過對資料的加工,實現對有價值資訊的獲取。
其實,大資料這個概念大約在1980年就被提出過,卻是到了2009年才開始慢慢流行起來。根據美國網際網路資料中心的報告,網際網路上的資料每年都增長50%,每兩年將會翻一番,而目前世界上90%以上的資料都是近幾年才產生的。
什麼資料能成為大資料呢?不僅僅是咱們在網際網路上釋出的資訊,還有日常生活中透過網路產生的衣食住行資訊,以點外賣這個動作舉例,你什麼時候點的外賣,點的什麼食品,通常是幾個人的量,售後地址在哪裡,會留下什麼特殊備註,對菜品的評價偏好等等,都會被一一記錄下來。隨著時間縱深的發展,你的一個微小的動作,縱向積累久了,也就變成大資料了。同時,你這個動作與你其他的動作資料關聯起來,又形成了橫向的大資料。也就是說,你就是一個移動的資料製造機。
記得馬雲曾經說過,大家還沒搞清PC時代的時候,移動網際網路來了;還沒搞清移動網際網路的時候,大資料來了。大資料的意義是由人類日益普及的網路行為所伴生的,而大資料的騰飛又是與移動網際網路、雲計算、物聯網、人工智慧的應用捆綁在一起的,正是因為人類活動有了海量的資料,才有了對資料處理的需求。
你以為“阿爾法狗”憑什麼打敗柯潔?並不是表面的一臺機器和一個人的對弈,而是一群計算科學家和一個人的對弈。“阿爾法狗”的背後,就是大資料和人工智慧!
大資料,就是big data,足夠大、足夠複雜,所以我們稱其為“海量”。海量到需要一個龐大的平臺來儲存,這個稱為“雲平臺”;海量到需要一個複雜的計算程式來分析、提煉和預測,這個稱為“雲計算。”
區塊鏈也與資料有關,它是一種按序整理成區塊的鏈式資料結構,透過網路中多個節點共同參與資料的計算和記錄,並且相互驗證資料的真實和有效性。所以,區塊鏈從一定程度上來說也是一種資料庫,但是是一種去中心化的、分散式的資料庫,更安全、更便捷。
除此之外,大資料和區塊鏈還有著如下的差異:
1. 結構化和非結構化的差異:區塊鏈是結構嚴謹的塊,是嚴格意義的結構化資料;而大資料需要處理的大多是非結構化的資料。
2. 獨立和整合的差異:區塊鏈系統為保證安全性,資訊是相對獨立的,而大資料則需要大量的整合分析。
3. 直接和間接的差異:區塊鏈系統本身就是一個數據庫,是可以直接使用的資料;大資料還需要對資料進行深度的分析和挖掘,是一種間接的資料。
4. 數學和資料的差異:區塊鏈試圖用數學和程式碼說話,而大資料只能用資料說話。
5. 匿名和個性的差異:區塊鏈是匿名的,而大資料則是想做個性化的資料分析。
說了這麼多,大概說明白了大資料和區塊鏈是不一樣的,但是他們並不是完全不相關的兩樣,因為區塊鏈和大資料今後是可以互相融合、互相促進的。
區塊鏈是不可篡改的、全歷史的、分散式的資料庫儲存技術,巨大的區塊鏈資料集合包含著每一筆交易的全部歷史。隨著技術的發展、時間的推移,區塊鏈中的資料規模肯定會越來越大。
而因著區塊鏈不可篡改的特性、可追溯性,使得錄入到區塊鏈中的每一個數據的有效性得到了提升,資料的質量得到了前所未有的提高,很多資料空間會被解放出來,這樣獲得的資料最後透過雲計算分析和挖掘出來的結果信度和效度都會特別高。
也就是說,在大資料中利用區塊鏈技術提取資料,或者在區塊鏈中使用大資料的儲存和計算平臺,都能有效促進兩者的協同發展,共同構建未來資料社會的基礎。
關注區塊戀,輕輕鬆鬆看懂區塊鏈