什麼是大資料？大資料如何發揮作用？讀這一篇就夠了

首頁>其它>略懂的小咖2019-10-01 00:49

什麼是大資料？大資料如何發揮作用？讀這一篇就夠了

大家好，我是一個位元組。

靈魂第一問：我是誰？

我是表示資料量的基本單位。

大家平時看到的MB、GB、TB就是很多個我湊在一起，這些都是可以表示資料儲存量的計量單位。

1024個我組成1個KB，1024個KB組成1個MB，1024個MB組成1個GB，1024個GB組成1個TB……

靈魂第二問：我從哪裡來？

別動！你現在手指劃過螢幕就在產生資料。

你剛剛點選關注小咖的公號（沒關注的現在就動動你手指，點選標題下面的藍字關注我們）、你看完文章點“在看”，你在留言區給我留言，你看完文章後轉發朋友圈，所有的這些都在產生資料。

你的每一個上網行為會產生資料；你現在用的手機在工廠裡生產製造時，自動化生產線會產生資料；之後你在京東商城買手機，會產生交易資料，手機送到你手上的過程還會產生物流資料……

很多人說，我們將成為和石油一樣重要的資源。資料中蘊藏著未來的重要商機、推動社會進步以及科學發現的動力。可現實情況似乎並不樂觀，有個叫IDC的知名分析機構說了，過去兩年建立的那些我的同族們，其中只有不到 2% 的經過了分析。

我想，可能是因為我們和石油一樣，同樣需要被勘探與挖掘，而這個過程都不簡單。在我們資料一族，這種“挖掘與勘探”的過程被稱為資料分析與洞察，這讓我們產生價值。

很多很多個我們湊在一起，人們習慣把我們叫作“大資料”。如果只是單獨的一個我，或者很少的幾個我們，是無法產生價值的。所以，讓我們發揮價值的第一步是要蒐集資料，第二步是分析資料，第三步是根據資料分析結果做出決策。這些都需要依託於計算機系統的計算能力與儲存能力。

而我們資料一族又有很多種，有些被人們叫做結構化資料，簡單來說就是資料庫，比如企業ERP、財務系統、醫療HIS資料庫、政府行政審批、其他核心資料庫產生的資料；有些被人們叫做非結構化資料，他們“偽裝成”視訊、音訊、圖片、影象、文件、文字等形式。非結構化資料是資料結構不規則或不完整，沒有預定義的資料模型，不方便用資料庫二維邏輯表來表現的資料。

有位牛津大學教授名叫維克托·邁爾-舍恩伯格，人們將他奉為“大資料之父”，他在《大資料時代》的書中寫道：“只有5%的數字資料是結構化的且能適用於傳統資料庫。”企業要想採用智慧分析、影象識別等一系列先進演算法來使大資料結構化，是需要付出高額花費的。

靈魂第三問：要到哪裡去？

聽說，現在我的同族太多太多了，而且，還總在源源不斷地冒出來，我們出現的這種方式被人們叫做“資料洪流”。

據IDC在2018年11月公佈的資料來看，全球超過一半的資料創建於過去兩年。預計從2018到2023年，全球資料空間的複合增長率（CAGR）將達25.8%。海量資料的產出已經成為日常。隨著數字化程序的加速，各種來源的資料都在以 GB、TB 甚至 PB 級的規模出現。

人們發現，比資料量更值得關注的是資料價值，後者來自資料分析及其中所蘊含的洞察。資料中可能蘊藏著未來的重要商機、推動社會進步以及科學發現的動力。

於是，企業資料的儲存與處理能力也在不斷受到挑戰。Gartner副Quattroporte兼傑出分析師Donald Feinberg就曾經表示：“資料量正在快速增多，實時將資料轉化成價值的緊迫性也在同樣快速增加。新的伺服器工作負載不僅需要更快的CPU效能，而且還需要大容量記憶體及更快的儲存。”

雲端計算來了以後，我就經常出現在資料中心裡。伺服器比我早些年經常待的PC機空間大了不少，不過CPU依舊是“寸土寸金”，同樣，越接近CPU，資料的存取速度越快。雖然CPU片上的快取記憶體時延為納秒級，不過主流伺服器上的CPU快取基本上也只能接近100MB。以往，這一重任落在DRAM記憶體上（動態隨機存取儲存器 Dynamic Random Access Memory)。但通常，DRAM記憶體容量也比較小，要換裝大容量的又成本太高。而且一斷電，記憶體上我的族群們就會全部走丟，所以，之後系統和應用在重新啟動時，還需要花費相當多的時間去重新把他們找回來，載入到記憶體中。

人們為了我們資料家族可真是操碎了心。整個行業都在採用基礎設施創新、多種工具與手段、以及最佳實踐等方法來推動資料分析和挖掘，也取得了很多的成果。隨著資料量和種類的增多，使用者期待以越來越快的速度獲取資料洞察。

真正有效利用所有資料，促進資料流動，提升資料的可處理性，一直是人們所關心的，現在，需要尋找機會突破資料吞吐量的瓶頸，我們的更多價值才能夠被發現。

為了讓我的族群可以多一層緩衝，更流暢地流動、被處理和被分析，減少我們加速“換檔”時的“頓挫感” ，英特爾推出了傲騰資料中心級持久記憶體，這是位於DRAM記憶體層和儲存層之間的一種新型記憶體。

我發現，在Gartner釋出的2019年十大資料與分析技術趨勢裡，“持久記憶體伺服器”就位列其中。

英特爾傲騰資料中心級持久記憶體既可以是記憶體，也可以是儲存，它可以通過兩種特殊的執行模式—— App Direct模式和記憶體模式來實現獨特的能力。利用 App Direct模式，經過專門除錯的應用程式可從產品固有的永續性中充分獲取價值並獲得更大的容量；在記憶體模式下，可將該產品用作易失性儲存，從而在無需重寫軟體的情況下有效利用最高達512GB的記憶體模組。如果使用者既對記憶體模式有需求，又有工作負載需要執行在 App Direct 模式下，那麼，英特爾傲騰TM 資料中心級持久記憶體就可啟用第三種工作模式——雙重模式。

現在，已經有很多在雲基礎設施及資料分析任務中被記憶體資源不足所困擾的企業，採用了英特爾傲騰資料中心級持久記憶體來緩解壓力。

百度Feed 流服務的核心模組Feed-Cube 逐步從純 DRAM 記憶體的配置模式遷移至純英特爾傲騰資料中心級持久記憶體的配置，其系統構建成本也隨之不斷降低，百度卓有成效地降低了總擁有成本。

微軟Windows Server 2019/Hyper-V多租戶虛擬化的聯機事務處理 (On-Line Transaction Processing，OLTP)雲基準測試中，使用DRAM記憶體和英特爾傲騰資料中心級持久記憶體組合的平臺，與僅使用DRAM記憶體的平臺相比，記憶體容量提升達33%，每節點虛擬機器數量提升達到36%，使每臺虛擬機器的硬體成本降低30%。

SAP的大型資料計算平臺HANA分別在3TB DRAM記憶體平臺和3TB DRAM記憶體+6TB英特爾傲騰資料中心級持久記憶體平臺上進行了效能測試。結果表明，後者可以讓系統重啟速度從20分鐘縮短到90秒，大幅減少的停機時間可以使每TB資料庫容量的成本節約 39%。

英特爾傲騰資料中心級持久記憶體填補了記憶體/儲存金字塔中的重要缺口

英特爾傲騰資料中心級持久記憶體提供的新記憶體層，為高效能工作負載提供經濟高效的大容量記憶體。第二代英特爾至強可擴充套件處理器所支援的傲騰資料中心級持久記憶體能夠以更快的速度為每個平臺提供更大的總記憶體容量，以更快的速度進行對持久資料的位元組可定址訪問。

英特爾傲騰資料中心級持久記憶體，與英特爾第二代至強可擴充套件處理器相輔相承，將雲和資料庫中的關鍵資料工作負載轉為記憶體分析和分發網路，讓資料從負擔變“富礦”。

正如兩河流域的洪流哺乳了人類古老文明一樣，英特爾傲騰資料中心級持久記憶體成為DRAM記憶體層和儲存層之間的一種新型記憶體。作為一個位元組，我和我的族人們在這裡匯聚，這裡蘊藏著無數的機遇與挑戰。

130

∨ Facebook訂閱服務平臺實現數字廣告、付費訂閱"兩手抓"

劇多

什麼是大資料？大資料如何發揮作用？讀這一篇就夠了

大資料

資料庫

中央處理器

英特爾

雲端計算