首先,要搞清楚大資料的技術脈絡,任何大資料技術能解決的任務,其實可以簡單歸結為下面四個型別:
儲存,儲存是最基本的任務,如此大量的資料該如何儲存,這是大資料出現伊始就需要解決的問題。
處理,如此大量的資料當然不是僅僅放在某個地方,我們需要對大資料進行相應的處理,例如清洗、計算統計等等。舉個例子,我們可以很輕鬆的完成十道小學計算題,但是如果讓你在短時間內完成一萬道類似的計算題,該如何設計方法呢?
檢索,如何從大量的資料中取得想要的資料?我們可以從一副撲克牌中迅速找到我們那張我們想要的牌,如果現在有一千副牌呢?
智慧,這裡我找不到合適的詞來概括此類任務,例如資料探勘、機器學習等任務都能歸結在這個型別。本質就是如何從大資料中,做出對歷史經驗的總結或者對未來的預測。
如果需要自學,其實可以好好根據上述的幾個型別出發,搞懂現在主流的大資料技術框架是處理哪一部分任務的,例如Hadoop剛提出時的MapReduce,主要是用於大資料處理,HDFS是用於儲存。後面的一系列新框架,無非是在這些任務基礎上進行的改進與演化,比如Spark優化了MapReduce,使得資料處理更加簡單、快速。
首先,要搞清楚大資料的技術脈絡,任何大資料技術能解決的任務,其實可以簡單歸結為下面四個型別:
儲存,儲存是最基本的任務,如此大量的資料該如何儲存,這是大資料出現伊始就需要解決的問題。
處理,如此大量的資料當然不是僅僅放在某個地方,我們需要對大資料進行相應的處理,例如清洗、計算統計等等。舉個例子,我們可以很輕鬆的完成十道小學計算題,但是如果讓你在短時間內完成一萬道類似的計算題,該如何設計方法呢?
檢索,如何從大量的資料中取得想要的資料?我們可以從一副撲克牌中迅速找到我們那張我們想要的牌,如果現在有一千副牌呢?
智慧,這裡我找不到合適的詞來概括此類任務,例如資料探勘、機器學習等任務都能歸結在這個型別。本質就是如何從大資料中,做出對歷史經驗的總結或者對未來的預測。
如果需要自學,其實可以好好根據上述的幾個型別出發,搞懂現在主流的大資料技術框架是處理哪一部分任務的,例如Hadoop剛提出時的MapReduce,主要是用於大資料處理,HDFS是用於儲存。後面的一系列新框架,無非是在這些任務基礎上進行的改進與演化,比如Spark優化了MapReduce,使得資料處理更加簡單、快速。