想從事大資料、海量資料處理相關的工作，如何自學打基礎？

首頁>Club>焦澤山2021-04-30 04:55

想從事大資料、海量資料處理相關的工作，如何自學打基礎？

9

回覆列表

1 # 面向股市程式設計

首先，要搞清楚大資料的技術脈絡，任何大資料技術能解決的任務，其實可以簡單歸結為下面四個型別：

儲存，儲存是最基本的任務，如此大量的資料該如何儲存，這是大資料出現伊始就需要解決的問題。

處理，如此大量的資料當然不是僅僅放在某個地方，我們需要對大資料進行相應的處理，例如清洗、計算統計等等。舉個例子，我們可以很輕鬆的完成十道小學計算題，但是如果讓你在短時間內完成一萬道類似的計算題，該如何設計方法呢？
檢索，如何從大量的資料中取得想要的資料？我們可以從一副撲克牌中迅速找到我們那張我們想要的牌，如果現在有一千副牌呢？

智慧，這裡我找不到合適的詞來概括此類任務，例如資料探勘、機器學習等任務都能歸結在這個型別。本質就是如何從大資料中，做出對歷史經驗的總結或者對未來的預測。

如果需要自學，其實可以好好根據上述的幾個型別出發，搞懂現在主流的大資料技術框架是處理哪一部分任務的，例如Hadoop剛提出時的MapReduce，主要是用於大資料處理，HDFS是用於儲存。後面的一系列新框架，無非是在這些任務基礎上進行的改進與演化，比如Spark優化了MapReduce，使得資料處理更加簡單、快速。

相關內容

∧ 中秋節和大豐收的關聯？

∨ 《龍珠超》出現兩個全王是不是敗筆？

熱門排行