大資料都會學習什麼框架？必備的技能是哪個？

首頁>Club>找不到星期八2020-12-22 12:18

大資料都會學習什麼框架？必備的技能是哪個？

回覆列表

1 # Java老兵不朽

技術框架本身並不難，解決相同問題的框架也很多，重點是我們解決問題的思想和架構思路，目前比較熱的概念是中臺化，大資料領域在於構建資料中臺，重點解決企業全業務資料整合、分析，對業務系統來說目的在於提供一套標準化的易用的、靈活的資料接入和輸出的平臺服務，提升企業的資料共享能力！

2 # 智建界

一、資料視覺化

R不僅是程式語言，同時也R具有強大的統計計算功能和便捷的資料視覺化系統。在此，推薦大家看一本書，這本書叫做《R資料視覺化手冊》。《R資料視覺化手冊》重點講解R的繪圖系統，指導讀者透過繪圖系統實現資料視覺化。書中提供了快速繪製高質量圖形的150多種技巧，每個技巧用來解決一個特定的繪圖需求。
Python 出現了很多新的Python資料視覺化庫，彌補了一些這方面的差距。matplotlib 已經成為事實上的資料視覺化方面最主要的庫，此外還有很多其他庫，例如vispy，bokeh， seaborn， pyga， folium 和 networkx，這些庫有些是構建在 matplotlib 之上，還有些有其他一些功能。

ECharts和D3.js 是基於HTML5 的兩個純Java圖表庫，它們提供直觀，生動，可互動，可個性化定製的資料視覺化圖表。創新的拖拽重計算、資料檢視、值域漫遊等特性大大增強了使用者體驗，賦予了使用者對資料進行挖掘、整合的能力。其擁有混搭圖表、拖拽重計算、製作資料檢視、動態型別切換、圖例開關、資料區域選擇、值域漫遊、多維度堆積等非常豐富的功能。
Excel中大量的公式函式可以應用選擇，使用Microsoft Excel可以執行計算，分析資訊並管理電子表格或網頁中的資料資訊列表與資料資料圖表製作，可以實現許多方便的功能，帶給使用者方便。事實上，Excel完全可以滿足大家日常工作中圖表製作和資料視覺化的需求，所以，想要進入大資料行業，學好Excel是基礎。

二、機器學習

機器學習的基礎包括聚類、時間序列、推薦系統、迴歸分析、文字挖掘、決策樹、支援向量機、貝葉斯分類和神經網路。這些基礎知識光是聽到名字就覺得深不可測，但是如果具備了統計學和機率學的基礎知識，就能夠輕鬆掌握這些高深莫測的名詞。因此，建議在進行機器學習之前，先進行統計學和機率學的學習是非常有必要的。
完成了統計學和機率學的基礎學習之後，之後就可以選擇一兩款機器學習工具來實戰練習了，谷歌的TensorFlow和百度的百度大腦都是非常優秀的機器學習框架。

三、演算法

對於程式設計師來說演算法並不會太陌生，首先要了解什麼是資料結構，它包括棧、佇列、連結串列、散列表、二叉樹、紅黑樹、B樹。之後就要學習常用演算法了，常用演算法包括：排序（插入排序、桶排序、堆排序、快速排序）、最大子陣列、最長公共子序列、最短路徑和矩陣的儲存運算。

最後，掌握幾款常用的資料分析挖掘軟體，比如MATLAB、SPSS和SAS。
3 # 教子有方的毛慄兒

你問的問題非常的專業。我下面給你簡單總結一下，大資料學習必備的三個框架是Hadoop，Spark，Storm。
Hadoop擅長離線分析，實時是短項。
Storm用流資料來處理，非常容易的就可以突破瓶頸，正好彌補了Hadoop的弱項。
由於有成熟的技術和足夠的企業應用案例，所以相比於Spark，Hadoop的應用前景會更好。
因此，建議你從hadoop學起，這樣才能保證你學的大資料，能夠很快得以有效的應用。

4 # WingLight

從你這個問題看來，你是打算進行初步的學習？然而這並不像是程式語言那樣，先掌握語法然後找一個流行框架就可以學起來，比如，java之於spring。我建議你先看看我之前回答的有關大資料的介紹：

大資料是個名詞，所以沒法“操作”。如果你想了解大資料的前世今生，要從企業內部的資料倉庫說起。企業提供產品或者服務的時候，通常會在整個業務流程中產生若干資料，涉及的領域越多、週期越長產生的資料就越多。比如，順豐每天僅僅面單資料就能達到千萬級的數量，更不要說後面還有結算、發票、分成等等衍生的業務資料。所以，在這麼大量的資料產生之後，如果僅僅是提供“查詢”功能，那就太浪費了，此時就產生了從資料倉庫升級到“大資料”的契機：將大量的多維度的資料整合在一起，進行“線上分析”，也就是OLAP，可以有助於輔助決策——這是面向企業內部的應用。如果這些資料包含了大量的使用者資訊，比如BAT從所有的APP、遊戲、軟體等等產品蒐集到了某些或某個特定使用者的行為記錄，就可以更有針對性的釋出廣告、推薦產品——這是網際網路公司佔比最高的利潤來源。但是，想要進行大資料“操作”，前提是要有資料，其次是要有模型，最後還要有利潤點，不然沒有哪個公司會去做不賺錢的業務——至少也要是可能會賺錢的業務。
前面是從業務角度考察大資料，從技術上看，主要覆蓋了資料蒐集、資料儲存、資料處理、資料分析、建模、預測等等一系列的流程。有些框架屬於儲存軟體、有些屬於計算框架、有些屬於機器學習，所以你需要先了解一下從事哪一個行業、哪一個業務方向以及具體的技術角色，然後再考慮“框架”問題。或者也可以先找一門網課學習一下“資料分析”、“大資料應用”這樣的課程，畢竟大資料已經進入了太廣泛的領域，不是一個人能夠全面掌握所有細節的了，而且不同的細分領域所使用的技術也有很大區別，甚至不同公司都可能偏向不同的實現技術。以上僅供參考。
5 # 明月說資料

很多沒有程式設計、資料分析基礎的人，認為學習資料分析是一件很難的事情。但是這並不妨礙我們可透過一些有意思的方法，把學習變得簡單、高效。

進入一個全新的領域之前，最好能夠對這個領域的知識體系、技能模型有全面的瞭解，這樣你能知道哪些是應該學習，哪些是暫時不用學的，知道什麼樣的路徑適合自己的狀況。
基於資料分析這個技能，我準備了一份“超級技能地圖”，幫你快速認識資料分析的技能模組，以及不同的分支下，有哪些必備的技能，以及有哪些好用的資源。

這一張圖，可以幫助你快速認識資料分析這個領域，即便你從未接觸過相關的內容，也可以很清晰地建立資料分析知識框架。

先來看看，這張“超級技能地圖”是這樣的。

可以將手機橫屏進行檢視

這是資料分析小白必備的資料分析技能圖，因為包含了Python資料分析全方位的技能體系，比如資料獲取、SQL資料庫、Python、統計學、資料分析核心模組、視覺化、報告撰寫等等都有詳細拆解。
高效的學習路徑是什麼？就是按這樣的順序循序漸進，你會知道每個部分需要完成的目標是什麼，需要學習哪些知識點，哪些知識是暫時不必要的。

01 資料獲取

一般資料獲取有內部和外部兩種渠道，內部資料可以透過企業資料庫提取，需要掌握SQL相關的技能。

外部資料則可以透過公開資料集和爬取網路資料實現，需要了解相關的資料開放站點，以及掌握必要的Python爬蟲技能。

02 SQL資料庫

SQL技能是資料分析師職位必備的技能之一，需要你對企業的資料庫進行管理，能夠正常地儲存和提取資料。

當然SQL需要掌握的技能並不難，瞭解基本的語法，掌握基本的增刪改查就可以滿足常規的需求了。
03 資料分析必備統計學

如果說資料分析需要什麼數學基礎，那統計學應該是設計最多的了，但不需要非常深入，因為大多數資料分析用到的無非是統計量、資料分佈等基礎知識。

04 資料分析必備Python基礎

利用Python進行資料分析，那Python的基礎就非常重要了，這意味著你後續是否能夠正常地用Python程式碼來實現你的分析想法。

基本的程式設計規範、資料結構、自定義函式、控制語句（條件語句、迴圈語句）、檔案讀寫和模組使用都是需要重點掌握的點。

05 資料分析核心工具
在Python資料分析的體系內，Numpy / Pandas / Matplotlib三個核心庫是繞不過去的。也是這三個工具，能夠讓你實現資料清洗、科學計算、資料分析、資料視覺化等核心的工作。

掌握這些，你就完全可以去實現描述型資料分析、探索型資料分析，再加上Sklearn，你可以去實現預測型資料分析，一個完整的資料分析專案，也不過云云。

06 資料報告撰寫

資料報告撰寫雖然看起來像是文件整理類的工作，但也是非常重要的，因為直接決定了你最終的輸出成果。

對於如何撰寫一份優秀的資料報告，問題拆解的邏輯、資料指標的選取、使用者受眾需求的分析、圖形化的呈現形式都是非常重要的點。
如果你想快速地瞭解資料分析的技能體系，並知道各個技能分支的知識結構是怎樣的，哪些是重要的知識點，可以詳細閱讀這張“資料分析技能地圖”。

好好學習，天天向上！

6 # 尚矽谷IT教育

大資料開發培訓已經成為了現在越來越多想要學習IT程式設計的人的選擇，大資料開發工程師也是各公司爭相爭奪的金領人才之一，在當今科技發展非常迅速的社會里，大資料技術受到了越來越多的關注，越來越多人把職業規劃投向了大資料開發。許多人在此選擇了大資料培訓學習，在大資料學習的過程中框架做為其中重要的一個學習內容，是學員必須要掌握的知識點，那麼大資料培訓課程中都學習那些框架呢？
1、Hadoop是一個能夠對大量資料進行分散式處理的軟體框架，他以一種可靠、高效、可伸縮的方式進行資料處理。具有高可靠性、高擴充套件性、高效性、高容錯性、低成本的特點。

2、Hadoop hdfs–分散式檔案系統

將檔案分成多個block，分散儲存到不同的節點上，並提供多副本，保證資料容錯效能。

3、Hadoop yarn–資源的排程和管理平臺

集中管理叢集的整個計算資源，以container的形式進行資源分配。

4、Hadoop mapreduce

由兩個階段組成：Map和Reduce，Map階段每個節點處理自己節點的資料。

Reduce階段不同節點間進行資料交換，並進行聚合計算。
5、zookeeper

ZooKeeper是 Hadoop 的分散式協調服務，開放原始碼的分散式應用程式協調服務，是Google的Chubby一個開源的實現，它是叢集的管理者，監視著叢集中各個節點的狀態根據節點提交的反饋進行下一步合理操作。最終，將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。

6、hive

基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行執行。

7、hbase

HBase是一個分散式的、面向列的開源資料庫高可靠性、高效能、面向列、可伸縮，底層資料存在hdfs中處理非常龐大的表，適合處理1億條或者10億條以及以上條記錄或者有百萬個列的資料庫。
8、flume

Flume是一個高可用的，高可靠的，分散式的海量日誌採集、聚合和傳輸的系統。

flume是分散式的日誌收集系統，它將各個伺服器中的資料收集起來並送到指定的地方去比如說送到圖中的HDFS，簡單來說flume就是收集日誌的。同時，Flume提供對資料進行簡單處理，並寫到各種資料接受方（可定製）的能力。

9、Spark

Apache Spark™ 是一個通用的快速的大資料處理引擎.

Spark具有很強的適應性，能夠讀取HDFS、HBase、 Cassandra、 S3和Techyon為持久層讀寫原生資料，能夠以Mesos、YARN和自身攜帶的Standalone作為資源管理器排程job，來完成Spark應用程式的計算。
10、kafka

Kafka 是一個高吞吐量的、永續性的、分散式釋出訂閱訊息系統。

典型的生產消費模式，生產者向主題中傳送訊息消費者訂閱主題消費訊息。

應用場景：實時性較高的場合，比如流式處理，經典用法kafka+storm、kafka+sparkStreaming

11、Storm

Storm可以實現高頻資料和大規模資料的實時處理不同於spark streaming 的微批處理，storm可以根據進來的每一條資料進行實時處理，實時效能非常高。

劇多

大資料都會學習什麼框架？必備的技能是哪個？

相關內容