該如何學習大資料知識？

首頁>Club>貝拉斯科2021-02-23 16:58

該如何學習大資料知識？

回覆列表

1 # 哈密瓜愛好者

謝邀。這朋友首先要明白一個道理，大資料是一個泛化的概念。就像網際網路，計算機這樣的專有名詞，比如一個人問你我如何去學習網際網路，你一定會告訴他，網際網路一個泛指的概念，它包括方方面面很多細分的專案，你想自學的大資料也是非常泛化的概念，就拿你擅長的Java這個工具。她也能在大資料上的擁有廣泛的應用。包括資料庫叢集技術，分散式技術，還有網站效能最佳化，包括CDn映象技術虛擬化，雲計算共享，儲存海量資料等。我個人的建議，你如果擅長Java的話，您完全沒有必要自學。因為任何一個語言任何一個工具都要在一個大的使用場景的人來實現，那麼我的建議是你參加一個針對性的專案培訓，以後去應聘到相關的公司參加專案小組。因為雲計算是個泛指的概念有很多門類，你的這個專業可以透過你的小組參加具體的實踐專案。進而達到提升的目的。透過參與具體的專案，你可以接觸到雲計算的方方面面，最起碼是概念上的方方面面，然後具體可以從你擅長的專業角度有所突破。你想在大資料企業就業的話，獲得一個大企業的認證非常重要。目前國內最火的雲計算，應該屬於阿里雲。那麼你首先應該取得阿里雲的企業級的認證。包括阿里雲的資料處理和分析。報表場景的實現，企業自主平臺阿里雲的企業認證，包括ACp11003模組等等。以上說了一大堆廢話，給你的最終的建議就是:參加一個團隊，上手一個專案，獲取商業應用的經驗後，以一個有經驗的大資料平臺工作人員的身份，跳槽到更高層級的企業。你們職業發展薪資待遇就會有一個更大的提升。

2 # 西線學院

　　一、資料分析師有哪些要求？

　　1、理論要求及對數字的敏感性，包括統計知識、市場研究、模型原理等。

　　2、工具使用，包括挖掘工具、資料庫、常用辦公軟體（excel、PPT、word、腦圖）等。

　　3、業務理解能力和對商業的敏感性。對商業及產品要有深刻的理解，因為資料分析的出發點就是要解決商業的問題，只有理解了商業問題，才能轉換成資料分析的問題，從而滿足部門的要求。
　　4、彙報和圖表展現能力。這是臨門一腳，做得再好的分析模型，如果不能很好地展示給領導和客戶，成效就大打折扣，也會影響到資料分析師的職業晉升。

　　二、請把資料分析作為一種能力來培養

　　從廣義來說，現在大多數的工作都需要用到分析能力，特別是資料化運營理念深入的今天，像BAT這樣的公司強調全員參與資料化運營，所以，把它作為一種能力培訓，將會讓你終生受益。

　　三、從資料分析的四個步驟來看清資料分析師需具備的能力和知識：

　　資料分析的四個步驟（這有別於資料探勘流程：商業理解、資料理解、資料準備、模型搭建、模型評估、模型部署），是從更宏觀地展示資料分析的過程：獲取資料、處理資料、分析資料、呈現資料。
　　（一）獲取資料

　　獲取資料的前提是對商業問題的理解，把商業問題轉化成資料問題，要透過現象發現本質，確定從哪些緯度來分析問題，界定問題後，進行資料的採集。此環節，需要資料分析師具備結構化的思維和對商業問題的理解能力。

　　推薦書籍：《金字塔原理》、麥肯錫三部曲：《麥肯錫意識》、《麥肯錫工具》、《麥肯錫方法》

　　工具：思維導圖、mindmanager軟體

　　（二）處理資料

　　一個數據分析專案，通常資料處理時間佔70%以上，使用先進的工具有利於提升效率，所以儘量學習最新最有效的處理工具，以下介紹的是最傳統的，但卻很有效率的工具：

　　Excel：日常在做通報、報告和抽樣分析中經常用到，其圖表功能很強大，處理10萬級別的資料很輕鬆。
　　UltraEdit：文字工具，比TXT工具好用，開啟和執行速度都比較快。

　　ACCESS：桌面資料庫，主要是用於日常的抽樣分析（做全量統計分析，消耗資源和時間較多，通常分析師會隨機抽取部分資料進行分析），使用SQL語言，處理100萬級別的資料還是很快捷。

　　Orcle、SQL sever：處理千萬級別的資料需要用到這兩類資料庫。

　　當然，在自己能力和時間允許的情況下，學習新流行的分散式資料庫及提升自身的程式設計能力，對未來的職業發展也有很大幫助。

　　分析軟體主要推薦：

　　SPSS系列：老牌的統計分析軟體，SPSS Statistics（偏統計功能、市場研究）、SPSS Modeler（偏資料探勘），不用程式設計，易學。
　　SAS：老牌經典挖掘軟體，需要程式設計。

　　R：開源軟體，新流行，對非結構化資料處理效率上更高，需程式設計。

　　隨著文字挖掘技術進一步發展，對非結構化資料的分析需求也越來越大，需要進一步關注文字挖掘工具的使用。

　　（三）分析資料

　　分析資料，需要用到各類的模型，包括關聯規則、聚類、分類、預測模型等，其中一個最重要的思想是對比，任何的資料需要在參照系下進行對比，結論才有意義。

　　推薦的書籍：

　　1、《資料探勘與資料化運營實戰，思路、方法、技巧與應用》，盧輝著，機械出版社。這本書是近年國內寫得最好的，務必把它當作聖經一樣來讀。

　　2、《誰說菜鳥不會資料分析（入門篇）》和《誰說菜鳥不會資料分析（工具篇）》，張文霖等編著。屬於入門級的書，適合初學者。
　　3、《統計學》第五版，賈俊平等編著，華人民大學出版社。比較好的一本統計學的書。

　　4、《資料探勘導論》完整版，[美]Pang-Ning Tan等著，範明等翻譯，人民郵電出版社。

　　5、《資料探勘概念與技術》，Jiawei Han等著，範明等翻譯，機械工業出版社。這本書相對難一些。

　　6、《市場研究定量分析方法與應用》，簡明等編著，華人民大學出版社。

　　7、《問卷統計分析實務—SPSS操作與應用》，吳明隆著，重慶大學出版社。在市場調查領域比較出名的一本書，對問卷調查資料分析講解比較詳細。

　　（四）呈現資料

　　該部分需要把資料結果進行有效的呈現和演講彙報，需要用到金字塔原理、圖表及PPT、word的呈現，培養良好的演講能力。
3 # 懂碼雜記

聽提問，第一感覺是把程式設計和大資料兩個概念弄混淆了。首先需要指出的是：大資料是一個抽象的網際網路概念，用一句簡單的話來將就是從海量資料中挖掘有價值的資料資訊，從而為正確的商業決策提供充分的依據。大資料涵蓋的知識面非常廣泛，它大致包括統計機率學、資料分析、資料探勘、資料視覺化、機器學習和演算法這幾大模組知識。個人認為統計機率學是大資料的基礎，大資料的核心是演算法，而演算法的核心思想來源於統計機率學，像神經網路學、二叉樹演算法、推薦演算法、貝葉斯等等，說白了都屬於統計學的方差。個人建議，自學大資料先從統計機率基礎學習，之後學習資料探勘和資料處理，這兩項和程式設計密切相關，計算機專業的人應該會很具備優勢、然後選擇一兩個熱門的資料處理品平臺如Hadoop、Spark重點學習。演算法是關鍵，自始自終不能放棄對演算法的學習。

4 # 資料派THU

我們身處一個“技術爆炸”和“共享、開源”的時代，先進技術的更新迭代速率超過了歷史上任何一個時期，而且這些技術也不再閉塞，人人都可以接觸並學習。終身學習已經是我們每個人不得不面對的問題，這一點在大資料/人工智慧領域體現的尤為明顯：層出不窮的新技術，一方面為我們帶來了便利，但同時也使我們面臨難以高效學習和選擇的窘境。因此，在這樣的時代背景下學習大資料知識，需要有相適應的邏輯和方法。
本文試圖幫助各位讀者用好各類“共享、開源”的學習工具以及學習渠道，躲過各類新手容易誤入的“深坑”，以最小時間成本和經濟成本，優質地完成目標技術的學習和掌握。

本文首先分析了時代背景，繼而對目前大資料領域的人才梯隊進行了劃分，最後給出了大資料/人工智慧人才從菜鳥到高手的進階指南。

一、背景鋪墊

“技術爆炸”以及“共享開源”是這個時代最有特色的標籤，筆者認為二者是互為因果且緊密聯絡的，首先在“技術爆炸”的時代，對於走在技術發展最前沿的研究團隊來說，“技術變現”的最好手段就是“共享開源”。反觀網際網路、移動互聯發展成熟之前，資訊是十分閉塞的，某項技術創新一旦出現就需要第一時間註冊專利，技術需要靠政府來保護，而技術變現的唯一途徑就是出賣專利或者組織生產形成產品。
現如今網際網路及移動互聯已經發展的十分成熟，新的資訊會以極低的成本在極短的時間內傳遍世界的每個角落，所以處在技術前沿的研究團隊僅需要在第一時間將自己的工作成果上傳到“arxiv”或者“github”之類中立的共享、開源網站，便會立即得到全球輿論的共同保護，這樣的力度要遠遠強於某個國家的專利保護。

隨後，只要新技術確有應用價值或者學術價值，那麼各類資本巨頭、科技大鱷以及相關的各類組織便會排著隊上門送出豐厚的offer，對於前沿團隊來說，技術變現的時間點要遠遠早於技術產品化的時間點。

其次，因為“技術爆炸”總有新的技術等待著前沿團隊去研究發現，所以前沿團隊保持領先的最好方法不是捂著現有成果不放，而是儘快“共享開源”實現變現，然後投入到新的研究工作中。
最後，“共享開源”也在很大程度上促進了“技術爆炸”，無論任何技術、科技的長足發展都需要一個龐大人才體系來支撐，反觀歷史上的各個時期，分享知識、培養人才的渠道主要是“學校”，這一渠道不但形式單一而且往往具備相當的門檻，會將相當一部分“有志青年”擋在門外。

而在如今這個時代，知識傳播最快速的渠道是網際網路，由於“共享開源”，世界上最優質的教育資源以及最先進的學術、技術理念忽然間沒有了任何門檻，面向全部個體無差別開放，結果就是隻要某一技術、科技領域有了很大的突破並具備廣闊的應用前景（如大資料、人工智慧），那麼相應的人才梯隊會在短時間內自動補齊跟上。

站在大資料學術前沿的研究團隊只需要一往無前地開拓疆域，其後的人才梯隊隨即會自動開展“新技術論證”及“技術產品化”等“保障”工作，保障這一技術領域及相關行業的健康發展，來進一步促進資源向金字塔尖的前沿團隊匯聚，支撐其開拓工作。
我們將上文提到的人才梯隊劃分為：菜鳥築基、初入江湖、登堂入室以及華山論劍四個等級：

菜鳥築基：本階段的人才以大資料基礎理論的學習為主，尚不能勝任真實的專案或者工作；

初入江湖：本階段的人才已經具備了初步的大資料實踐的能力，建議透過實踐（做專案、打比賽等）來更好地帶動學習；

登堂入室：本階段的人才需具備大資料科研論文的調研、閱讀和理解能力，能夠成功地將論文中的演算法進行復現；

下文將針對處於不同階段的大資料人才，給出不同的修煉、升級建議。

二、菜鳥築基

1. 最好的資源往往是公開的

讀過背景鋪墊後相信已經不需筆者再解釋為什麼最好的資源往往是公開的，在此直接給出一些獲取高質量資源的渠道。首先推薦國外的三個網站，分別是“Coursera”、“Arxiv”以及“Github”。
Coursera是全球頂尖的線上學習網站，由業內極具學術造詣及分享精神的大咖創辦。Coursera上的課程相對比較基礎，應該是“小白”起飛最好的平臺，在這裡推薦吳恩達（Andrew Ng）開設的“機器學習”以及“深度學習”。對於國內學生來說最大的問題可能就是英語了，在這裡需要明確一點，如果各位想要成為真正的高手，那麼英語是永遠繞不過去的坎，業內最新、最好的資料無一例外都是英文，即便是來自國內的頂尖高手在發論文時都不會選擇用中文。

其實對於絕大多數人，英語並不應該被當作一門“學科”來學習，而應該被當作“工具”來用。具體的做法也沒有捷徑，就是看到不懂的單詞立即查，單詞不用刻意去記憶，下次遇到不會就再查一次，一切以快速弄懂句子含義為目標。
Arxiv以及Github是各位讀者未來會特別常用的兩個網站/工具，Arxiv上有最新最全的共享論文，論文中會對各類演算法進行詳盡的闡釋，Github上有最新最好的開原始碼，這些程式碼往往是對某種演算法的實現，具體的使用方法網上有許多教程，在此不做展開。

讀者可以簡單的理解為Arxiv是修煉內功的地方，而Github是修煉外功的地方。只練內功不練外功是無法解決實際問題的，但只練外功不練內功又往往毫無威力，一定要內外兼修。最後再向大家介紹一個神奇的網站名叫“gitxiv”，會幫助各位找到論文與程式碼的對應關係。

2. 不要看書、不要看書、不要看書

一門學科怎麼入門呢？菜鳥在面對這個問題時，最容易踩入的“深坑”就是找一本權威的書來從頭學起，一旦踏入此坑，輕則荒廢自己數週時間，重則對某一門學科徹底失望終生。首先好書本來就不多，往往可遇不可求。其次即便遇到好書，為了保證學術性，書中用語往往“嚴謹”但難懂，且會從學科的早期歷史為讀者打下“堅實基礎”，講到最近的技術手段時又戛然而止。最後，就算讀者傾盡數月之功力，堅持讀完了，筆者可以用血淋林的親身實踐告訴你，書中前半部分的內容一般人肯定會忘的。
當然也有特殊情況，如果各位已經確定了自己的研究方向，並且有高人/導師指點，給出了相應領域內必讀好書的名錄，這一類書還是值得一看的。不過在看的時候也要注意，不要糾結於某些細節問題，看不懂的地方可以先記下來，這類細節往往會在各位後面實踐過程中的具體場景下恍然大悟。

正確的做法一句話就可以概括，好書是用來查的而不是用來啃的，什麼時候來查呢？下文會逐步解答。

3. 找對好基友，連滾帶爬往前走

現在已經不是一個單打獨鬥，憑著跌落斷崖後找到一本秘籍閉關幾年就能橫掃天下的時代了，無論是像Hinton（推翻了BP演算法的BP演算法之父）這樣的泰斗，還是像何凱明（發best paper像一般人發paper一樣容易的神奇學霸）這樣的新秀，都處在各自非常靠譜的團隊中與小夥伴們共同探索。好基友不需要多，有一兩個真正靠譜的就已經足夠，至於隊友的重要性後文會慢慢闡釋。
菜鳥築基這部分最後要給出的建議就是，千萬不要在這個階段停留太久，不要等“準備好了”再去著手實踐，因為這裡的“準備好了”往往包含菜鳥的不自信，不去進一步提升自己是永遠準備不“好”的。一般情況下，想做“計算機視覺”或者“自然語言處理”等偏AI方向的同學在完成吳恩達的《深度學習》課程後，想做“資料探勘”的同學在完成吳恩達的《機器學習》課程後，就可以選擇相應的實踐專案準備進入下一階段了。

那麼我們該選擇什麼實踐手段呢？最佳的情況是有大神帶隊做真實專案，但是這樣的機會往往可遇而不可求，在此不展開討論。普羅大眾型的辦法是參加一個大資料比賽專案，現在國內的“阿里天池”以及國外的“Kaggle”都是開放式的大資料比賽平臺，平臺上會有各種組織釋出的各類真實專案供大家實踐、比賽。讀到這裡各位心裡可能還存有很大的疑問：“就算學會了基本課程，在沒有人帶的情況下能上手實踐嗎？”，下文將陸續回答如何“連滾帶爬”的進行實踐。
三、初入江湖

1. 找到一個最高的baseline

這裡的“baseline”可以理解為前人已經做出成果，當自己恰好需要去做相同工作時的參照。對於上文提到的情況，如果有大神帶隊進行實踐的話，那麼帶隊大神此前的實踐經驗就成為了全體小隊成員的“baseline”。那對於沒有“大神”資源的廣大讀者是否有更通用的解決辦法呢？答案是肯定的。如果讀者目前對於一類問題無從下手，例如剛剛學完“深度學習”的課程，但是不知道如何去做“自然語言處理”類的專案，最好的辦法是利用好國內的“萬方”以及“知網”這樣的論文查詢平臺，去查詢相關領域國內普通高校的學位論文，這樣的論文絕大部分都是中文並且會在論文中介紹大量的基礎背景知識，正好滿足了我們的需求。
如果是對某一技術方的特定知識點不明所以，例如在做“自然語言處理”方向的專案，但卻不太瞭解“LSTM”，則可以利用好國內的諸如“知乎”、“簡書”以及“CSDN”這類的知識分享網站，只要不是太新的理論，都可以找到相應的博文或者解答。使用上述兩類渠道的共同技巧是，多搜幾篇文章對比著看。同一個概念或者技術，一篇文章很難全面描述清楚，並且由於文章作者不同，解釋問題的出發點也不盡相同，所以如果各位遇到看不懂某篇文章的情況時，不用急躁，接著看下一篇文章就好。另外，前文提到的“好書”在這裡就可以用來查了，讀者會發現原來想記都記不住的知識點，只要“查”完並且“用”過，那麼一般想忘都忘不掉。

這裡對baseline所謂“高”的定義是，越接近學術前沿，實踐效果越好，就認為越“高”。一般情況下，可參照的成果越“高”，中文文獻就越少。
文章寫到這裡不知是否回答了上一章節提出的疑問，上一章節提到的“連滾帶爬”指的就是我們在選定某一實踐方向後，根據實踐的最終成果再回過頭來對我們的相關知識進行“查漏補缺”的過程。這樣的學習過程，目標性更強，參與者完全有針對性的去學習，學到的東西可以立即實踐，從而避免“學過就忘”的尷尬。

2. 合理追求quick win

筆者曾經仔細地研究過為什麼女生逛街會“不知疲倦”，得到的答案是，女生每逛一家店鋪，看看店鋪中的鞋子/衣服/包包就能得到一定的興奮點，在得到一個興奮點後就想著直奔下一個興奮點。類比到我們做專案/打比賽的過程中，我們需要為自己的團隊設定這樣的“興奮點”，讓團隊成員都能夠享受到“quick win”的快感，來支援大家繼續推進。
而取得“quick win”的關鍵是要將手中的工作/任務合理劃分成若干“稍微努力一下就能達到”的子任務，這中間的細節過於複雜，在此就不展開討論。一個teamleader需要做的最重要的事，就是幫助團隊合理劃分任務而不斷取得“quick win”，一個人只要具備這樣的能力，無論技術高低都能夠團結一批志同道合的小夥伴。

3. 你最大的動力往往來自DDL（Deadline）

有那麼一句成功學的佳句是“每天叫醒我的不是鬧鐘而是夢想”，這句話聽起來很勵志，但對於90%的人來說就是胡扯，我們回首望去發現每天叫醒我們的往往是“上班遲到後被扣的工資”或者是“晚到實驗室後老闆的殺氣”，這就是現實，聽起來很殘酷但是我們完全可以利用好它。具體到我們的升級以及專案推進中，能讓我們不斷向前的最大動力往往是“在DDL前無法完成任務後小夥伴們的鄙視”以及“完成quick win後帶來的成就感”。
做好這一點除了上一小節提到的要合理劃分任務之外，最重要的就是有一個靠譜的teamleader不斷的進行推進（push），每到既定節點後雷打不動的推進。最後要囉嗦一句，根據馬斯洛需求層次理論，夢想應該屬於模型頂層的“自我實現需求”，如果一個人可以被“夢想”叫醒，那麼這個人的其他需求應該已經被很好的滿足了，所以我在這裡真誠的祝福大家終有一天可以在早晨被自己的“夢想”叫醒。

四、登堂入室及華山論劍

如果有一天各位發現自己在工作實踐中，需要不斷地關注最前沿的論文，並且需要不斷地嘗試復現論文中的演算法來用於實踐，那麼要恭喜各位已經跨入了大資料/人工智慧領域高手的行列了。登堂入室與華山論劍兩個階段的區分不是特別明顯，因為論文讀得多了，總會有些自己的新想法，這些想法經過實驗驗證後就可以去發論文。反過來，即便你發表過前沿論文也還是需要繼續跟進其他論文。
在這一小節的開始，筆者首先要端出一碗毒雞湯，即便是在這個“開源、共享”的時代，學術/技術資源的分佈還是極度不平均的，並且這樣的不平均會越來越明顯。究其原因有兩個，第一個原因可以援引在清華17級研究生開學典禮上某校領導的一句話來闡釋----“最有效果的研究手段就是與相當水平的同行當面交流”，翻譯一下就是高手越多的地方就越容易產生高手，這會導致高階人才分佈的越發不平均。

另外，做學術前沿研究的經濟成本是很高的，國內某頂尖AI公司全球研發工作一個月的電費開銷就能達到千萬級別。即使是普通的AI專案，伺服器、GPU的成本也會導致普通的研究人員根本無法找到充足的經費來支援自己的研究。

喝完毒雞湯也要來一些正能量，雖然資源分佈不平均了，但人才通道仍然是開放的，只不過門檻越來越高而已，我身邊就有畢業四五年後，也能夠一邊工作一邊複習考上清華研究生，最終接觸到前沿科學研究的例子。資料派就是一個匯聚了清華頂尖大資料/人工智慧資源的開放組織，有心的小夥伴可以點選“閱讀原文”加入組織~（主編現在可以把刀放下了，這波廣告打的筆者自己也有些猝不及防）
2. 選擇永遠比努力更重要

這個標題聽起來又像是一碗“毒雞湯”，但這就是血淋林的生活帶給筆者的經驗。筆者見過某個演算法團隊自己悶頭搞了幾個月研究毫無進展，經過大神點播後一個月內完工的情況。

下面舉一個更戲劇性的例子，自然語言處理曾經在20世紀70年代左右有過界限分明的兩個學派之間的激烈交鋒，一撥是希望透過語法規則來做語音識別的“規則派”，另一撥是基於統計方法的“統計派”，這兩撥從事相同領域研究的學者竟然分別召開自己的學術會議，即便出席同一大會竟然也要分場開小會。

到了20世紀90年代“統計派”的識別率已經達到了90%以上，而“規則派”僅有不到70%，勝負已分（吳軍老師的《數學之美》一書中對這段歷史進行了詳盡有趣的闡述）。但試問如果有一名博士生在20世紀70年代將自己學術方向定為“規則派”，到了20世紀90年代的時候他該做何感想？
到了“登堂入室”這個階段之後，做好選擇顯得尤為重要，這樣的選擇不僅僅限於學術方向，也涵蓋例如“做學術”還是“做產業”等等更廣義的範圍。一個可以參考的經驗是，如果人生的重大決策失誤，基本要用五年來挽回，大家要考慮清楚自己有幾個這樣的五年。

3. 唯一的限制往往是自己的妥協

看看本小節的標題，讀者可能會覺得本文這下要以“毒雞湯”收尾了。但其實在這裡“妥協”並不是一個貶義詞，筆者認為它起碼是個中性詞。從某種意義上講，每個人最終都會達到某種“妥協”，而不妥協就意味著背後存在與現狀不匹配的野心或者慾望，什麼時候野心和慾望跟現實匹配了，也就一定會“妥協”。這就是華山論劍的秘密，每個能站在頂峰的人都必定抱著某種超乎常人的野心或者慾望，當然這裡的野心或者慾望是廣義的，也同樣指對於學術的追求。
最後，“毒雞湯”不負眾望的要出現了，根據筆者的觀察，每個人的“妥協點”並不是自己設定的，一般情況下自己也無法影響，所以每個人最終要走到的高度往往是確定的。

但從筆者的角度看來，並不覺得站在華山之巔就一定是好的，真正的“好”是能夠坦然接受自己的“妥協點”，並且能夠在自己的“妥協點”安安心心、高高興興的工作和生活下去，這才是最具智慧的選擇。
5 # 海牛學院大資料培訓

基礎知識自學還是可以嘗試的（hainiubl.com有大量自學資料），但是如果想真正學習大資料開發。那麼還是找一個靠譜的培訓機構進行系統的學習比較好。最好找一個講師有多年開發經驗，有企業級實戰實訓專案的機構。自學的話很難找到合適的實訓專案

6 # deepestblue

很多回答的不錯，但是講的太大，我就結合自身經歷講的具體點。我一開始也是做java，後來部門開始做大資料，我也跟著轉型。學大資料需要先學好java跟linux，因為流行的大資料開源框架如hadoop,hbase等都是java寫的，都要部署在Linux上。所以藉著做java的機會把java學好，現在程式設計師基本都會接觸linux，把linux用熟了。有了這些基礎就可以學hadoop了。去hadoop官網下載一個hadoop，自己部署一下，先用熟了，然後學習它的原理，hadoop官網的文件很好，但如果看英文文件覺得太慢，那找些部落格看看也不錯。hadoop是基礎，當你有了基礎入了門，對大資料就有自己的認識了，這時再根據興趣與需要學習hbase,hive,sqoop,storm，spark等。
7 # 碼農視界

自學大資料，無疑是看書和影片嘍，但自學一定不要毫無章法，要按照一定的學習大綱來，像有一定的java基礎，學習大資料就更會輕鬆一些，大資料很多都是java作為基礎程式語言的。

大資料學習大綱（精簡版）有Java基礎的可以略過java部分，但一定要保證自己有紮實的程式設計基礎

階段一、 Java語言基礎
Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字串、Java陣列與類和物件、數字處理類與核心技術、I/O與反射、多執行緒、Swing程式與集合類

階段二、 HTML、CSS與JavaScript

PC端網站佈局、HTML5+CSS3基礎、WebApp頁面佈局、原生JavaScript互動功能開發、Ajax非同步互動、jQuery應用

階段三、 JavaWeb和資料庫

資料庫、JavaWeb開發核心、JavaWeb開發內幕

階段四、Linux&Hadoopt體系

Linux體系、Hadoop離線計算大綱、分散式資料庫Hbase、資料倉庫Hive、資料遷移工具Sqoop、Flume分散式日誌框架
階段五、實戰（一線公司真實專案）

資料獲取、資料處理、資料分析、資料展現、資料應用

階段六、 Spark生態體系

Python程式語言、Scala程式語言、Spark大資料處理、Spark—Streaming大資料處理、Spark—Mlib機器學習、Spark—GraphX 圖計算、實戰一：基於Spark的推薦系統（某一線公司真實專案）、實戰二：新浪網（www.sina.com.cn）

階段七、 Storm生態體系

storm技術架構體系、Storm原理與基礎、訊息佇列kafka、Redis工具、zookeeper詳解、實戰一：日誌告警系統專案、實戰二：猜你喜歡推薦系統實戰
階段八、大資料分析 —AI（人工智慧）

Data Analyze工作環境準備&資料分析基礎、資料視覺化、Python機器學習

1、Python機器學習2、影象識別&神經網路、自然語言處理&社交網路處理、實戰專案：戶外裝置識別分析

8 # 嗯96609

如果你是零基礎的話其實自己學習會不知道從哪裡開始自己學有點無從下手我建議你報一個培訓班最好是那種小班制面授的我有個弟弟就是在杭州華信智原學的他們就是面授還會從基礎開始教學的很清楚畢業之後還會包就業現在每個月7000 8000的樣子很滿意
9 # 嗯96609

如果你是零基礎的話其實自己學習會不知道從哪裡開始自己學有點無從下手我建議你報一個培訓班最好是那種小班制面授的我有個弟弟就是在杭州華信智原學的他們就是面授還會從基礎開始教學的很清楚畢業之後還會包就業現在每個月7000 8000的樣子很滿意

10 # 新聞葉良辰

多看看多練，關鍵還是要一定看影片，關鍵還得有一定的基礎，自學才有效果，推薦你去看看北京的尚矽谷影片，講的很多位我，無論是在技術，知識點各個方面，還是非常靠譜的，我這有一張學習路線圖，大家可以看一下。

劇多

該如何學習大資料知識？

相關內容