想學大資料，現在有些迷茫，不知道該從哪開始？

首頁>Club>2023-05-12 20:13

想學大資料，現在有些迷茫，不知道該從哪開始？

回覆列表

1 # IT人劉俊明

學習大資料是目前的一個熱潮，不論是高校的學生還是網際網路從業人員都在學習大資料知識，今天藉著這個問題跟大家聊一聊大資料的來龍去脈，以及如果要學習大資料應該從哪入手。另外，如果大家對大資料感興趣可以關注我，我會陸續寫一些關於大資料的科普文章。

大資料涉及到以資料為中心的一系列處理步驟，涉及到資料的採集、整理、傳輸、儲存、安全、分析、呈現等具體內容。其中資料的採集涉及到物聯網技術，儲存和分析也依賴於雲計算平臺的支撐，同時還需要大規模的基礎資料框架作為資料分析環境，比如Hadoop、Spark等，而具體的分析則依賴於統計、機器學習等相關內容，另外還涉及到流處理等。
大資料涉及到的內容比較多，其中一些內容也比較複雜，所以學習大資料需要一個系統的過程，下面我就以資料的流向為線索來說一下應該如何學習大資料。

物聯網應用主要體現在六個方面，分別是：裝置、網路、平臺、分析處理、服務應用，以及貫穿這幾個部分的安全。物聯網關注的一個重要內容是裝置，物聯網的核心就是裝置之間的資訊交換，以及透過這些資訊完成各種控制。所以瞭解裝置是瞭解物聯網的第一步，裝置的主要組成包括：微控制器、輸入裝置、輸出裝置以及網路連線。

微控制器的主機板有多種型別，在學習物聯網的初期通常選擇Arduino、Raspberry Pi（樹莓派），或者是英特爾的Edison（貴一些）。

接下來就是資料要透過網路傳遞到雲計算平臺。
資料的儲存和處理——雲計算
物聯網裝置通常透過閘道器來連線到網際網路並接入到雲計算平臺，當然有的裝置也可以直接連線到雲端，雲計算平臺為大資料提供了數儲存和分析的支撐環境。

雲計算平臺往往搭建在大型資料中心之上，當然也有規模並不太大的私有云，不管是大型的公有云還是小規模的私有云都是大量計算資源的整合，透過虛擬化技術實現資源的動態管理，以便於實現分散式儲存和計算。儲存大資料的資料庫目前是RDB結合文件資料庫的方式，結構化資料存在RDB資料庫中，以便於結合兩種資料庫的優點，當然掌握Sql是必要的。

瞭解雲計算平臺的組成及作用是學習大資料的重要環節，接著就是在雲計算平臺搭建大型基礎資料框架，完成大資料分析處理。
基礎資料處理框架——大資料分析
大資料應用的重要環節是資料分析，透過資料分析能得出大資料的價值，而資料分析往往需要大型基礎資料處理框架，比如Hadoop、Spark。

Hadoop、Spark能夠快速處理大量資料，Hadoop基於分散式磁碟處理大量資料，而Spark則在記憶體中完成資料的迭代處理，無論哪種方式都能快速完成資料的分析過程。

資料分析又分為視覺化分析、發現分析和預測分析，其中視覺化分析的重要組成部分就是統計分析和機器學習兩種方式。

機器學習分為監督學習和非監督學習兩個大類，這部分就需要透過各種演算法來完成具體的資料分析任務，比如迴歸、決策樹、貝葉斯、支援向量機等。

關於演算法的實現語言，我比較推薦使用Python，我個人就是從Java轉向Python的。
總結
經過以上分析，學習大資料先從物聯網入手，瞭解物聯網的組成（不用自己焊板子），接著瞭解雲計算平臺的作用，然後開始搭建基礎資料處理平臺：Hadoop，選擇一門語言做演算法實現完成資料分析。

目前做大資料比較常見的語言包括Java、Python和Scala，個人比較推薦Python，因為Python比較方便。

如果你有關於大資料方面的問題可以諮詢我。

2 # 榆次大學長

大資料呢，就相當於人的大腦從小學到大學學習過的所有知識。而這些知識在歲月的磨礪中，很多很多都已經完全忘記了。但是這些資料只有透過消化，吸收、再造才能創造出更大的價值。就像現在考事業編制，考試題大部分都是九年義務教育學習過的知識，但是時間太久了，你知道你學過，但就是想不起來！“大資料”就是讓你充分利用曾經擁有過的知識。
雲計算和大資料是密不可分的！物聯網就是要給所有的物品一個IP地址，有了地址才可以實現萬物互聯，連線起來的資料都要進行儲存，存在什麼地方呢？

存在雲端上，這所有的資料進行分析處理，就是發揮大資料的應用！而最基礎的也是最起碼的，你得學會使用Linux作業系統，因為所有的網際網路技術都離不開Linux的核心，只有達到了紅帽系統架構師RHCA的級別，才能熟練使用openstack，這些都是學習大資料的前提

∧ 中秋節和大豐收的關聯？

∨ 千元大記憶體機裡哪個最好，是紅米pro（128g）1599元嗎？

熱門排行

劇多

想學大資料，現在有些迷茫，不知道該從哪開始？