回覆列表
  • 1 # 極客匠人

    大資料是個通用說法。所有領域都有自己的大資料定義。 大資料處理是在資料池中挖掘有用資料,透過機率分析,做為決策依據。 對於大資料處理有很多流派,但對於非窄帶行業分析只是做到初步的塞選完成量的基礎資料分析。 對於有用價值提取還是需要專業領域知識。 所以如何學習大資料處理,首先要看自己的定位。 是做基礎資料積累處理,還是行業深度分析處理,如果想深度處理,那必須有一定的行業知識背景和受眾群體定位,對要處理的領域有一定了解。這樣才能有針對性。 這樣的答覆不知道能不能幫到您,需要具體的探討可以私信我。我做的領域也是做大資料分析,但屬於窄帶行業的分析。針對的客戶也是細分行業客戶。

  • 2 # 小六股市量化研究

    大資料重點在“大”字,一般數量級都百億甚至千億以上。傳統的資料處理方法已經無法適用。

    因此要學習大資料處理技術,要從兩方面著重學習。

    第一方面,分散式的資料處理框架。由於資料量大,單個物理機是無法完成資料處理任務的,因此需要用分散式資料處理框架,比較常見的例如hadoop、spark等等。

    另一方面,資料處理是為了獲取其中的資訊,因此一些常見的資料處理演算法也是必要的。例如數理統計、邏輯迴歸、pca、聚類、分類迴歸樹、深度學習等等。

  • 3 # 人工智慧營

    我是用Python來進行資料處理

    首先,我們拿到一個數據,使用jupyter notebook來開啟這個資料,這裡我使用pandas來進行資料的匯入,請注意我這裡的資料格式為csv的,如果不是請換成別的格式即可。

    匯入資料後,我們就需要對它進行篩選、進行洗滌。比如說:資料裡有一些空值、一些0值,我們要知道有多少,對整體有沒有影響,那麼我們就需要如下操作。lineitems_sample.isnull().sum()這句是用來統計空值總數的;那麼,如果我們要統計下為0值的個數,我們可以這樣,(lineitems_sample<0).sum()。這裡解釋下:

    lineitems_sample

    我想說Python可以很好的完成資料處理任務,一個是它開源,二個是支援庫很多,隨拿隨用很方便!

    處理後的資料視覺化分析圖

    這裡簡單說一下,我不知道你處理資料需不需要分析,視覺化。我用的是matplotlib

    展示出來的效果如下:

    當然還有很多種分析情況畫出的分析圖。這裡就不在多說。

    更多精彩,敬請期待!

  • 4 # 零度AI

    學習大資料這個問題面前很大,我想你講的是大資料開發的技術。

    1.首先是程式語言:大資料面比較廣,但是現在主流的框架還是比較集中:hadoop,spark,strom等。主要支援語言有Python,JAVA,scala等。如果沒有開發經驗建議學習Python,易學,在後續的資料分析深度學習等方面也比較好過度。

    2.如何學習:學習一項技術的目的是解決問題。如果想快速掌握,建議先概括的瞭解大資料技術的邊界和一些應用場景,然後結合具體問題進行實踐,然後再總結覆盤。

    3.如果解決具體問題:首先要先搞清楚問題的核心,明確目標,以及衡量解決問題的主要指標。然後根據指標要求選擇技術方案,最後安排計劃。切記求大求全,重新發明輪子。

    4.適應變化:技術變化非常快,建議持續關注技術得更新,並進行實踐瞭解,保證個人知識的迭代。

  • 5 # 發現道

    學習大資料,分很多層次,看你自己的要求。如果想學到自己能應用起來,能程式設計能採集。那投入的心思和金錢都不少。

    建議循序漸進,

    1.先找慕課中的一些課程先學習。推薦個超級APP:學習強國,裡面的慕課全免費,很多大資料的課程。

    學完這些基礎後,自己心裡會有大概的形象認識,之後再做判斷是否進一步學習。

    2.至於大資料技能的練習,可以註冊阿里雲的ID,裡面有tensorflow等一大批大資料工具可以直接試用,個人使用者免費的。

  • 6 # 傳智播客

    大資料處理相關技術,所需要掌握的是Java語言和Linux作業系統。這兩個是基礎,學習順序的話不分先後。技術方面最快的學習路徑就是直接學習相關的主流框架。很多人提到框架的話,就會覺得很難。其實我們只要是知道相關框架的呼叫方法,就會輕鬆很多。

    Hadoop:

    在接觸hadoop之前,大家需要有一定的Java基礎。為此給自學的小夥伴提出的建議是首先學習Linux,然後學習adoop的生態系統。在學習Hadoop的第一個階段就是可以熟練的搭建偽分散式叢集以及完全分散式叢集。也就是先讓hadoop的環境搭建起來,能正常執行wordcount程式,我們才可以接下來的分析hadoop生態系統。

    Zookeeper:

    可以稱之為萬金油,安裝Hadoop的HA的時候會用到它。之後學到Hbase的話也會用到。一般就是相互協作的資訊。

    Mysql:

    我們學習完大資料的處理,下面就是要學習小資料的處理工具mysql資料庫。因為裝hive的時候會用到。那麼mysql需要掌握什麼呢,就是我們可以Linux上把它裝好,執行起來。要學會配置簡單的增刪改查,修改root的密碼,建立資料庫。主要是學習語法。

    接下來的知識點我就不一一羅列了,我們在每個階段學習結束後,都要清楚的知道自己有沒有什麼缺乏。那麼可以按照下圖來檢驗自己的知識點是否掌握清晰:

  • 7 # 數通暢聯

    隨著當今資訊化時代的快速發展,從IT時代已經來到了DT時代。其中大資料則是扮演著至關重要的角色,因此有越來越多的人接觸和學習到大資料,那怎麼能學習好大資料處理呢,具體內容如下:

    1.打牢紮實的基本功

    萬丈高樓也都是從地基打起的,開始學習大資料處理之前,掌握紮實的基本功是非常重要的,它將會決定你未來的高度。基本功包括掌握Python,JAVA等支援大資料的程式語言、Linux作業系統、常用的主流資料庫以及達標的高數和英語水平。

    2.瞭解大資料相關技術

    瞭解大資料處理的工作執行機制,hadoop、spark、strom等關於大資料主流的框架以及相關的演算法軟體。

    3.制定合理學習計劃

    有了計劃,學習就有了明確的目標和具體的步驟,可以增強工作的主動性和減少盲目性。根據自身基礎和學習狀態制定出一套切實可行的學習計劃,計劃一定要分解到位,進行細化。並按照制定好的計劃,一步一步地落實完成。

    4.培養快速學習能力

    對於不瞭解和專業性比較強的知識,我們可以透過網路檢索、訪問學術網站或者查閱學術文獻等方式來對相關知識進行學習,快速地進入和熟悉未知的領域,豐富自己的能力。

    5.積累大量實戰經驗

    再好的知識儲備沒有實際的演練,也終將是紙上談兵。將學會的知識在實際專案中歷練獲取相應的經驗值,知識才會真正的落地,自身才會得以提升。

    6.養成歸納總結習慣

    學習到的知識只有透過不斷的歸納總結和及時複習,才會成為自身可以運用的能力。對於不夠紮實和遺忘的地方,在學習的過程中需要多思考和總結,並以文件的形式記錄下來轉化為自己的東西。

  • 中秋節和大豐收的關聯?
  • 武俠小說中最經典的詩詞?