回覆列表
  • 1 # deepestblue

    我一開始也是做java,後來部門開始做大資料,我也跟著轉型。學大資料需要先學好java跟linux,因為流行的大資料開源框架如hadoop,hbase等都是java寫的,都要部署在Linux上。所以藉著做java的機會把java學好,現在程式設計師基本都會接觸linux,把linux用熟了。有了這些基礎就可以學hadoop了。去hadoop官網下載一個hadoop,自己部署一下,先用熟了,然後學習它的原理,hadoop官網的文件很好,但如果看英文文件覺得太慢,那找些部落格看看也不錯。hadoop是基礎,當你有了基礎入了門,對大資料就有自己的認識了,這時再根據興趣與需要學習hbase,hive,sqoop,storm,spark等。

    簡單的資料探勘用好hive就夠了,透過hive的sql語句、視窗函式就能實現很多資料探勘、分析的功能。如果hive不夠用,需要用到聚類、分類等演算法,就需要系統的學習《資料探勘--概念與技術》之類的書了。學這本書之前需要先把大學的機率與統計複習一遍。自學《資料探勘》之類的書還是有一定門檻的。光學完理論還不行,還要學python、spark,把這些演算法跑起來。

    所以第一步先做一名big data developer,把hadoop,hbase,hive這些先學好。以後根據興趣和需要再決定是否去學習資料探勘。

  • 2 # 統計學的世界

    我自己從事過10年以上資料探勘相關的工作。我簡單說一下對這個問題的理解:

    你的問題提得非常明白。但你問題下面的一段文字讓人感覺迷惑:似乎做資料探勘一定要會做big data developer方便的開發。其實在大的企業尤其是網際網路企業裡面這兩個職位是分開的。做資料探勘的是做資料探勘的。做big data developer是做開發的。通常網際網路企業的裡面的資料相關的職位是這樣分佈的:

    1. 資料平臺:主要負責資料自動採集平臺、ETL平臺及排程平臺的搭建和維護;

    2. ETL:主要負責資料的抽取、清洗和入庫,報表底層相關資料統計口徑的開發以及ETL任務的維護;

    3. 報表平臺:基於業務需要設計報表、開發報表和維護報表;

    4. 資料分析和挖掘:針對各種問題主題進行資料分析和挖掘,給出解決問題的解決方案

    其它更為深入的資料探勘或者說機器學習問題:如精準廣告平臺、推薦系統和搜尋系統則有專門的部門負責。通常做資料探勘的主要是在資料部門針對專門的主題進行資料探勘,或者在專門的業務場景(廣告平臺、推薦系統和搜尋系統)對應部門從事資料探勘。這些部門對機器學習演算法相關的工程實現能力要求會比較高。但對於資料結構和MapReduce可能要求沒有那麼高。但如果在資料平臺部門可能對hadoop、資料結構和MapReduce要求可能會高一些。

    1.重點是循序漸進的學習各種演算法,比如有監督學習演算法、無監督學習演算法甚至強化演算法和深度學習演算法。要深入理解這些演算法的邏輯、優點和缺點;

    2.會基於python或者scale對這樣演算法做工程上的實現以便解決實際問題;

  • 中秋節和大豐收的關聯?
  • 《西部狂徒》的道德機制是什麼?玩家一定要遵守這個道德機制嗎?