回覆列表
-
1 # 不程式設計亦分析
-
2 # 加米穀大資料
基礎知識:
程式語言,資料結構和演算法,作業系統和網路程式設計(資料庫相對而言問的比較少),前兩部分非常重要!
機器學習很火,個人理解的機器學習主要有三個方向(按照崗位要求分):資料探勘,自然語言處理和深度學習。資料探勘主要是搜尋排序,反作弊,個性化推薦,信用評價等;自然語言處理主要是分詞,詞性分析等;深度學習主要是語音和影象識別。
什麼是資料探勘?資料探勘的一般過程是怎樣的?
https://www.toutiao.com/i6710107362302099981/
首先資料探勘還是需要一些理論基礎。常見的演算法如分類,迴歸,聚類等演算法要熟悉,再深入了還有學習數學,尤其是線性代數(推薦國外翻譯的《線性代數及其應用》第五版 [美] 戴維 C.雷 / [美] 史蒂文 R.雷 / [美] 朱迪 J.麥克唐納 機械工業出版社,看過最好的線代書)。
理論基礎知識之外,要有實際落地的能力,用什麼軟體。
建模的分為商業版和開源免費版
1-商業版軟體
SPSS Moderler,
SAS EM挖掘模組,
2-開源的挖掘軟體也有很多
1.Weka(需要java程式設計基礎),
2.當今最火的Python scikit-learn建模模組(常3見演算法都有)
3.RapidMiner
4.Knime(大而全的一個軟體,做ETL和資料探勘都可以,學過Python挖掘模組再看這個會感覺比較簡單,反過來更容易理解python 挖掘演算法)
從另外一個角度來說,分為程式設計,和圖形化操作兩種方式,圖形化方式無需要程式設計逐一配置各個節點,連線即可搭建。