回覆列表
-
1 # 愛資料的小司機
-
2 # 傅渥成
資料分析跟機器學習之間沒有明顯的界限,很多具體的資料分析問題都會用到機器學習的演算法,同樣的,在機器學習的過程中,也會需要用到很多資料分析方面的基礎技術。在我看來,「機器學習」和「資料分析」之間的區別就在於,機器學習更像是一門理科,然後配上許多的實驗;而資料分析更像是一門工科,配上許多的實習。
之所以說機器學習像理科,是因為機器學習的理論研究其實就跟統計學的研究非常類似。機器學習整個學科的基礎很大程度上完全是建立在統計的基礎上,雖然我們在應用這些演算法的時候不一定需要去通曉相關的統計學背景。在應用方面,現在機器學習尤其是深度學習已經有了一些較為成熟的方案(模型和演算法),需要做的是去調節模型裡的引數,使得學習的結果變得更好,這有些像是在做科學實驗。
資料分析需要用到很多很雜的統計知識,但不需要做與統計學有關的研究。資料分析並不等同於統計學,也不是計算機科學,也不是軟體工程,更不是產品經理,但資料科學家需要做的是這些東西的一個綜合。資料分析強調解決問題,涉及許多應用的場景,面對海量的資料尤其是非結構化的大資料,希望從資料中提取出與實際業務有關的許多特徵,做出許多重要的預測,而且,這些研究得到的特徵又會迭代進資料產品,整個研究的過程都是資料驅動的,這更像是一種從實踐中獲取經驗的實習過程。
做資料分析的一般會用到機器學習。
機器學習其實就是演算法模型,目前通用的模型一般有三大類,迴歸,分類,降維,主要分監督學習和無監督學習,常用的有迴歸分析,邏輯迴歸演算法,貝葉斯演算法,支援向量機,聚類分析。這些機器學習一般是資料分析常用的分析手段,用來分類,預測進而對業務有促進作用。
當然,通常的資料分析都是偏業務的,需要十分精通業務,機器學習演算法只是一種分析的輔助,我倒是覺得資料探勘和機器學習聯絡的比較緊密,因為他是偏向技術和建模的。
在大的公司,可能會分的比較細,有資料分析和挖掘之分,但是在大多數公司,資料分析和資料探勘沒有明顯的界線,甚至會是一個崗位,同一個人做。