回覆列表
-
1 # CDA資料分析師
-
2 # Python進階學習交流
Spss statistics與Spss Modeler這兩個軟體都是關於資料方向的軟體,其中Spss statistics更加偏向於資料分析,而Spss Modeler更加偏向於資料探勘。相信資料分析和資料探勘的概念,你應該很明確了吧?在此就不再贅述了。
Spss statistics更加偏向於統計、資料分析;Spss Modeler主要是用於資料建模,提供一個數學模型。
如果不會Python的話,同時掌握了這兩個軟體再加上統計學理論知識的話,找個資料分析工作問題不大,不過隨著你自己的未來發展,Python和R語言,我相信都是你需要補課的重要內容。
機器學習更加難一些,其需要Python和強大的數學知識,可能還需要Matlab做模擬什麼的。不過難的地方,往往出路更大。夫夷以近,則遊者眾;險以遠,則至者少。而世之奇偉、瑰怪,非常之觀,常在於險遠,而人之所罕至焉,故非有志者不能至也。
共勉~
-
3 # 笨鳥學資料分析
統計建模和機器學習建模都可以用於資料分析、資料探勘,不同的是統計建模基於傳統的統計學方法,如迴歸分析、聚類分析、主成分分析等,偏重於對於已知現象或者資料的描述,而機器學習建模雖然也基於統計學,但是更偏重於對於未知現象或者資料的預測,對於資料量大小有一定要求。
統計建模統計建模是指以統計學知識進行建模,常用的統計學知識有:引數估計、假設檢驗、方差分析、迴歸分析、時間序列、聚類分析、主成分分析及因子分析等,具體如下圖所示。
機器學習建模機器學習建模指以機器學習演算法進行建模,常用的機器學習演算法有:K近鄰演算法、決策樹、邏輯迴歸、SVM、隨機森林、聚類分析、關聯分析等,實現這些演算法的語言有Python和R。具體如下圖所示。
數學基礎不論是統計建模,還是機器學習建模,都需要有良好的數學基礎,主要就是微積分、線性代數、機率論這三塊。
相同點:不同點
1、不同的學派:
機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。
統計建模(Statistical modeling)則完全是數學的分支,以機率論為基礎,採用數學統計方法建立模型。
機器學習更多地強調最佳化和效能,而統計學則更注重推導。
2、不同的資料量:
機器學習應用廣泛。 線上學習工具可飛速處理資料。這些機器學習工具可學習數以億計的觀測樣本,預測和學習同步進行。一些演算法如隨機森林和梯度助推在處理大資料時速度很快。機器學習處理資料的廣度和深度很大。
統計模型一般應用在較小的資料量和較窄的資料屬性上。
3、不同的資料分析方式:
機器學習本質上是一種演算法,這種演算法由資料分析習得,而且不依賴於規則導向的程式設計;
統計建模則是以資料為基礎,利用數學方程式來探究變數變化規律的一套規範化流程。
總結來說,機器學習的關鍵詞是預測、監督學習和非監督學習等。而數理統計是關於抽樣、統計和假設檢驗的科學。
4、不同的資料使用方式:
機器學習並不需要對有關變數之間的潛在關係提出先驗假設。研究人員只需要將所有的可用資料匯入模型,等待演算法的分析並輸出其中的潛在規律,然後將這一規律應用於新資料進行預測就可以了。對於研究人員來說,機器學習就像一個黑盒子,你只需要會用,但並不清楚其中的具體實現。機器學習通常應用於高維度的資料集,你的可用資料越多,預測通常就越準確。
相比之下,統計學則必須瞭解資料的收集方式,估計量(包括p值和無偏估計)的統計特徵,被研究人群的潛在分佈規律,以及多次試驗的期望引數的型別。研究人員需要非常清楚自己在做什麼,並提出具有預測能力的引數。而且統計建模通常用於較低維度的資料集。
5、不同的著重點:
機器學習著重於探索資料所展現的關係和結構,更關心模型的預測能力,即更注重模型的最佳化和效能。
統計建模著重於評估小樣本資料中所體現的關係和結構在總體中推廣,更關心模型的可解釋性,即更注重模型的推導。
關於這一點,我們或許可以從下面這兩段分別來自統計學家和機器學習研究人員針對同一資料模型的描述上得到更深的體會。
機器學習研究人員:在給定 a、b 和 c 的前提下,該模型準確預測出結果 Y 的機率達到了 85%。
統計學家:在給定 a、b 和 c 的前提下,該模型準確預測出結果 Y 的機率達到了 85%;而且我有九成的把握你也會得到與此相同的結論。
6、不同的資料生成方式:
統計建模認為,資料由某個機率模型生成。統計的目標是找出對應的機率模型
因變數(Y)=f(自變數)+擾動函式因變數(Y)=f(自變數)+擾動函式
統計建模最基本的目標是回答一個問題:哪一種機率模型可以產生我所觀察到的資料?因此你必須:
從一個合理的模型群裡挑出候選模型
預估未知變數(引數,擬合模型到資料中)
比較擬合模型與其他備選模型
機器學習認為,資料是特徵集到Label集的特徵對映X→YX→Y所生成的。機器學習的目標是恢復特徵對映。
輸出(Y)→輸入(X)
---------------------