-
1 # 科技大視覺
-
2 # 技術同胞
資料分析師
資料分析師 是資料師Datician["detɪʃən]的一種,指的是不同行業中,專門從事行業資料蒐集、整理、分析,並依據資料做出行業研究、評估和預測的專業人員。
為什麼要學習統計學?因為了解各種技術背後的想法是非常重要的,以便知道如何以及何時使用它們。此外,這是一個非常有前景的研究領域,在科學,工業和金融領域有著重要的應用,而且統計學是培養現代資料科學家的基本要素。
統計學應用的經典例子包括以下這些:
確定前列腺癌的危險因素。根據記錄週期圖對錄製的音素進行分類。根據人口統計,飲食和臨床測量預測是否有人會發生心臟病。自定義垃圾郵件檢測系統。識別手寫郵政編碼中的數字。將組織樣本分為幾個癌症類別之一。建立人口調查資料中工資與人口變數之間的關係。
本篇文章分享《統計學入門》一書中的10個統計方法,任何資料科學家都應該學會更有效地處理大資料集。由於篇幅原因,這次先介紹前5個,下篇文章再介紹剩下的。
在使用這10種方法之前,大家要區分“統計學習”和“機器學習”:
機器學習是人工智慧的一個子領域。統計學習是統計學的一個分支。機器學習更強調大規模應用和預測的準確性。統計學習強調模型及其可解釋性,精確性和不確定性。但是這種區別變得越來越模糊,並且存在著很多“交叉”。機器學習在市場營銷中佔據上風!1、線性迴歸(Linear Regression)
在統計學中,線性迴歸是一種通過擬合自變數與自變數之間最佳線性關係來預測目標變數的方法。最好的做法是確保每個點的形狀和實際觀測之間的所有距離之和儘可能小。形狀的適合性是“最好的”,因為在形狀的選擇上沒有其他位置會產生較少的誤差。線性迴歸的2種主要型別是簡單線性迴歸和多元線性迴歸。簡單線性迴歸使用一個獨立變數來通過擬合最佳線性關係來預測因變數。多重線性迴歸使用多個獨立變數來通過擬合最佳線性關係來預測因變數。
舉個例子:選擇你在日常生活中使用的任何兩件相關的東西,例如每月支出,月收入和過去三年每月的旅行次數的資料。現在回答以下問題:
明年的每月開支是多少?
哪個因素(每月收入或每月旅行次數)在決定我的每月支出時更重要?月收入和每月旅行如何與每月支出相關?2、分類(Classification)
分類是一種資料探勘技術,它將類別分配給資料集合,以幫助進行更準確的預測和分析。也有時稱為決策樹,分類是用於對非常大的資料集進行分析的幾種方法之一。2大分類技術脫穎而出:Logistic迴歸和判別分析。
Logistic迴歸分析是當因變數是二分的(二元)時進行的適當的迴歸分析。像所有迴歸分析一樣,邏輯迴歸是預測分析。 Logistic迴歸用於描述資料並解釋一個相關二元變數與一個或多個名義,序數,區間或比例級別的獨立變數之間的關係。邏輯迴歸可以檢查的問題型別:
體重每增加一磅和每天吸一包香菸,肺癌的可能性(是vs否)會發生怎樣的變化?體重卡路里攝入量,脂肪攝入量和參與者年齡對心臟病發作有何影響(有vs無)?在判別分析中,先驗已知2個或更多個組或群或群,並基於所測量的特徵將1個或更多個新觀察分類到1個已知群中。判別分析在每個響應類別中分別對預測變數X的分佈進行建模,然後使用貝葉斯定理將它們翻轉為給定X的值的響應類別概率的估計。這樣的模型可以是線性的或二次的。
線性判別分析為每個觀測值計算“判別分數”,以便對它所處的響應變數類別進行分類。這些分數是通過尋找自變數的線性組合得到的。它假設每個類別內的觀察值都來自多變數高斯分佈,預測變數的協方差在響應變數Y的所有k個水平上是共同的。
二次判別分析提供了一種替代方法。和LDA一樣,QDA假定每個Y類的觀測值都是從高斯分佈中得到的。但是,與LDA不同的是,QDA假定每個類都有其自己的協方差矩陣。換句話說,預測變數不被假定在Y中的每個k個水平上具有共同的方差。
3、重取樣方法(ResamplingMethods)
重取樣是從原始資料樣本中繪製重複樣本的方法。這是統計推斷的非引數方法。換句話說,重取樣方法不涉及使用通用分佈表來計算近似p個概率值。
重取樣根據實際資料生成唯一的取樣分佈。它使用實驗方法而不是分析方法來生成獨特的抽樣分佈。它產生無偏估計,因為它是基於研究者所研究資料的所有可能結果的無偏樣本。為了理解重取樣的概念,您應該理解術語拔靴法(Bootstrapping)和交叉驗證(Cross-Validation):
拔靴法是一種技術,可以幫助您在很多情況下驗證預測模型的效能、整合方法、估計模型的偏差和方差。它通過對原始資料進行替換進行取樣,並將“未選擇”的資料點作為測試用例。我們可以多做幾次,並計算平均分作為我們的模型效能的估計。
另一方面,交叉驗證是驗證模型效能的一種技術,它是通過將訓練資料分成k個部分來完成的。我們以k - 1部分作為訓練集,並使用“伸出部分”作為我們的測試集。我們重複k次不同的方式。最後,我們將k分數的平均值作為我們的業績估計。
通常對於線性模型來說,普通最小二乘法是要考慮將其納入資料的主要標準。接下來的3種方法是可以為線性模型的擬合提供更好的預測精度和模型可解釋性的替代方法。
4、子集選擇(Subset Selection)
這種方法確定了我們認為與響應相關的p個預測因子的一個子集。然後,我們使用子集特徵的最小二乘擬合模型。
最佳子集選擇:這裡我們對每個可能的p個預測子組合進行單獨的OLS迴歸擬合,然後檢視最終的模型擬合。該演算法分為2個階段:(1)擬合所有包含k個預測變數的模型,其中k是模型的最大長度;(2)使用交叉驗證的預測誤差選擇單個模型。使用測試或驗證錯誤非常重要,而不是訓練錯誤來評估模型擬合,因為RSS和R 2單調增加更多的變數。最好的方法是在測試誤差估計值上交叉驗證並選擇具有最高R 2和最低RSS的模型。向前逐步選擇考慮p個預測因子的更小的子集。它從不含預測變數的模型開始,然後在模型中新增預測變數,直到所有預測變數都在模型中。被新增的變數的順序是變數,其給出對擬合的最大的加法改進,直到沒有更多的變數使用交叉驗證的預測誤差來改進模型擬合。向後逐步選擇開始將模型中的所有預測變數,然後迭代去除最不有用的預測變數。混合方法遵循前向逐步方法,但是,在新增每個新變數之後,該方法還可以移除對模型擬合沒有貢獻的變數。5、特徵縮減技術(Shrinkage)
這種方法適合一個涉及所有p個預測因子的模型,然而,估計的係數相對於最小二乘估計向零收縮。這種縮水,又稱正規化,具有減少方差的作用。取決於執行什麼型別的收縮,可以估計一些係數恰好為零。因此這個方法也執行變數選擇。將係數估計收縮為零的兩個最著名的技術是嶺迴歸(ridge regression)和lasso迴歸。
嶺迴歸類似於最小二乘,除了通過最小化一個稍微不同的數量估計係數。像OLS一樣,嶺迴歸尋求減少RSS的係數估計,然而當係數接近於零時,它們也會有收縮懲罰。這個懲罰的作用是將係數估計收縮到零。不用進入數學計算,知道嶺迴歸縮小列空間方差最小的特徵是有用的。像在主成分分析中一樣,嶺迴歸將資料投影到雙向空間,然後比高方差分量收縮低方差分量的係數,這相當於最大和最小主分量。嶺迴歸至少有一個缺點;它包括最終模型中的所有p個預測值。罰款期限將使他們中的許多接近於零,但從未完全為零。這對於預測準確性來說通常不是問題,但它可能使模型更難以解釋結果。Lasso迴歸克服了這個缺點,並且能夠迫使一些係數歸零,只要s足夠小。由於s = 1導致有規律的OLS迴歸,當s接近0時,係數收縮為零。因此,Lasso迴歸也執行變數選擇。
回覆列表
1.什麼是SPSS
SPSS是社會統計科學軟體包的簡稱, 其官方全稱為IBM SPSS Statistics。SPSS軟體包最初由SPSS Inc.於1968年推出,於2009年被IBM收購,主要運用於各領域資料的管理和統計分析。作為世界社會科學資料分析的標準,SPSS操作操作介面極其友好,結果輸出介面也很美觀,同時還配備十分詳細的使用者手冊。
1.1 SPSS的核心功能
1.2 資料編輯功能
可以通過SPSS的資料編輯功能,對資料進行增刪改等處理,還可以根據需要對資料進行拆分、加權、排序、聚合等處理。
1.3 視覺化功能
SPSS有很強大的繪圖功能,可以根據模型自動輸出描述性分析的統計圖,反映不同變數間的內在關係;同時還可以由使用者自定義統計圖的基本屬性,使資料分析報告更加美觀。其中,基本圖包括條形圖、扇形圖、餅圖、柱狀圖、箱線圖、直方圖、P-P圖、Q-Q圖等。而它的互動圖更加美觀,包括條形互動圖、帶狀互動圖、箱形互動圖、散點互動圖等不同風格的2D及3D圖。
1.4 表格編輯功能
使用者可以使用SPSS繪製不同風格的表格,同時表格可以在檢視器中編輯,也可以在專門的編輯視窗編輯。
1.5 聯接其他軟體
SPSS可以開啟多種型別的資料檔案, 其中包括Excel、Access、DaBase、文字編輯器、Lotus 1-2-3等等,同時使用者還可以將圖片儲存為不同的圖片格式。
1.6 統計功能
CDA資料分析師認為SPSS統計功能是進行資料分析要重點掌握的模組,通過此功能可以完成絕大部分數理統計模型分析,其中包括:迴歸分析、列聯表分析、聚類分析、因子分析、相關分析、對應分析、時間序列分析、判別分析等。
2.如何用SPSS進行資料分析
首先,要了解資料分析的一般流程是什麼?
CDA資料分析師將一個完整的資料分析專案分為以下五個流程:
2.1 資料獲取
外部資料主要有三種獲取方式,一種是獲取國內一些網站上公開的資料資料,例如國家統計局;一種是通過爬蟲等工具獲取網站上的資料。還有一種是通過企業內部的資料庫,SPSS有豐富的資料庫介面,可以便捷地從資料庫中讀取資料。
2.2 資料儲存
對於資料量不大的專案,可以使用excel來處理資料,但對於資料量過萬的專案,使用資料庫來儲存與管理會更高效便捷。SPSS也有自己的用作資料儲存的資料格式,sav檔案。使用者可以將經過SPSS處理的資料儲存為sav格式,同時也可以非常方便地將sav檔案轉換為其他資料格式檔案。
2.3 資料預處理
資料預處理也稱資料清洗。大多數情況下,我們拿到手的資料是格式不一致,存在異常值、缺失值等問題的,而不同專案資料預處理步驟的方法也不一樣。CDA資料分析師認為資料分析有80%的工作都在處理資料,可見資料預處理在資料分析的重要性。
2.4 建模與分析
這一階段首先要清楚資料的結構,結合專案需求來選取模型。
常見的資料探勘模型有:
2.5 視覺化分析
資料分析最後一步是撰寫資料分析報告,一般包括資料視覺化分析。
其次,掌握了資料分析的一般流程後,便要以SPSS為工具,根據以下流程對一個完整專案進行以下細分並掌握:
作者最新文章拒絕目光短淺來造業,馬斯克認為這些東西比錢更重要!零售中的機器視覺–當前例項和應用Python是啥?竟然徹底改變了老闆對我的看法……
相關文章
用資料瞞天過海!資料分析裡那些難以置信的騙人把戲!厲害了!經理完成財務分析僅需1小時!資料分析動態圖表全都包含資料分析是什麼?一篇文章告訴資料化運營的原理、價值、趨勢基礎元素資料視覺化應用簡列