回覆列表
-
1 # 雲時之間
-
2 # 加米穀大資料
統計學注重的是方式方法,而大資料則更關注於整個資料價值化的過程,大資料不僅需要統計學知識,還需要具備數學知識和計算機知識。
從技術體系結構來看,統計學知識主要應用在大資料分析領域,統計學在資料分析方面已經形成了一個較為系統的知識體系,而且很多技術已經經過了實踐的檢驗。
資料科學家應該知道的5個統計學知識
https://www.toutiao.com/i6712341579173986824/
經常看到有很多人把機器學習和資料分析混為一談,因此我想分析一下機器學習和資料分析這兩個職位之間有什麼不同,他們乾的事情有什麼不同,並且藉此來分析下兩者的技術背景有什麼不同。
首先呢這兩者的第一個區別就是他們處理的資料特點不一樣。那麼怎麼可以簡單地理解呢?
首先從我們的傳統上。資料分析他們所處理的是交易資料,而我們機器學習處理的則是行為資料。那麼,什麼是交易資料,什麼是行為資料呢?比如說對於一個電商來說,他的使用者交易資料就是下單,比如說對於銀行這樣的系統來說,他的交易資料就是使用者的存取款賬單,再比如對於電信系統來說交易資料就是和使用者的消費賬單有關。總的來說,交易資料本質就是和錢有關的資料。
從這兩種資料中就開始衍生出下類的兩種區別,首先從資料量上來說,他們就不是一種量級的,那麼從交易資料來說,他只能算是一個少量的資料或者談不上海量的資料,而使用者的行為資料呢,則是一個海量的資料。那麼請想象一下,你每天看多少影片,瀏覽多少網頁,你會發多少帖子,你會搜尋多少次,同時來對比下你每天下幾次訂單,二者之間的對比,高下立判,這其實就是實際上就是交易資料和行為資料的一種明顯的對比。這就好像前幾年,大家公司之間好像沒什麼業務的變化,結果搖身一變就成為了大資料公司了,那就是因為我們把使用者的行為資料一下子收集起來,這樣的資料量一下子猛增起來了,其實本質上來說使用者的交易資料並沒有發生多少的變化,但是由於我們關注了使用者的行為資料,所以現在搖身一變就成為了大資料公司了。
其實對於這兩種資料分析的方法其實也是不一樣的。
我們首先來分析下這兩種資料的一種本質的區別。那麼對於交易資料來說,對於資料的一致性其實是非常嚴格的。這樣的原因很好理解,比如我們每個人都會很關注自己在銀行的存款,有多少錢,通常我們都會計較到分的級別,銀行給你多一分少一分我們使用者都不會幹。那麼其實對於交易資料來說我們的使用者要求其實是非常高的,通常都會達到9999的級別或者是99999的級別。那麼對於使用者的行為資料來說對於資料的要求就沒有那麼高