回覆列表
  • 1 # 獸師兄

    資料分析偏數學和資料前期處理,有時甚至是跟結論關係不大的僅研究資料本身的性質規矩。機器學習偏應用,重結論和場景,在一定程度上可看做資料分析之後的進一步處理。不過總的來說,這兩者是交叉和有很大重疊性的,好比藥物和臨床。前景不前景就涉及世界觀了。我個人是不可知論的,好比機器學習不瘟不火多少年,最近爆發了,之前誰又說得清楚。所以這也是為什麼說做事要隨心和隨愛好,其他聽天命。

  • 2 # 西線學院

      經常看到有很多人把機器學習和資料分析混為一談,因此我想分析一下機器學習和資料分析這兩個職位之間有什麼不同,他們乾的事情有什麼不同,並且藉此來分析下兩者的技術背景有什麼不同。

      首先呢這兩者的第一個區別就是他們處理的資料特點不一樣。那麼怎麼可以簡單地理解呢?

      首先從我們的傳統上。資料分析他們所處理的是交易資料,而我們機器學習處理的則是行為資料。那麼,什麼是交易資料,什麼是行為資料呢?比如說對於一個電商來說,他的使用者交易資料就是下單,比如說對於銀行這樣的系統來說,他的交易資料就是使用者的存取款賬單,再比如對於電信系統來說交易資料就是和使用者的消費賬單有關。總的來說,交易資料本質就是和錢有關的資料。

      從這兩種資料中就開始衍生出下類的兩種區別,首先從資料量上來說,他們就不是一種量級的,那麼從交易資料來說,他只能算是一個少量的資料或者談不上海量的資料,而使用者的行為資料呢,則是一個海量的資料。那麼請想象一下,你每天看多少影片,瀏覽多少網頁,你會發多少帖子,你會搜尋多少次,同時來對比下你每天下幾次訂單,二者之間的對比,高下立判,這其實就是實際上就是交易資料和行為資料的一種明顯的對比。這就好像前幾年,大家公司之間好像沒什麼業務的變化,結果搖身一變就成為了大資料公司了,那就是因為我們把使用者的行為資料一下子收集起來,這樣的資料量一下子猛增起來了,其實本質上來說使用者的交易資料並沒有發生多少的變化,但是由於我們關注了使用者的行為資料,所以現在搖身一變就成為了大資料公司了。

      其實對於這兩種資料分析的方法其實也是不一樣的。

      我們首先來分析下這兩種資料的一種本質的區別。那麼對於交易資料來說,對於資料的一致性其實是非常嚴格的。這樣的原因很好理解,比如我們每個人都會很關注自己在銀行的存款,有多少錢,通常我們都會計較到分的級別,銀行給你多一分少一分我們使用者都不會幹。那麼其實對於交易資料來說我們的使用者要求其實是非常高的,通常都會達到9999的級別或者是99999的級別。那麼對於使用者的行為資料來說對於資料的要求就沒有那麼高了,通常就是這樣的資料多一批少一批都沒有多大的關係。你可能自己也記不清你一天到底訪問了多少個網頁輸入了多少次評論搜尋了多少個歷史,同時對於一家資料公司來說,他們也不是很關心一家公司的使用者的行為資料的一致性,那麼你這批資料就算丟了,對於我們整體的分析也不會有太大的影響,那麼對於使用者的交易資料那就不行了,比如說使用者的轉賬,你一次轉賬至少會涉及兩次交易,對於這兩種交易,可以同時劃分到一種事務中來,要麼同時成功,要麼同時失敗,不能說你這個賬戶轉賬成功,這個賬號轉賬失敗,這樣是絕對不行的。根據上述的分析,我們可以發現這兩種的使用者行為習慣在一致性是有天壤之別的。這就是我們現在為什麼會發現多了很多NOSQL資料庫,當時NOSQL資料庫剛出來的時候,大家都有一種看熱鬧不怕事情大的心態,都感覺這個資料庫是會取代原有資料庫的一種產品。大家都覺得革命要來了,我們被傳統的關係型資料庫壓制了這麼多年了,現在要轉型NOSQL資料庫了,但是當大家用了一段時間以後,大家發現NOSQL資料庫只能處理這樣的行為資料。因為NOSQL資料庫具有分散式和CAP這兩種概念。在保證你的資料吞吐量的情況下會在你的資料一致性上打一個折扣,我們如果是處理使用者的交易資料我們是絕對不會用NOSQL資料庫來儲存的,必須還得用SQL資料庫進行儲存,而只有SQL這樣的資料庫我們是才可以儲存這樣的資料的,實際上對於現在的交易資料和行為資料,我們實際上是由兩種的使用者方式來儲存的。

      最後一點呢,就是我們的分析方法也不一樣,交易資料我們通常可以採用取樣法來進行分析,因為他的一致性比較高,但是對於使用者的行為資料,為什麼我們現在強調大資料,又強調這樣的分散式資料分析平臺,因為我們是要對於使用者的行為資料進行全量分析的,況且我們透過全量分析資料量還不夠呢,更何況取樣分析,可能資料量越大,對於使用者的行為分析的會越準確,預測的越準

      這是從資料本身我們來分析機器學習和資料分析兩者的區別

      然後我麼再看第二個區別,解決的業務問題不同

      那麼對於傳統的資料分析來說他們更多的是來報告歷史上發生了什麼事情,而對於機器學習來說,更多的是預測未來可能會發生的事情,這是二者的本質的區別。

      第三點不同是兩者採取的技術手段不同。

      對於傳統的資料分析,他對於資料的分析方法完全就是由使用者驅動的,這裡的使用者其實是指企業的那些使用者分析師,其資料的分析幾乎都是靠他的經驗驅動的,而分析方式呢,大多數就是互動式分析,工具通常就是OLAP的工具。正是因為資料分析的很大的原因是因為分析師的經驗判斷,就受限於你這個分析師的分析水平,另外一點就是因為人來做,這就限制了我們分析的使用者的容量和使用者的總數。

      但是現在這個資料分析是一種比較成熟的技術了,但是相對來說,這也是一種比較落伍的技術了

      我們再看機器學習,他的主要的分析方法技術主要是靠演算法和資料驅動的,他會自動的進行知識發現,並且判斷出來的資料維度量可能是你想象不到的大,就跟我們現在所判斷的使用者行為的點選預估,在這個裡面,可能會有上百位,上千萬甚至上億的一種維度,對於百度這樣的規模公司,每一次預測可能就會有十億次的分析,這個如果靠人是根本無法想象到的有這麼大的規模。而這樣的規模就只能考機器去做。

  • 中秋節和大豐收的關聯?
  • 職場新人該如何融入一個不熟悉的集體呢?