資料分析和資料探勘的區別
首先說下資料分析(Data analysis)和資料探勘(Data mining)這兩個概念的區別。
這兩個概念有密切的相關性,很多場合下經常混用,但還是有一些區別的。
首先,顧名思義,資料探勘,英文是data mining,mining本義是挖礦的意思。顯然,你在後院挖出一枚金幣,不能說你挖了一座金礦。所以,資料探勘的資料,需要是大資料。換句話說,假設你開了家咖啡店,辦會員卡需要登記生日,有一天你心血來潮,決定統計下不同年齡層次的人對不同種類咖啡的偏愛,這可以算資料分析,但你要說自己在資料探勘,那就有點說不過去了。
其次,資料探勘包含的過程比資料分析要廣。某種意義上來說,這也和它處理的資料規模有關。除了分析統計之外,大資料的收集、提取關鍵資訊、儲存,都是比較有挑戰性的事情。
最後,大資料(Big Data)其實屬於buzzword。我不知道buzzword該怎麼翻譯,要翻譯成忽悠,可能有點過了。然後資料探勘其實也是buzzword。以前有本書,本來叫《實用機器學習》(Practical machine learning),主要內容是介紹機器學習的基本概念,然後包含用Java語言編寫的一些示例程式碼,演示如何在實際問題上應用機器學習。然後出版商感覺不好賣,就給改成了《資料探勘:實用機器學習工具與技術的Java實現》(Data mining: Practical machine learning tools and techniques with Java Implementation)。然後buzzword的含義,其實都是不能太過深究的,換句話說,都是大筐子,什麼都往裡裝。
(慘遭改名的書——第一版的封面沒找到,這是第二版的封面)
Python資料分析專家,基本上就是numpy、pandas、sklearn這些,然後有的場合可能還需要視覺化,比如matplotlib和seaborn之類,甚至有的場合還需要你會神經網路,比如TensorFlow或者PyTorch。
至於Python資料探勘專家,既然前面已經說了資料探勘是buzzword,所以Python資料探勘專家的技術棧就很龐雜了。除了上面資料分析的那些,還可能包括網頁爬取(比如Scrapy),大資料儲存與處理(比如Hadoop、Spark都有Python介面),傳統關係型資料庫(主要是SQL查詢,因為有很多內部資料可能存在關係型資料庫裡),甚至叢集和虛擬化技術(資料大到一定程度,單機處理來不及)。
資料分析和資料探勘的區別
首先說下資料分析(Data analysis)和資料探勘(Data mining)這兩個概念的區別。
這兩個概念有密切的相關性,很多場合下經常混用,但還是有一些區別的。
首先,顧名思義,資料探勘,英文是data mining,mining本義是挖礦的意思。顯然,你在後院挖出一枚金幣,不能說你挖了一座金礦。所以,資料探勘的資料,需要是大資料。換句話說,假設你開了家咖啡店,辦會員卡需要登記生日,有一天你心血來潮,決定統計下不同年齡層次的人對不同種類咖啡的偏愛,這可以算資料分析,但你要說自己在資料探勘,那就有點說不過去了。
其次,資料探勘包含的過程比資料分析要廣。某種意義上來說,這也和它處理的資料規模有關。除了分析統計之外,大資料的收集、提取關鍵資訊、儲存,都是比較有挑戰性的事情。
最後,大資料(Big Data)其實屬於buzzword。我不知道buzzword該怎麼翻譯,要翻譯成忽悠,可能有點過了。然後資料探勘其實也是buzzword。以前有本書,本來叫《實用機器學習》(Practical machine learning),主要內容是介紹機器學習的基本概念,然後包含用Java語言編寫的一些示例程式碼,演示如何在實際問題上應用機器學習。然後出版商感覺不好賣,就給改成了《資料探勘:實用機器學習工具與技術的Java實現》(Data mining: Practical machine learning tools and techniques with Java Implementation)。然後buzzword的含義,其實都是不能太過深究的,換句話說,都是大筐子,什麼都往裡裝。
(慘遭改名的書——第一版的封面沒找到,這是第二版的封面)
技術棧Python資料分析專家,基本上就是numpy、pandas、sklearn這些,然後有的場合可能還需要視覺化,比如matplotlib和seaborn之類,甚至有的場合還需要你會神經網路,比如TensorFlow或者PyTorch。
至於Python資料探勘專家,既然前面已經說了資料探勘是buzzword,所以Python資料探勘專家的技術棧就很龐雜了。除了上面資料分析的那些,還可能包括網頁爬取(比如Scrapy),大資料儲存與處理(比如Hadoop、Spark都有Python介面),傳統關係型資料庫(主要是SQL查詢,因為有很多內部資料可能存在關係型資料庫裡),甚至叢集和虛擬化技術(資料大到一定程度,單機處理來不及)。