-
1 # 資料大視界
-
2 # 光伏漢唐
維基百科將資料探勘定義為“在大型資料集中發現模式的過程,其中涉及機器學習,統計資料和資料庫系統交叉處的方法”。資料探勘在90年代和2000年代初期非常流行。一些訊息來源說資料探勘也被稱為資料庫知識發現(KDD),而另一些人則說它是KDD的階段之一。但是,最重要的是資料探勘將來自較大池的資料彙總在一起,並試圖找到兩個概念或專案之間的關聯。例如,它可以找到杏仁與真菌或啤酒與尿布之間的相關性。資料探勘中用於使資料有意義的更常見操作包括聚類,預測或描述性模型-預測,偏差,資料集之間的相關性,分類,迴歸和彙總。
資料分析是指“對資料進行提取,清理,轉換,建模和視覺化,以發現有意義和有用的資訊,這些資訊可有助於得出結論並做出決策,並可隨著時間推移使結果更加精確。"資料分析涉及技術和非技術工具。資料分析有多個階段,這些階段可以反覆進行以提高準確性並獲得更好的結果。資料分析的階段包括:瞭解業務目標,資料收集,資料清理,資料處理,通訊,最佳化和重複。
資料探勘,資料分析之間有七大區別:
1.從定義上說,資料探勘是指在大量資料中發現模式,資料分析是指提取和組織資料以得出可用於做出明智決策的結論。
2.資料探勘的覆蓋範圍包括機器學習,統計和資料庫系統,資料分析包括資料探勘,資料統計,計算機科學,非技術工具。
3.資料探勘可稱為資料庫中的知識發現(KDD),資料探勘是指指描述性,預測性分析,解釋性分析等。
4.資料探勘的慕斯是查詢模式,資料分析是為了進行資料測試假設,業務決策。
5.工作人數上來講,資料探勘一個人就可以完成,資料分析需要一個較大的團隊。
6.資料探勘的輸出結果是輸出資料模式,資料分析的結果是經過驗證的假設,深入瞭解資料。
7.資料探勘的資料結構是是高度結構化的,資料分析的資料結結構化結構化和非結構化。
-
3 # NC少年
通俗點說,資料分析是本科生,透過簡單的統計來觀察小資料,解決相對簡單問題,比如使用者年齡分佈分析;而資料探勘是研究生,透過機器學習演算法建模,要深挖大資料背後的模式,來解決複雜問題,比如個性化推薦。
方法論方面:一個是統計,一個是機器學習資料分析作用的多數是機率統計理工具,比如留存率的分析,大多數上是對歷史資料的某個維度的展示。而資料探勘,背後的目標隱藏在大資料中,需要透過機器學習、深度學習理論去預測,比如挖掘使用者的喜好,本質上是對使用者未來行為的預測。
工具層面:一個是excel,一個是程式碼資料分析,透過excel可以基本搞定,excel內建很多統計函式,頂多做個簡單的線性迴歸分析。而資料探勘,將要利用大資料、機器學習等用更專業的程式語言來實現,比如python呼叫sklearn或xgboost,來實現。
資料層面:一個是小資料,一個是大資料資料分析資料量上相對小,或者很多資料都進行了聚合。比如透過分析某商品的近幾年的銷量來看市場趨勢。而資料探勘,背後對應的大部分為海量資料,比如透過使用者行為日誌,來對使用者做千人千面的個性化推薦。
實際專案中,以實際需求驅動,根據實際情況選不同的方法。
-
4 # 數通暢聯
從概念上來看,資料探勘是用人工智慧、機器學習、統計學、資料庫的交叉方法在相對較大型的資料庫的資料集中發現模式的計算過程;資料分析是指對資料進行提取、清理、轉換、建模和視覺化,以發現有意義和有用的資訊,這些資訊可有助於得出結論並做出決策,並可隨著時間推移使結果更加精確。資料分析的階段包括:瞭解業務目標、資料收集、資料清理、資料處理、通訊、最佳化和重複。
在DAP資料分析平臺中,可以透過建立不同的業務主題對業務資料和主資料實現提取、加工轉換、建模和視覺化展現,將不同主題的資料透過加工處理得到使用者需要的指標,實現多指標資訊的建模方式以滿足不同業務的需要,這些指標資訊不但能讓企業對業務做出更迅速的決策和更便捷的分析,也能體現出了大資料技術的價值。
回覆列表
概念上講,資料探勘和資料分析是不同的。
資料探勘: (Data Minning) ,是指從大量的資料中,透過統計學、人工智慧、機器學習等方法,挖掘出未知的、且有價值的資訊和知識的過程,不是簡單的資料分組、彙總、統計,而是要結合統計學、機器學習等演算法進行深入分析,並形成有價值的輸出結果,輸出結果是確定的模型或者最佳化的規則,可以用於批次資料的大生產;
資料分析:(Data analysis),是指對資料進行分析,分析可以結合很多統計分析方法和有用的工具,方法主要有分組、對比、迴歸等,輸出的結果通常是統計量的結果,例如總和,平均值等。