首頁>Club>
一個完整的資料探勘(資料分析)專案,需要經過哪些工作流程(開發流程)才能實現落地應用的需求?這個過程裡面需要涉及到哪些理論知識或者是實戰開發技術呢?一個完整的專案究竟是怎麼樣的?是否需要具備數學建模等知識呢?比如說,我要用決策樹演算法做一個數據挖掘專案,是不是基於業務資料把決策樹演算法公式,用程式語言程式碼實現出來就可以了?還是說,需要自己寫一個演算法公式?請相關人士,詳細解答一下,謝謝!
7
回覆列表
  • 1 # 小知PHM

    資料探勘的完整開發流程,我來說說我的看法,供大家參考參考:

    資料探勘一般分為三大流程:

    1. 採集資料【爬蟲工程師】(這裡涉及到網路爬蟲的知識,可以透過網路爬蟲採集資料作為資料探勘的樣本資料。也可以採用政府或者企業公司開放出來的資料)。

    2. 處理資料【資料分析師】(這裡就涉及到資料分析的知識了,資料中可能有缺失值、異常值,需要處理資料。還有一方面也要對資料進行轉換和降低維度等,保證資料的質量和可用性)

    3. 對資料建模【機器學習工程師】(資料探勘的第三道工序是使用演算法對處理好的樣本資料進行建模,訓練資料,讓機器學會其中的方法和道理,這樣一來就可以預測出某一件事的發展趨勢和規律)

    資料探勘是一個多學科的行業來的,一個數據挖掘師可以做三個崗位的工作,在現在的大資料時代,是有優勢的。

  • 2 # 量雲大資料

    一個完全的資料探勘專案,必須要有這樣幾個流程:

    1、確定業務問題的目標。很多工程師還沒有確定目標,就直接機械的套用演算法,這是非常不合適的。演算法只是求解問題的方法,不是為了演算法而演算法。業務問題的的目標是整個專案的靈魂和最高目標,目標定義的好壞直接決定了專案的業務價值。

    2、確定目標所需要的資料:有了目標,就可以對問題進行分解,看看需要哪些資料對於目標有足夠的幫助。看看是否資料的維度和體量足夠了。資料的維度和體量足夠,這個過程中有很多對於資料的評估技術,比如檢視資料的均值、方差,驗證資料的之間的互資訊等。有很多統計技術可以幫助你認真的瞭解這些資料。

    3、開始對資料和目標之間建立起模型起來。資料模型就是用來刻畫目標和資料之間關係的工具,有了什麼樣的先驗的模型假設,就會構造什麼樣的模型。因此對於同一個業務問題往往會有很多的模型。這裡面有很多經驗的問題。

    4、利用模型對業務目標進行求解。演算法是在這個地方起作用的。要得到最優解,就要對於模型根據資料尋找最合適的可行解。這個過程對於數學的功底要求比較多,這也是比較深的地方,最好能夠有著比較好的數學基礎,特別是最最佳化理論和方法上的積累,才能夠有比較好的深刻理解。

    5、不斷地除錯引數,看最優解的情況。最終得到一個最合適的解。

    初步說來,就是這5個步驟,其中有很多

    1、資料分析的技巧;

    2、資料建模方法的經驗;

    3、模型設定的技巧;

    4、引數調節的技巧;

    5、模型結果的解讀和使用。

  • 3 # 統計學的世界

    首先說一些資料探勘的理解:相對而言資料分析主要是針對問題利用資料取理解問題的過去和現在。資料探勘則是針對問題,利用資料和相關演算法去理解預測未來;

    再說一下資料探勘的標準流程:

    1.定義問題:這個是資料探勘的重中之重。有時候比解決問題本身要難。這個需要有業務瞭解業務知識和相關資料

    3.整理資料:這個通常佔到整個專案的50%的甚至更多的時間。這個重點要理解業務表 資料之間的關聯性,會用SQL從資料庫中提取資料

    4.建立模型:

    a.對各種模型對資料的要求要有理解:比如logistic迴歸模型要求對連續變數做標 準化,單cart方法不用做標準化

    b.對各種演算法的優點和缺點及適應性甚至模型的組合都有比較深入的理解。及引數調節能力;

    c.利用python進行特徵工作(數值變數離散化、字元變數做one-hot編碼等等)並實現各種演算法調參甚至演算法融合的工程實現的能力

    d.基於python評估模型

    5.評估模型:這個裡面一方面是線下的評估,另外一方是線上的評估。比如ab-test

    6.部署上線(這個要求能將模型需要的變數從原始資料中清晰出來做成自動任務、模型預測也做成自動。自動生成預測名單執行後續的流程),這裡面核心的工程化能力:

    python程式設計和shell基本的操作(通常模型會部署在linux系統上)

    從這個流程來看資料探勘有資料探勘一些專有的模型比如:logistic迴歸、random forest、gbdt、xgboost等等。也不要用程式語言去實現整個演算法。因為python sklearn裡面已經有專門的包幫我們實現了一般常用的演算法。我們只需要瞭解演算法的優缺點,會選用、會呼叫、會調參和會評估就OK

  • 中秋節和大豐收的關聯?
  • 雷霆會退役維斯布魯克的0號球衣嗎?