資料探勘是指從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。
資料探勘通常與計算機科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
資料探勘物件
1.資料的型別可以是結構化的、半結構化的,甚至是異構型的。發現知識的方法可以是數學的、非數學的,也可以是歸納的。最終被發現了的知識可以用於資訊管理、查詢最佳化、決策支援及資料自身的維護等。
2.資料探勘的物件可以是任何型別的資料來源。可以是關係資料庫,此類包含結構化資料的資料來源;也可以是資料倉庫、文字、多媒體資料、空間資料、時序資料、Web資料,此類包含半結構化資料甚至異構性資料的資料來源。
3.發現知識的方法可以是數字的、非數字的,也可以是歸納的。最終被發現的知識可以用於資訊管理、查詢最佳化、決策支援及資料自身的維護等。
資料探勘步驟
在實施資料探勘之前,先制定採取什麼樣的步驟,每一步都做什麼,達到什麼樣的目標是必要的,有了好的計劃才能保證資料探勘有條不紊地實施並取得成功。很多軟體供應商和資料探勘顧問公司投提供了一些資料探勘過程模型,來指導他們的使用者一步步地進行資料探勘工作。比如,SPSS公司的5A和SAS公司的SEMMA。
資料探勘過程模型步驟主要包括定義問題、建立資料探勘庫、分析資料、準備資料、建立模型、評價模型和實施。下面讓我們來具體看一下每個步驟的具體內容:
(1)定義問題。在開始知識發現之前最先的也是最重要的要求就是了解資料和業務問題。必須要對目標有一個清晰明確的定義,即決定到底想幹什麼。比如,想提高電子信箱的利用率時,想做的可能是“提高使用者使用率”,也可能是“提高一次使用者使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。
(2)建立資料探勘庫。建立資料探勘庫包括以下幾個步驟:資料收集,資料描述,選擇,資料質量評估和資料清理,合併與整合,構建元資料,載入資料探勘庫,維護資料探勘庫。
(3)分析資料。分析的目的是找到對預測輸出影響最大的資料欄位,和決定是否需要定義匯出欄位。如果資料集包含成百上千的欄位,那麼瀏覽分析這些資料將是一件非常耗時和累人的事情,這時需要選擇一個具有好的介面和功能強大的工具軟體來協助你完成這些事情。
(4)準備資料。這是建立模型之前的最後一步資料準備工作。可以把此步驟分為四個部分:選擇變數,選擇記錄,建立新變數,轉換變數。
(5)建立模型。建立模型是一個反覆的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業問題最有用。先用一部分資料建立模型,然後再用剩下的資料來測試和驗證這個得到的模型。有時還有第三個資料集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的資料集來驗證模型的準確性。訓練和測試資料探勘模型需要把資料至少分成兩個部分,一個用於模型訓練,另一個用於模型測試。
(6)評價模型。模型建立好之後,必須評價得到的結果、解釋模型的價值。從測試集中得到的準確率只對用於建立模型的資料有意義。在實際應用中,需要進一步瞭解錯誤的型別和由此帶來的相關費用的多少。經驗證明,有效的模型並不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定,因此,直接在現實世界中測試模型很重要。先在小範圍內應用,取得測試資料,覺得滿意之後再向大範圍推廣。
(7)實施。模型建立並經驗證之後,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的資料集上。
資料探勘是指從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。
資料探勘通常與計算機科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
資料探勘物件
1.資料的型別可以是結構化的、半結構化的,甚至是異構型的。發現知識的方法可以是數學的、非數學的,也可以是歸納的。最終被發現了的知識可以用於資訊管理、查詢最佳化、決策支援及資料自身的維護等。
2.資料探勘的物件可以是任何型別的資料來源。可以是關係資料庫,此類包含結構化資料的資料來源;也可以是資料倉庫、文字、多媒體資料、空間資料、時序資料、Web資料,此類包含半結構化資料甚至異構性資料的資料來源。
3.發現知識的方法可以是數字的、非數字的,也可以是歸納的。最終被發現的知識可以用於資訊管理、查詢最佳化、決策支援及資料自身的維護等。
資料探勘步驟
在實施資料探勘之前,先制定採取什麼樣的步驟,每一步都做什麼,達到什麼樣的目標是必要的,有了好的計劃才能保證資料探勘有條不紊地實施並取得成功。很多軟體供應商和資料探勘顧問公司投提供了一些資料探勘過程模型,來指導他們的使用者一步步地進行資料探勘工作。比如,SPSS公司的5A和SAS公司的SEMMA。
資料探勘過程模型步驟主要包括定義問題、建立資料探勘庫、分析資料、準備資料、建立模型、評價模型和實施。下面讓我們來具體看一下每個步驟的具體內容:
(1)定義問題。在開始知識發現之前最先的也是最重要的要求就是了解資料和業務問題。必須要對目標有一個清晰明確的定義,即決定到底想幹什麼。比如,想提高電子信箱的利用率時,想做的可能是“提高使用者使用率”,也可能是“提高一次使用者使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。
(2)建立資料探勘庫。建立資料探勘庫包括以下幾個步驟:資料收集,資料描述,選擇,資料質量評估和資料清理,合併與整合,構建元資料,載入資料探勘庫,維護資料探勘庫。
(3)分析資料。分析的目的是找到對預測輸出影響最大的資料欄位,和決定是否需要定義匯出欄位。如果資料集包含成百上千的欄位,那麼瀏覽分析這些資料將是一件非常耗時和累人的事情,這時需要選擇一個具有好的介面和功能強大的工具軟體來協助你完成這些事情。
(4)準備資料。這是建立模型之前的最後一步資料準備工作。可以把此步驟分為四個部分:選擇變數,選擇記錄,建立新變數,轉換變數。
(5)建立模型。建立模型是一個反覆的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業問題最有用。先用一部分資料建立模型,然後再用剩下的資料來測試和驗證這個得到的模型。有時還有第三個資料集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的資料集來驗證模型的準確性。訓練和測試資料探勘模型需要把資料至少分成兩個部分,一個用於模型訓練,另一個用於模型測試。
(6)評價模型。模型建立好之後,必須評價得到的結果、解釋模型的價值。從測試集中得到的準確率只對用於建立模型的資料有意義。在實際應用中,需要進一步瞭解錯誤的型別和由此帶來的相關費用的多少。經驗證明,有效的模型並不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定,因此,直接在現實世界中測試模型很重要。先在小範圍內應用,取得測試資料,覺得滿意之後再向大範圍推廣。
(7)實施。模型建立並經驗證之後,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的資料集上。