在現在的大資料時代,資訊的來源日益繁多,包括網站、企業應用程式、社交媒體、移動裝置以及日益增加的物聯網產生的資訊(loT)。對企業來說,如何從這些資訊中獲得真正的商業價值變得越發重要,而資料探勘就是資料分析過程中有針對性的一環,優秀的資料分析師會用聰明的挖掘動作,讓複雜的資料變得更得心應手。
“資料探勘”這個術語常常被應用於各種大規模的資料處理活動中,如收集、提取、倉儲和分析資料。它還可以應用於幫助應用程式和技術的改進決策,如人工智慧、機器學習和商業智慧。
一、在大千世界中,發現有價值的知識
1.資料探勘的定義
資料探勘(Data Mining)是指通過大量資料集進行分類的自動化過程,以通過資料分析來識別趨勢和模式,建立關係來解決業務問題。換句話說,資料探勘是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。
2.與資料分析的區別
資料分析和資料探勘都是從資料庫中發現知識、所以我們稱資料分析和資料探勘叫做資料庫中的知識發現。但嚴格意義上來講,資料探勘才是真正意義上的資料庫中的知識發現(Knowledge Discovery in Database,KDD)。
資料分析是從資料庫中通過統計、計算、抽樣等相關的方法,獲取基於資料庫的資料表象的知識,也就是指資料分析是從資料庫裡面得到一些表象性的資訊。資料探勘是從資料庫中,通過機器學習或者是通過數學演算法等相關的方法獲取深層次的知識(比如屬性之間的規律性,或者是預測)的技術。
3.資料探勘,有利有弊
原則上講,資料探勘可以應用於任何型別的資訊儲存庫及瞬態資料(如資料流),如資料庫、資料倉庫、資料集市、事務資料庫、空間資料庫(如地圖等)、工程設計資料(如建築設計等)、多媒體資料(文字、影象、視訊、音訊)、網路、資料流、時間序列資料庫等。也正因如此,資料探勘存在以下特點:
(1)資料集大且不完整
資料探勘所需要的資料集是很大的,只有資料集越大,得到的規律才能越貼近於正確的實際的規律,結果也才越準確。除此以外,資料往往都是不完整的。
(2)不準確性
資料探勘存在不準確性,主要是由噪聲資料造成的。比如在商業中使用者可能會提供假資料;在工廠環境中,正常的資料往往會收到電磁或者是輻射干擾,而出現超出正常值的情況。這些不正常的絕對不可能出現的資料,就叫做噪聲,它們會導致資料探勘存在不準確性。
(3)模糊的和隨機的
資料探勘是模糊的和隨機的。這裡的模糊可以和不準確性相關聯。由於資料不準確導致只能在大體上對資料進行一個整體的觀察,或者由於涉及到隱私資訊無法獲知到具體的一些內容,這個時候如果想要做相關的分析操作,就只能在大體上做一些分析,無法精確進行判斷。
而資料的隨機性有兩個解釋,一個是獲取的資料隨機;我們無法得知使用者填寫的到底是什麼內容。第二個是分析結果隨機。資料交給機器進行判斷和學習,那麼一切的操作都屬於是灰箱操作。
由此,我們可以看出,資料探勘這個強大的工具是利弊共存的,在合適的時機使用,方能事倍功半。
二、持續發展業務,資料探勘技術不可忽視
1.更便捷的開發模型
在過去很多年, 首要原則模型 (first-principle models)是科學工程領域最為經典的模型。比如你要想知道某輛車從啟動到速度穩定行駛的距離,那麼你會先統計從啟動到穩定耗費的時間、穩定後的速度、加速度等引數;然後運用牛頓第二定律(或者其他物理學公式)建立模型;最後根據該車多次實驗的結果列出方程組從而計算出模型的各個引數。
通過該過程,你就相當於學習到了一個知識 --- 某輛車從啟動到速度穩定行駛的具體模型。此後往該模型輸入車的啟動引數便可自動計算出該車達到穩定速度前行駛的距離。
然而,在資料探勘的思想中,知識的學習是不需要通過具體問題的專業知識建模。如果之前已經記錄下了100輛型號效能相似的車,從啟動到速度穩定行駛的距離,那麼我就能夠對這100個數據求均值,從而得到結果。顯然,這一過程是是直接面向資料的,或者說我們是直接從資料開發模型的。
這其實是模擬了人的原始學習過程。比如你要預測一個人跑100米要多久時間,你肯定是根據之前了解的他(研究物件)這樣體型的人跑100米用的多少時間做一個估計,而不會使用牛頓定律來算。
2.計算機技術的成熟
資料探勘理論涉及到的面很廣,它實際上起源於多個學科。如建模部分主要起源於統計學和機器學習。統計學方法以模型為驅動 ,常常建立一個能夠產生資料的模型;而機器學習則以演算法為驅動 ,讓計算機通過執行演算法來發現知識。
隨著網際網路工具的發展,分享和協作的成本大大降低。我們每天用手機聊天、購物、刷短視訊、看新聞等日常的不經意動作給網際網路行業提供了體量龐大的資料。這些資料通常被收集、存放在大型資料儲存庫中,沒有強有力的工具,理解它們已經遠遠超出了我們的能力。而資料探勘技術的出現解決了這一問題。它可以從海量的資料中提取出有價值的資訊,從而作為決策的重要依據。
3.為企業生產銷售做預測
資料探勘的真正價值在於能夠以資料中的模式和關係的形式挖掘隱藏的寶石,這可以用來做出對企業有重大影響的預測。例如,如果一家公司確定特定的營銷活動導致在該國某些地區的某種產品的特定型號的銷售額非常高,而在其它地區則不然,那麼它可以在將來重新調整該廣告活動以獲得最大的回報。
該技術的好處可能會因業務型別和目標而異。例如,零售業的銷售和營銷經理可能用不同的方式挖掘客戶資訊以提高轉化率,這種提高轉化率的方式迥異於航空公司或金融服務業。
不管是什麼行業,過去應用於銷售模式和客戶行為的資料探勘都可用於建立預測未來銷售和行為的模型。資料探勘也有助於取消可能損害企業的活動。例如,你可以使用資料探勘來提高產品的安全性,或檢測保險和金融服務交易中的欺詐活動。
三、資料探勘的目標是什麼?
資料探勘的兩大基本目標是預測和描述資料,其中前者的計算機建模及實現過程通常被稱為監督學習(supervised learning) ,後者的則通常被稱為無監督學習(supervised learning) 。往更細分,資料探勘的目標可以劃分為以下這些:
1.預測資料
預測性挖掘任務對當前資料進行推斷,以做出預測。預測主要包括分類——將樣本劃分到幾個預定義類之一;迴歸——將樣本對映到一個真實值預測變數上。也就是說給了一定的目標屬性,讓去預測目標的另外一特定屬性。如果該屬性是離散的,通常稱之為“分類”,而如果目標屬性是一個連續的值,則稱之為“迴歸”。
2.描述資料
描述性挖掘任務是描述資料庫中資料的一般性質。描述主要包括聚類——將樣本劃分為不同類(無預定義類),關聯規則發現——發現數據集中不同特徵的相關性。這是指找出資料間潛在的聯絡模式。比方說兩個資料存在強關聯的關係,像大資料分析發現的一個特點:買尿布的男性通常也會買點啤酒,那麼商家根據這個可以將這兩種商品打包出售來提高業績。
另外一個非常重要的就是聚類分析,這也是在日常資料探勘中應用非常非常頻繁的一種分析,旨在發現緊密相關的觀測值組群,可以在沒有標籤的情況下將所有的資料分為合適的幾類來進行分析或者降維。
其他的描述任務還有異常檢測,其過程類似於聚類的反過程,聚類將相似的資料聚合在一起,而異常檢測將離群太遠的點給剔除出來。
四、資料探勘的常見分析方法
1.神經網路方法
神經網路由於本身良好的魯棒性、自組織自適應性、並行處理、分佈儲存和高度容錯等特性非常適合解決資料探勘的問題,因此近年來越來越受到人們的關注。
2.遺傳演算法
遺傳演算法是一種基於生物自然選擇與遺傳機理的隨機搜尋演算法,是一種仿生全域性優化方法。遺傳演算法具有的隱含並行性、易於和其它模型結合等性質使得它在資料探勘中被加以應用。
3.決策樹方法
決策樹是一種常用於預測模型的演算法,它通過將大量資料有目的分類,從中找到一些有價值的,潛在的資訊。它的主要優點是描述簡單,分類速度快,特別適合大規模的資料處理。
4.粗集方法
粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外資訊;簡化輸入資訊的表達空間;演算法簡單,易於操作。粗集處理的物件是類似二維關係表的資訊表。
5.覆蓋正例排斥反例方法
它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與欄位取值構成的選擇子相容則捨去,相反則保留。按此思想迴圈所有正例種子,將得到正例的規則(選擇子的合取式)。
6.統計分析方法
在資料庫欄位項之間存在兩種關係:函式關係和相關關係,對它們的分析可採用統計學方法,即利用統計學原理對資料庫中的資訊進行分析。可進行常用統計、迴歸分析、相關分析、差異分析等。
7.模糊集方法
即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的複雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。其他相關演算法參考文末分享的參考文章。
五、資料探勘的基本步驟
從形式上來說,資料探勘的開發流程是迭代式的。開發人員通過如下幾個階段對資料進行迭代式處理:
1.解讀需求
絕大多數的資料探勘工程都是針對具體領域的,因此資料探勘工作人員不應該沉浸在自己的演算法模型世界裡,而應該多和具體領域的專家交流合作以正確的解讀出專案需求,且這種合作應當貫穿整個專案生命週期。
2.蒐集資料
在大型公司,資料蒐集大都是從其他業務系統資料庫提取。很多時候我們是對資料進行抽樣,在這種情況下必須理解資料的抽樣過程是如何影響取樣分佈,以確保評估模型環節中用於訓練(train)和檢驗(test)模型的資料來自同一個分佈。
3.預處理資料
預處理資料可主要分為資料準備和資料歸約兩部分。其中前者包含了缺失值處理、異常值處理、歸一化、平整化、時間序列加權等;而後者主要包含維度歸約、值歸約、以及案例歸約。
4.評估模型
確切來說,這一步就是在不同的模型之間做出選擇,找到最優模型。很多人認為這一步是資料探勘的全部,但顯然這是以偏概全的,甚至絕大多數情況下這一步耗費的時間和精力在整個流程裡是最少的。
5.解釋模型
資料探勘模型在大多數情況下是用來輔助決策的,人們顯然不會根據“黑箱模型”來制定決策。如何針對具體環境對模型做出合理解釋也是一項非常重要的任務
六、資料探勘在各行業的應用
零售商可以部署資料探勘,以更好地識別人們根據過去的購買習慣可能購買哪個產品,或者哪些商品在一年的某些時間可能熱賣。這可以幫助商家規劃庫存和儲存佈局,同時也可以利用資料探勘來做線下零售店鋪的智慧選址。
銀行和其他它金融服務提供商可以挖掘與其客戶帳戶、交易和渠道偏好相關的資料,以更好地滿足他們的需求。它們還可以從他們的網站和社交媒體互動中分析資料,以增加現有客戶的忠誠度並吸引新客戶。
製造企業可以使用資料探勘在生產過程中發現模式,從而可以精確地識別出瓶頸和有缺陷的方法,並設法提高效率。它們還可以將知識從資料探勘應用於產品設計,並根據客戶體驗的反饋進行調整。
教育機構可以從資料探勘中受益,例如分析資料集,以預測學生的未來學習行為和表現,然後利用這些知識來改進教學方法或課程。
醫療保健提供者可以挖掘和分析資料,以確定向患者提供護理和降低成本的更好的方法。在資料探勘的幫助下,他們可以預測需要照顧的病人數量以及患者需要什麼型別的服務。在生命科學領域,資料探勘可用於從大量生物資料中獲取洞察,幫助開發新藥和其他治療方法。
在包括醫療保健和零售在內的多個行業,你可以使用資料探勘來檢測詐騙和其它濫用行為——比傳統的識別此類活動的方法要快得多。
七、小結
在資料探勘中,準備本身的初始行為(例如聚集然後使資料合理化)可以揭示可能危及資料機密性的資訊或模式。因此,不經意地違反道德問題或法律要求是有可能的。因此資料探勘的每一步還需要資料保護,以確保資料不被偷竊、改變或祕密訪問。安全工具包括加密、訪問控制和網路安全機制。
儘管存在這些挑戰,但資料探勘已成為很多組織IT戰略的重要組成部分,這些組織力圖通過收集或訪問的所有資訊獲得價值。隨著預測分析、人工智慧、機器學習和其它相關技術的不斷進步,這一驅動力無疑將加速。