-
1 # 愛知識的芝士
-
2 # 智慧情感里奧
大資料的挖掘常用的方法有分類、迴歸分析、聚類、關聯規則、神經網路方法、Web 資料探勘等。這些方法從不同的角度對資料進行挖掘。
所以總體可以認為深度學習跟機器學習都屬於資料探勘的方法。
(1)分類
分類是找出資料庫中的一組資料物件的共同特點並按照分類模式將其劃分為不同的類。
比如我們在電商商平臺上的各類產品,肯定要按照產品屬性進行分類,對應的資料探勘的分類,就是利用屬性去尋找有共同特點的資料物件,歸到一個大集合。
(2)迴歸分析
迴歸分析反映了資料庫中資料的屬性值的特性,透過函式表達資料對映的關係來發現屬性值之間的依賴關係。
比如,我們有了過去三年的銷售資料,我們就可以抽象出影響銷售的因素,對未來的銷售資料做出預測。
(3)聚類。聚類類似於分類,但與分類的目的不同,是針對資料的相似性和差異性將一組資料分為幾個類別。
(4)關聯規則
關聯規則是隱藏在資料項之間的關聯或相互關係,即可以根據一個數據項的出現推匯出其他資料項的出現。
我們最喜歡舉得例子,就是爸爸去超市購物的例子,爸爸去超市買奶粉,如果在旁邊放上爸爸喜歡的啤酒起子、酒精飲料,肯定能引導消費。
(5)神經網路方法。神經網路作為一種先進的人工智慧技術,因其自身自行處理、
分佈儲存和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不 嚴密的知識或資料為特徵的處理問題,它的這一特點十分適合解決資料探勘的問題。
目前的大資料處理,已經不是結構資料為天下,而是有大量文字、音訊、影片、影象等非線性資料,所以基於神經網路的深度學習演算法,目前已經蓬勃發展,不可阻擋的改變著一切。
(6)Web資料探勘。Web資料探勘是一項綜合性技術,指Web 從文件結構和使用的集合C 中發現隱含的模式P,如果將C看做是輸入,P 看做是輸出,那麼Web 挖掘過程就可以看做是從輸入到輸出的一個對映過程。
這個我個人的理解,更像是使用者行為畫像,目前基於HTML5的前端頁面,已經有了充足的資訊獲取能力,比起之前的HTML靜態頁面,實在太強了。以前困惑我們的使用者的分類問題、網站內容時效性問題,使用者在頁面停留時間問題,頁面的鏈入與鏈出數問題等已經慢慢得到了解決。
-
3 # 大漠蒼狼Tony
資料探勘,機器學習與深度學習其實都是屬於人工智慧下的機器學習範疇。機器學習演算法按功能主要分為有監督學習演算法、無監督學習(也叫聚類)演算法、半監督演算法和強化學習演算法。顧名思義,有監督學習演算法就是在訓練模型的時候,每條樣本都有明確的類標;無監督學習演算法在訓練的時候完全沒有類標;半監督學習演算法就是有一部分存在類標,另一部分樣本沒有類標;強化學習就是在訓練的過程中,透過現實環境反饋機制對模型進行矯正的方式來達到訓練的目的。而訓練好的模型,遇到未知樣本的時候,我們就可以對其結果進行預測,也就是題中所說的決策。關聯其實是一類演算法,比如說推薦演算法中的關聯分析
回覆列表
①樸素貝葉斯:
原理è 樸素貝葉斯分類器基於一個簡單的假定:給定目標值時屬性之間相互條件獨立。
條件機率:在B已經發生的情況下繼續發生A的機率表示為,同樣的,綜合可得即貝葉斯定理;文字表述為:
P(類別|特徵)=(P(特徵|類別)*P(類別))/P(特徵)
過程è 在勞動能力鑑定系統的使用中,(1)根據政府釋出的傷殘等級評定標準構建病例詞典;(2)首先對病例進行分詞,提取關鍵詞的詞頻向量和數值大小,使用貝葉斯演算法判定待鑑定人員的殘疾級別;
應用è 垃圾郵件過濾、貸款風險預測
②決策樹:
原理è ID3演算法主要針對屬性選擇問題。是決策樹學習方法中最具影響和最為典型的演算法。該演算法是在樹的各個內部節點處尋找一個屬性,該屬效能最好地將訓練集進行分類。依據貪婪演算法,為了使下一步所需的資訊量最小,要求每一次都選擇其資訊增益最大的屬性作為決策樹的新節點。(常用演算法包括ID3和C4.5)
過程è(1)選擇一個特徵對樣本進行分類,分類的好壞一般取決於樣本集分類後的純度(一般用熵來表示);(2)對分類後的子集遞迴進行步驟1;ID3步驟:(1)如果資料庫中的資料都屬於同一個類,N就是樹葉,在樹葉上 標出所屬的類;如果資料表中沒有其他屬性可以考慮,則N也是樹葉,按照少數服從多數的原則在樹葉上標出所屬類別。否則,根據平均資訊期望值E或GAIN值選出一個最佳屬性作為節點N的測試屬性;(2)節點屬性選定後,對於該屬性中的每個值:從N生成一個分支,並將資料表中與該分支有關的資料收集形成分支節點的資料表,如果分支資料表非空,則運用以上方法從該節點進一步建立子樹。
應用è 保險行業和醫療行業的輔助診斷
原理è kNN演算法的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別,並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。kNN方法在類別決策時,只與極少量的相鄰樣本有關。由於kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對於類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。
過程è (1)準備資料,對資料進行預處理;(2)選用合適的資料結構儲存訓練資料和測試元組;(3)設定引數,如k;(4)維護一個大小為k的的按距離由大到小的優先順序佇列,用於儲存最近鄰訓練元組。隨機從訓練元組中選取k個元組作為初始的最近鄰元組,分別計算測試元組到這k個元組的距離,將訓練元組標號和距離存入優先順序佇列;(5)遍歷訓練元組集,計算當前訓練元組與測試元組的距離,將所得距離L 與優先順序佇列中的最大距離Lmax;(6)進行比較。若L>=Lmax,則捨棄該元組,遍歷下一個元組。若L < Lmax,刪除優先順序佇列中最大距離的元組,將當前訓練元組存入優先順序佇列;(7)遍歷完畢,計算優先順序佇列中k 個元組的多數類,並將其作為測試元組的類別;(8)測試元組集測試完畢後計算誤差率,繼續設定不同的k值重新進行訓練,最後取誤差率最小的k 值。
應用è 文字分類、手寫體識別
④k-means演算法
原理è K-means演算法是很典型的基於距離的聚類演算法,採用距離作為相似性的評價指標,即認為兩個物件的距離越近,其相似度就越大。該演算法認為簇是由距離靠近的物件組成的,因此把得到緊湊且獨立的簇作為最終目標。注意:聚類個數K和初始聚類中心不易確定,會對演算法產生較大的影響。
過程è (1)確定聚類中心;(2)計算每個簇到聚類中心的距離;(3)根據這個距離劃分簇群;(4)計算簇群的平均位置,移動聚類中心到該位置上;(4)重複(2)(3)步,直到聚類中心不再移動,說明該演算法收斂,演算法結束。
應用è 客戶分類、文件分類、物品傳輸最佳化(使用K-means尋找最佳地點)
⑤線性迴歸
原理è 透過最小化損失函式獲得最佳線性方程描述實際問題;
過程è (1)根據實際問題建立線性方程:;(2)建立損失函式方程:;(3)透過梯度下降或最小二乘法最小化損失函式;(4)求得線性方程中的未知變數。
應用è 商品、市場的定價、預測與機器學習中引數調優
⑥apriori演算法
原理è 使用逐層迭代方法並限制候選集的產生找出頻繁項集;
過程è 首先掃描資料庫,累計每項產生動作的個數,並收集滿足最小支援度的項,找出頻繁1項集的集合,記為L1,透過置信度限制不能達到要求的項集(剪枝步),並透過L1自行迭代出L2(連線步),同樣限制未達到要求的頻繁2項集,最終直到不能再找到頻繁K項集。
應用è 廣泛應用於商業資訊分析、活動推廣中;
⑦FP-tree
原理è 作為一個挖掘頻繁項集的演算法,Apriori演算法需要多次掃描資料,I/O是很大的瓶頸。為了解決這個問題,FP Tree演算法(也稱FP