作者曾經寫過系列文章《常用資料探勘演算法從入門到精通》,其中在第五章《常用資料探勘演算法從入門到精通 第五章 貝葉斯分類演算法》就對樸素貝葉斯演算法的理論及其應用有具體講述,需要的讀者可以到作者的主頁檢視更多更詳細的內容。
本文主要講述貝葉斯分類演算法並附有詳細的案例幫助大家理解。
分類分析是一種有監督的機器學習方法。主要解決的問題是利用訓練樣本集獲得分類函式或分類模型。分類模型能很好的擬合訓練樣本集中屬性集與類別之間的關係,也可以預測一個新樣本屬於哪一類。
第二章到第四章講的聚類分析是不知道資料點的類別標籤,需要自己自動分出類來,簡單說就是一堆東西混到一起了,你要把它們區分開來誰和誰是一類的。
分類分析是本身已經知道每個資料點屬於哪個類,它的任務是找到最佳的分類方法,也就是在這種分類方法下分類的分類效果是最佳的,比如,分類錯誤發生的機率最小,或在最小風險下進行分類決策等。
分類
貝葉斯方法是一種研究不確定性的推理方法。不確定性常用貝葉斯機率表示,它是一種主觀機率。通常的經典機率代表事件的物理特性,是不隨人意識變化的客觀存在,而貝葉斯則是人的認識,是個人主觀的估計,隨個人主觀認識的變化而變化。例如,一個投資者認為“購買某種股票能獲得高收益”的機率是 0.6,這裡的 0.6 是投資者根據自己多年股票生意經驗和當時股票行情綜合而成的個人信念。
貝葉斯機率是主觀的,對其估計取決於先驗知識的正確和後驗知識的豐富和準確。因此貝葉斯機率常常可能隨個人掌握資訊的不同而發生變化。
關於機率方面的更多詳細知識,可以檢視作者之前的一篇文章《想要學人工智慧,你必須得先懂點統計學(3)機率與機率分佈》。
聯合機率:設 A,B 是兩個隨機事件,A 和 B 同時發生的機率稱為聯合機率,記為:P(AB)
條件機率:在 B 事件發生的條件下,A 事件發生的機率稱為條件機率,記為:P(A|B),P(A|B) = P(AB) / P(B)
乘法定理:P(AB) = P(B)P(A|B) = P(A)P(B|A)
先驗機率 P(wi)
由樣本的先驗知識得到先驗機率,可從訓練集樣本中估算出來。之所以稱為“先驗”是因為它不考慮任何其他方面的因素。
例如,兩類10個訓練樣本,屬於 w1 的有2個,屬於 w2 的有8個,則先驗機率P(w1) = 0.2,P(w2) = 0.8。
類條件機率 p(x|wi)
在 wi 類發生的條件下,樣本 x 出現的機率。
後驗機率P(wi|x)
對於某個樣本 x , 屬於 wi 類的機率, i=1,···,c。
如果用先驗機率 P(wi) 來確定待分樣本 x 的類別, 依據顯然是非常不充分的,須用類條件機率密度 p(x|wi) 來修正。
根據樣本 x 的先驗機率和類條件機率密度函式 p(x|wi) 用 Bayes 公式重新修正模式樣本所屬類的機率,稱為後驗機率P(wi|x)
用Bayes決策理論分類時要求:
各類總體的機率分佈是已知的
要決策的類別數c是一定的
Bayes公式,也稱Bayes法則
貝葉斯公式
Bayes分類規則:用後驗機率分類
貝葉斯分類規則
購買汽車的顧客訓練集
計算先驗機率和類條件機率
計算後驗機率
因為 P(是|X) > P(否|X),由此可見,對於樣本X,樸素貝葉斯分類預測該顧客會購買汽車。
作者曾經寫過系列文章《常用資料探勘演算法從入門到精通》,其中在第五章《常用資料探勘演算法從入門到精通 第五章 貝葉斯分類演算法》就對樸素貝葉斯演算法的理論及其應用有具體講述,需要的讀者可以到作者的主頁檢視更多更詳細的內容。
本文主要講述貝葉斯分類演算法並附有詳細的案例幫助大家理解。
分類分析分類分析是一種有監督的機器學習方法。主要解決的問題是利用訓練樣本集獲得分類函式或分類模型。分類模型能很好的擬合訓練樣本集中屬性集與類別之間的關係,也可以預測一個新樣本屬於哪一類。
第二章到第四章講的聚類分析是不知道資料點的類別標籤,需要自己自動分出類來,簡單說就是一堆東西混到一起了,你要把它們區分開來誰和誰是一類的。
分類分析是本身已經知道每個資料點屬於哪個類,它的任務是找到最佳的分類方法,也就是在這種分類方法下分類的分類效果是最佳的,比如,分類錯誤發生的機率最小,或在最小風險下進行分類決策等。
分類
貝葉斯機率—主觀機率貝葉斯方法是一種研究不確定性的推理方法。不確定性常用貝葉斯機率表示,它是一種主觀機率。通常的經典機率代表事件的物理特性,是不隨人意識變化的客觀存在,而貝葉斯則是人的認識,是個人主觀的估計,隨個人主觀認識的變化而變化。例如,一個投資者認為“購買某種股票能獲得高收益”的機率是 0.6,這裡的 0.6 是投資者根據自己多年股票生意經驗和當時股票行情綜合而成的個人信念。
貝葉斯機率是主觀的,對其估計取決於先驗知識的正確和後驗知識的豐富和準確。因此貝葉斯機率常常可能隨個人掌握資訊的不同而發生變化。
機率基礎知識關於機率方面的更多詳細知識,可以檢視作者之前的一篇文章《想要學人工智慧,你必須得先懂點統計學(3)機率與機率分佈》。
聯合機率:設 A,B 是兩個隨機事件,A 和 B 同時發生的機率稱為聯合機率,記為:P(AB)
條件機率:在 B 事件發生的條件下,A 事件發生的機率稱為條件機率,記為:P(A|B),P(A|B) = P(AB) / P(B)
乘法定理:P(AB) = P(B)P(A|B) = P(A)P(B|A)
先驗機率 P(wi)
由樣本的先驗知識得到先驗機率,可從訓練集樣本中估算出來。之所以稱為“先驗”是因為它不考慮任何其他方面的因素。
例如,兩類10個訓練樣本,屬於 w1 的有2個,屬於 w2 的有8個,則先驗機率P(w1) = 0.2,P(w2) = 0.8。
類條件機率 p(x|wi)
在 wi 類發生的條件下,樣本 x 出現的機率。
後驗機率P(wi|x)
對於某個樣本 x , 屬於 wi 類的機率, i=1,···,c。
如果用先驗機率 P(wi) 來確定待分樣本 x 的類別, 依據顯然是非常不充分的,須用類條件機率密度 p(x|wi) 來修正。
根據樣本 x 的先驗機率和類條件機率密度函式 p(x|wi) 用 Bayes 公式重新修正模式樣本所屬類的機率,稱為後驗機率P(wi|x)
Bayes 決策理論用Bayes決策理論分類時要求:
各類總體的機率分佈是已知的
要決策的類別數c是一定的
Bayes公式,也稱Bayes法則
貝葉斯公式
Bayes分類規則:用後驗機率分類
貝葉斯分類規則
貝葉斯分類案例購買汽車的顧客訓練集
計算先驗機率和類條件機率
計算後驗機率
因為 P(是|X) > P(否|X),由此可見,對於樣本X,樸素貝葉斯分類預測該顧客會購買汽車。