判別方法是確定待判樣品歸屬於哪一組的方法,可分為引數法和非引數法,也可以根據資料的性質分為定性資料的判別分析和定量資料的判別分析。此處給出的分類主要是根據採用的判別準則分出幾種常用方法。除最大似然法外,其餘幾種均適用於連續性資料。
1)最大似然法:用於自變數均為分類變數的情況,該方法建立在獨立事件機率乘法定理的基礎上,根據訓練樣品資訊求得自變數各種組合情況下樣品被封為任何一類的機率。當新樣品進入是,則計算它被分到每一類中去的條件機率(似然值),機率最大的那一類就是最終評定的歸類。
2)距離判別:其基本思想是有訓練樣品得出每個分類的重心座標,然後對新樣品求出它們離各個類別重心的距離遠近,從而歸入離得最近的類。也就是根據個案離母體遠近進行判別。最常用的距離是馬氏距離,偶爾也採用歐式距離。距離判別的特點是直觀、簡單,適合於對自變數均為連續變數的情況下進行分類,且它對變數的分佈型別無嚴格要求,特別是並不嚴格要求總體協方差陣相等。
3)Fisher判別:亦稱典則判別,是根據線性Fisher函式值進行判別,通常用於梁祝判別問題,使用此準則要求各組變數的均值有顯著性差異。該方法的基本思想是投影,即將原來在R維空間的自變數組合投影到維度較低的D維空間去,然後在D維空間中再進行分類。投影的原則是使得每一類的差異儘可能小,而不同類間投影的離差儘可能大。Fisher判別的優勢在於對分佈、方差等都沒有任何限制,應用範圍比較廣。另外,用該判別方法建立的判別方差可以直接用手工計算的方法進行新樣品的判別,這在許多時候是非常方便的。
4)Bayes判別:許多時候使用者對各類別的比例分佈情況有一定的先驗資訊,也就是用樣本所屬分類的先驗機率進行分析。比如客戶對投遞廣告的反應絕大多數都是無迴音,如果進行判別,自然也應當是無迴音的居多。此時,Bayes判別恰好適用。Bayes判別就是根據總體的先驗機率,使誤判的平均損失達到最小而進行的判別。其最大優勢是可以用於多組判別問題。但是適用此方法必須滿足三個假設條件,即各種變數必須服從多元正態分佈、各組協方差矩陣必須相等、各組變數均值均有顯著性差異。
判別方法是確定待判樣品歸屬於哪一組的方法,可分為引數法和非引數法,也可以根據資料的性質分為定性資料的判別分析和定量資料的判別分析。此處給出的分類主要是根據採用的判別準則分出幾種常用方法。除最大似然法外,其餘幾種均適用於連續性資料。
1)最大似然法:用於自變數均為分類變數的情況,該方法建立在獨立事件機率乘法定理的基礎上,根據訓練樣品資訊求得自變數各種組合情況下樣品被封為任何一類的機率。當新樣品進入是,則計算它被分到每一類中去的條件機率(似然值),機率最大的那一類就是最終評定的歸類。
2)距離判別:其基本思想是有訓練樣品得出每個分類的重心座標,然後對新樣品求出它們離各個類別重心的距離遠近,從而歸入離得最近的類。也就是根據個案離母體遠近進行判別。最常用的距離是馬氏距離,偶爾也採用歐式距離。距離判別的特點是直觀、簡單,適合於對自變數均為連續變數的情況下進行分類,且它對變數的分佈型別無嚴格要求,特別是並不嚴格要求總體協方差陣相等。
3)Fisher判別:亦稱典則判別,是根據線性Fisher函式值進行判別,通常用於梁祝判別問題,使用此準則要求各組變數的均值有顯著性差異。該方法的基本思想是投影,即將原來在R維空間的自變數組合投影到維度較低的D維空間去,然後在D維空間中再進行分類。投影的原則是使得每一類的差異儘可能小,而不同類間投影的離差儘可能大。Fisher判別的優勢在於對分佈、方差等都沒有任何限制,應用範圍比較廣。另外,用該判別方法建立的判別方差可以直接用手工計算的方法進行新樣品的判別,這在許多時候是非常方便的。
4)Bayes判別:許多時候使用者對各類別的比例分佈情況有一定的先驗資訊,也就是用樣本所屬分類的先驗機率進行分析。比如客戶對投遞廣告的反應絕大多數都是無迴音,如果進行判別,自然也應當是無迴音的居多。此時,Bayes判別恰好適用。Bayes判別就是根據總體的先驗機率,使誤判的平均損失達到最小而進行的判別。其最大優勢是可以用於多組判別問題。但是適用此方法必須滿足三個假設條件,即各種變數必須服從多元正態分佈、各組協方差矩陣必須相等、各組變數均值均有顯著性差異。