在訊號檢測理論中,接收者操作特徵曲線(receiver operating characteristic curve,或者叫ROC曲線)是座標圖式的分析工具,用於 (1) 選擇最佳的訊號偵測模型、捨棄次佳的模型。 (2) 在同一模型中設定最佳閾值。
在做決策時,ROC分析能不受成本/效益的影響,給出客觀中立的建議。
ROC曲線首先是由二戰中的電子工程師和雷達工程師發明的,用來偵測戰場上的敵軍載具(飛機、船艦),也就是訊號檢測理論。之後很快就被引入了心理學來進行訊號的知覺檢測。數十年來,ROC分析被用於醫學、無線電、生物學、犯罪心理學領域中,而且最近在機器學習(machine learning)和資料探勘(data mining)領域也得到了很好的發展。
術語
基本概念
分類模型(又稱分類器,或診斷)將例項對映到特定類。ROC分析的是二元分類模型,也就是輸出結果只有兩種類別的模型,例如:(陽性/陰性) (有病/沒病) (垃圾郵件/非垃圾郵件) (敵軍/非敵軍)。
當訊號偵測(或變數測量)的結果是連續值時,類與類的邊界必須用閾值來界定。舉例來說,用血壓值來檢測一個人是否有高血壓,測出的血壓值是連續的實數(從0~200都有可能),以收縮壓140/舒張壓90為閾值,閾值以上便診斷為有高血壓,閾值未滿者診斷為無高血壓。二元分類模型的個案預測有四種結局:
真陽性(TP):診斷為有,實際上也有高血壓。偽陽性(FP):診斷為有,實際卻沒有高血壓。真陰性(TN):診斷為沒有,實際上也沒有高血壓。偽陰性(FN):診斷為沒有,實際卻有高血壓。
這四種結局可以畫成2 × 2的混淆矩陣
ROC空間
ROC空間將偽陽性率(FPR)定義為 X 軸,真陽性率(TPR)定義為 Y 軸。
給定二元分類模型和它的閾值,就能從所有樣本的(陽性/陰性)真實值和預測值計算出(X=FPR, Y=TPR) 座標點。
從 (0, 0) 到 (1,1) 的對角線將ROC空間劃分為左上/右下兩個區域,在這條線的以上的點代表了一個好的分類結果(勝過隨機分類),而在這條線以下的點代表了差的分類結果(劣於隨機分類)。
完美的預測是在左上角的點,在ROC空間座標 (0,1)點,X=0 代表著沒有偽陽性,Y=1 代表著沒有偽陰性(所有的陽性都是真陽性);也就是說,不管分類器輸出結果是陽性或陰性,都是100%正確。一個隨機的預測會得到位於從 (0, 0) 到 (1, 1) 對角線(也叫無識別率線)上的一個點;最直觀的隨機預測的例子就是拋硬幣。
讓我們來看在實際有100個陽性和100個陰性的案例時,四種預測方法(可能是四種分類器,或是同一分類器的四種閾值設定)的結果差異:
完整內容參見原文:人工智慧_資料分析_訊號_心理學_生物學等重要術語: ROC接收者操作特徵曲線
在訊號檢測理論中,接收者操作特徵曲線(receiver operating characteristic curve,或者叫ROC曲線)是座標圖式的分析工具,用於 (1) 選擇最佳的訊號偵測模型、捨棄次佳的模型。 (2) 在同一模型中設定最佳閾值。
在做決策時,ROC分析能不受成本/效益的影響,給出客觀中立的建議。
ROC曲線首先是由二戰中的電子工程師和雷達工程師發明的,用來偵測戰場上的敵軍載具(飛機、船艦),也就是訊號檢測理論。之後很快就被引入了心理學來進行訊號的知覺檢測。數十年來,ROC分析被用於醫學、無線電、生物學、犯罪心理學領域中,而且最近在機器學習(machine learning)和資料探勘(data mining)領域也得到了很好的發展。
術語
陽性 (P, positive)陰性 (N, Negative)真陽性 (TP, true positive) 正確的肯定。又稱:命中 (hit)真陰性 (TN, true negative) 正確的否定。又稱:正確拒絕 (correct rejection)偽陽性 (FP, false positive) 錯誤的肯定,又稱:假警報 (false alarm),第一型錯誤偽陰性 (FN, false negative) 錯誤的否定,又稱:未命中 (miss),第二型錯誤真陽性率 (TPR, true positive rate) 又稱:命中率 (hit rate)、敏感度(sensitivity)TPR = TP / P = TP / (TP+FN)偽陽性率(FPR, false positive rate) 又稱:錯誤命中率,假警報率 (false alarm rate) FPR = FP / N = FP / (FP + TN)準確度 (ACC, accuracy) ACC = (TP + TN) / (P + N) 即:(真陽性+真陰性) / 總樣本數真陰性率 (TNR) 又稱:特異度 (SPC, specificity) SPC = TN / N = TN / (FP + TN) = 1 - FPR陽性預測值 (PPV) PPV = TP / (TP + FP)陰性預測值 (NPV) NPV = TN / (TN + FN) 假髮現率 (FDR) FDR = FP / (FP + TP)基本概念
分類模型(又稱分類器,或診斷)將例項對映到特定類。ROC分析的是二元分類模型,也就是輸出結果只有兩種類別的模型,例如:(陽性/陰性) (有病/沒病) (垃圾郵件/非垃圾郵件) (敵軍/非敵軍)。
當訊號偵測(或變數測量)的結果是連續值時,類與類的邊界必須用閾值來界定。舉例來說,用血壓值來檢測一個人是否有高血壓,測出的血壓值是連續的實數(從0~200都有可能),以收縮壓140/舒張壓90為閾值,閾值以上便診斷為有高血壓,閾值未滿者診斷為無高血壓。二元分類模型的個案預測有四種結局:
真陽性(TP):診斷為有,實際上也有高血壓。偽陽性(FP):診斷為有,實際卻沒有高血壓。真陰性(TN):診斷為沒有,實際上也沒有高血壓。偽陰性(FN):診斷為沒有,實際卻有高血壓。
這四種結局可以畫成2 × 2的混淆矩陣
ROC空間
ROC空間將偽陽性率(FPR)定義為 X 軸,真陽性率(TPR)定義為 Y 軸。
給定二元分類模型和它的閾值,就能從所有樣本的(陽性/陰性)真實值和預測值計算出(X=FPR, Y=TPR) 座標點。
從 (0, 0) 到 (1,1) 的對角線將ROC空間劃分為左上/右下兩個區域,在這條線的以上的點代表了一個好的分類結果(勝過隨機分類),而在這條線以下的點代表了差的分類結果(劣於隨機分類)。
完美的預測是在左上角的點,在ROC空間座標 (0,1)點,X=0 代表著沒有偽陽性,Y=1 代表著沒有偽陰性(所有的陽性都是真陽性);也就是說,不管分類器輸出結果是陽性或陰性,都是100%正確。一個隨機的預測會得到位於從 (0, 0) 到 (1, 1) 對角線(也叫無識別率線)上的一個點;最直觀的隨機預測的例子就是拋硬幣。
讓我們來看在實際有100個陽性和100個陰性的案例時,四種預測方法(可能是四種分類器,或是同一分類器的四種閾值設定)的結果差異:
完整內容參見原文:人工智慧_資料分析_訊號_心理學_生物學等重要術語: ROC接收者操作特徵曲線