ROC曲線的例子？

首頁>Club>2021-04-10 12:16

ROC曲線的例子？

回覆列表

1 # 使用者9565532518258

在訊號檢測理論中，接收者操作特徵曲線(receiver operating characteristic curve，或者叫ROC曲線)是座標圖式的分析工具，用於 (1) 選擇最佳的訊號偵測模型、捨棄次佳的模型。 (2) 在同一模型中設定最佳閾值。

在做決策時，ROC分析能不受成本／效益的影響，給出客觀中立的建議。
ROC曲線首先是由二戰中的電子工程師和雷達工程師發明的，用來偵測戰場上的敵軍載具(飛機、船艦)，也就是訊號檢測理論。之後很快就被引入了心理學來進行訊號的知覺檢測。數十年來，ROC分析被用於醫學、無線電、生物學、犯罪心理學領域中，而且最近在機器學習(machine learning)和資料探勘(data mining)領域也得到了很好的發展。

術語
陽性 (P, positive)陰性 (N, Negative)真陽性 (TP, true positive) 正確的肯定。又稱：命中 (hit)真陰性 (TN, true negative) 正確的否定。又稱：正確拒絕 (correct rejection)偽陽性 (FP, false positive) 錯誤的肯定，又稱：假警報 (false alarm)，第一型錯誤偽陰性 (FN, false negative) 錯誤的否定，又稱：未命中 (miss)，第二型錯誤真陽性率 (TPR, true positive rate) 又稱：命中率 (hit rate)、敏感度(sensitivity)TPR = TP / P = TP / (TP+FN)偽陽性率(FPR, false positive rate) 又稱：錯誤命中率，假警報率 (false alarm rate) FPR = FP / N = FP / (FP + TN)準確度 (ACC, accuracy) ACC = (TP + TN) / (P + N) 即：(真陽性+真陰性) / 總樣本數真陰性率 (TNR) 又稱：特異度 (SPC, specificity) SPC = TN / N = TN / (FP + TN) = 1 - FPR陽性預測值 (PPV) PPV = TP / (TP + FP)陰性預測值 (NPV) NPV = TN / (TN + FN) 假髮現率 (FDR) FDR = FP / (FP + TP)
基本概念

分類模型(又稱分類器，或診斷)將例項對映到特定類。ROC分析的是二元分類模型，也就是輸出結果只有兩種類別的模型，例如：(陽性/陰性) (有病/沒病) (垃圾郵件/非垃圾郵件) (敵軍/非敵軍)。

當訊號偵測(或變數測量)的結果是連續值時，類與類的邊界必須用閾值來界定。舉例來說，用血壓值來檢測一個人是否有高血壓，測出的血壓值是連續的實數（從0~200都有可能），以收縮壓140／舒張壓90為閾值，閾值以上便診斷為有高血壓，閾值未滿者診斷為無高血壓。二元分類模型的個案預測有四種結局：

真陽性(TP)：診斷為有，實際上也有高血壓。偽陽性（FP）：診斷為有，實際卻沒有高血壓。真陰性（TN）：診斷為沒有，實際上也沒有高血壓。偽陰性（FN）：診斷為沒有，實際卻有高血壓。
這四種結局可以畫成2 × 2的混淆矩陣

ROC空間

ROC空間將偽陽性率(FPR)定義為 X 軸，真陽性率(TPR)定義為 Y 軸。

給定二元分類模型和它的閾值，就能從所有樣本的(陽性/陰性)真實值和預測值計算出(X=FPR, Y=TPR) 座標點。

從 (0, 0) 到 (1,1) 的對角線將ROC空間劃分為左上/右下兩個區域，在這條線的以上的點代表了一個好的分類結果(勝過隨機分類)，而在這條線以下的點代表了差的分類結果(劣於隨機分類)。

完美的預測是在左上角的點，在ROC空間座標 (0,1)點，X=0 代表著沒有偽陽性，Y=1 代表著沒有偽陰性(所有的陽性都是真陽性)；也就是說，不管分類器輸出結果是陽性或陰性，都是100%正確。一個隨機的預測會得到位於從 (0, 0) 到 (1, 1) 對角線(也叫無識別率線)上的一個點；最直觀的隨機預測的例子就是拋硬幣。
讓我們來看在實際有100個陽性和100個陰性的案例時，四種預測方法(可能是四種分類器，或是同一分類器的四種閾值設定)的結果差異：

完整內容參見原文：人工智慧_資料分析_訊號_心理學_生物學等重要術語: ROC接收者操作特徵曲線

劇多

ROC曲線的例子？

相關內容