roc曲線:接收者操作特徵(receiver operating characteristic),roc曲線上每個點反映著對同一訊號刺激的感受性。
針對一個二分類問題,將例項分成正類(postive)或者負類(negative)。但是實際中分類時,會出現四種情況(都是針對預測的類別來命名的).
(1)真正類(True Postive TP)(預測為正類,剛好預測的是正確的)
(2)假負類(False Negative FN)(預測為負類,只不過預測錯了)
(3)假正類(False Postive FP)(預測為正類,只不過預測錯了)
(4)真負類(True Negative TN)(預測為負類,剛好預測的是正確的)
橫軸:負正類率(false postive rate FPR)特異度,劃分例項中所有負例佔所有負例的比例;(1-Specificity)
縱軸:真正類率(true postive rate TPR)靈敏度,Sensitivity(正類覆蓋率)(又是召回率recall)
由上表可得出橫,縱軸的計算公式:
(1)真正類率(True Postive Rate)TPR: TP/(TP+FN),代表分類器預測的正類中實際正例項佔所有正例項的比例。Sensitivity
(2)負正類率(False Postive Rate)FPR: FP/(FP+TN),代表分類器預測的正類中實際負例項佔所有負例項的比例。1-Specificity
(3)真負類率(True Negative Rate)TNR: TN/(FP+TN),代表分類器預測的負類中實際負例項佔所有負例項的比例,TNR=1-FPR。Specificity
假設採用邏輯迴歸分類器,其給出針對每個例項為正類的機率,那麼透過設定一個閾值如0.6,機率大於等於0.6的為正類,小於0.6的為負類。對應的就可以算出一組(FPR,TPR),在平面中得到對應座標點。隨著閾值的逐漸減小,越來越多的例項被劃分為正類,但是這些正類中同樣也摻雜著真正的負例項,即TPR和FPR會同時增大。閾值最大時,對應座標點為(0,0),閾值最小時,對應座標點(1,1)。
如下面這幅圖,(a)圖中實線為ROC曲線,線上每個點對應一個閾值。
橫軸FPR:1-TNR,1-Specificity,FPR越大,預測正類中實際負類越多。
縱軸TPR:Sensitivity(正類覆蓋率),TPR越大,預測正類中實際正類越多。
理想目標:TPR=1,FPR=0,即圖中(0,1)點,故ROC曲線越靠攏(0,1)點,越偏離45度對角線越好,Sensitivity、Specificity越大效果越好
roc曲線:接收者操作特徵(receiver operating characteristic),roc曲線上每個點反映著對同一訊號刺激的感受性。
針對一個二分類問題,將例項分成正類(postive)或者負類(negative)。但是實際中分類時,會出現四種情況(都是針對預測的類別來命名的).
(1)真正類(True Postive TP)(預測為正類,剛好預測的是正確的)
(2)假負類(False Negative FN)(預測為負類,只不過預測錯了)
(3)假正類(False Postive FP)(預測為正類,只不過預測錯了)
(4)真負類(True Negative TN)(預測為負類,剛好預測的是正確的)
橫軸:負正類率(false postive rate FPR)特異度,劃分例項中所有負例佔所有負例的比例;(1-Specificity)
縱軸:真正類率(true postive rate TPR)靈敏度,Sensitivity(正類覆蓋率)(又是召回率recall)
由上表可得出橫,縱軸的計算公式:
(1)真正類率(True Postive Rate)TPR: TP/(TP+FN),代表分類器預測的正類中實際正例項佔所有正例項的比例。Sensitivity
(2)負正類率(False Postive Rate)FPR: FP/(FP+TN),代表分類器預測的正類中實際負例項佔所有負例項的比例。1-Specificity
(3)真負類率(True Negative Rate)TNR: TN/(FP+TN),代表分類器預測的負類中實際負例項佔所有負例項的比例,TNR=1-FPR。Specificity
假設採用邏輯迴歸分類器,其給出針對每個例項為正類的機率,那麼透過設定一個閾值如0.6,機率大於等於0.6的為正類,小於0.6的為負類。對應的就可以算出一組(FPR,TPR),在平面中得到對應座標點。隨著閾值的逐漸減小,越來越多的例項被劃分為正類,但是這些正類中同樣也摻雜著真正的負例項,即TPR和FPR會同時增大。閾值最大時,對應座標點為(0,0),閾值最小時,對應座標點(1,1)。
如下面這幅圖,(a)圖中實線為ROC曲線,線上每個點對應一個閾值。
橫軸FPR:1-TNR,1-Specificity,FPR越大,預測正類中實際負類越多。
縱軸TPR:Sensitivity(正類覆蓋率),TPR越大,預測正類中實際正類越多。
理想目標:TPR=1,FPR=0,即圖中(0,1)點,故ROC曲線越靠攏(0,1)點,越偏離45度對角線越好,Sensitivity、Specificity越大效果越好