ROC曲线的例子-装修问答-有货号

在信号检测理论中，接收者操作特征曲线(receiver operating characteristic curve，或者叫ROC曲线)是坐标图式的分析工具，用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。

在做决策时，ROC分析能不受成本／效益的影响，给出客观中立的建议。

ROC曲线首先是由二战中的电子工程师和雷达工程师发明的，用来侦测战场上的敌军载具(飞机、船舰)，也就是信号检测理论。之后很快就被引入了心理学来进行信号的知觉检测。数十年来，ROC分析被用于医学、无线电、生物学、犯罪心理学领域中，而且最近在机器学习(machine learning)和数据挖掘(data mining)领域也得到了很好的发展。

术语

阳性 (P, positive)

阴性 (N, Negative)

真阳性 (TP, true positive) 正确的肯定。又称：命中 (hit)

真阴性 (TN, true negative) 正确的否定。又称：正确拒绝 (correct rejection)

伪阳性 (FP, false positive) 错误的肯定，又称：假警报 (false alarm)，第一型错误

伪阴性 (FN, false negative) 错误的否定，又称：未命中 (miss)，第二型错误

真阳性率 (TPR, true positive rate) 又称：命中率 (hit rate)、敏感度(sensitivity)TPR = TP / P = TP / (TP+FN)

伪阳性率(FPR, false positive rate) 又称：错误命中率，假警报率 (false alarm rate) FPR = FP / N = FP / (FP + TN)

准确度 (ACC, accuracy) ACC = (TP + TN) / (P + N) 即：(真阳性+真阴性) / 总样本数

真阴性率 (TNR) 又称：特异度 (SPC, specificity) SPC = TN / N = TN / (FP + TN) = 1 - FPR

阳性预测值 (PPV) PPV = TP / (TP + FP)

阴性预测值 (NPV) NPV = TN / (TN + FN) 假发现率 (FDR) FDR = FP / (FP + TP)

基本概念

分类模型(又称分类器，或诊断)将实例映射到特定类。ROC分析的是二元分类模型，也就是输出结果只有两种类别的模型，例如：(阳性/阴性) (有病/没病) (垃圾邮件/非垃圾邮件) (敌军/非敌军)。

当讯号侦测(或变量测量)的结果是连续值时，类与类的边界必须用阈值来界定。举例来说，用血压值来检测一个人是否有高血压，测出的血压值是连续的实数（从0~200都有可能），以收缩压140／舒张压90为阈值，阈值以上便诊断为有高血压，阈值未满者诊断为无高血压。二元分类模型的个案预测有四种结局：

真阳性(TP)：诊断为有，实际上也有高血压。伪阳性（FP）：诊断为有，实际却没有高血压。真阴性（TN）：诊断为没有，实际上也没有高血压。伪阴性（FN）：诊断为没有，实际却有高血压。

这四种结局可以画成2 × 2的混淆矩阵

ROC空间

ROC空间将伪阳性率(FPR)定义为 X 轴，真阳性率(TPR)定义为 Y 轴。

给定二元分类模型和它的阈值，就能从所有样本的(阳性/阴性)真实值和预测值计算出(X=FPR, Y=TPR) 座标点。

从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上/右下两个区域，在这条线的以上的点代表了一个好的分类结果(胜过随机分类)，而在这条线以下的点代表了差的分类结果(劣于随机分类)。

完美的预测是在左上角的点，在ROC空间座标 (0,1)点，X=0 代表着没有伪阳性，Y=1 代表着没有伪阴性(所有的阳性都是真阳性)；也就是说，不管分类器输出结果是阳性或阴性，都是100%正确。一个随机的预测会得到位于从 (0, 0) 到 (1, 1) 对角线(也叫无识别率线)上的一个点；最直观的随机预测的例子就是抛硬币。

让我们来看在实际有100个阳性和100个阴性的案例时，四种预测方法(可能是四种分类器，或是同一分类器的四种阈值设定)的结果差异：

完整内容参见原文：

人工智能_数据分析_信号_心理学_生物学等重要术语: ROC接收者操作特征曲线

ROC曲线的例子

常见问题

VIP服务

关于我们

服务热线:

扫码联系我们