roc曲线与logistic有什么区别

2024-11-25 21:14:18
推荐回答(3个)
回答1:

ROC曲线主要用于研究X对于Y的预测准确率情况,在医学领域使用非常广泛。

Logistic回归主要是研究X对Y的影响关系,其中Y为定类数据,Logistic回归可分为二分类logistic、无序多分类logistic、有序logistic。

包括其他分析方法都可以使用网页在线版本SPSS就是SPSSAU进行分析,里面有智能文字分析可以使用。

回答2:

受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以虚报概率为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。

logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。

回答3:

正因为我们比较关注正例的情形,所以设置了两个相应的指标:tpr与fpr。
tpr:true
positive
rate,将实际的1正确地预测为1的概率,d/(c+d)。
fpr:false
positive
rate,将实际的0错误地预测为1的概率,b/(a+b)。
tpr也称为sensitivity(即生物统计学中的敏感度),在这里也可以称为“正例的覆盖率”——将实际为1的样本数找出来的概率。覆盖率是重要的指标,例如若分类的目标是找出潜在的劣质客户(响应变量取值为1),则覆盖率越大表示越多的劣质客户被找出。
类似地,1-fpr其实就是“负例的覆盖率”,也就是把负例正确地识别为负例的概率。
tpr与fpr相互影响,而我们希望能够使tpr尽量地大,而fpr尽量地小。影响tpr与fpr的重要因素就是上文提到的“阈值”。当阈值为0时,所有的样本都被预测为正例,因此tpr=1,而fpr=1。此时的fpr过大,无法实现分类的效果。随着阈值逐渐增大,被预测为正例的样本数逐渐减少,tpr和fpr各自减小,当阈值增大至1时,没有样本被预测为正例,此时tpr=0,fpr=0。
由上述变化过程可以看出,tpr与fpr存在同方向变化的关系(这种关系一般是非线性的),即,为了提升tpr(通过降低阈值),意味着fpr也将得到提升,两者之间存在类似相互制约的关系。我们希望能够在牺牲较少fpr的基础上尽可能地提高tpr,由此画出了roc曲线。
roc曲线的全称为“接受者操作特性曲线”(receiver
operating
characteristic)
当预测效果较好时,roc曲线凸向左上角的顶点。平移图中对角线,与roc曲线相切,可以得到tpr较大而fpr较小的点。模型效果越好,则roc曲线越远离对角线,极端的情形是roc曲线经过(0,1)点,即将正例全部预测为正例而将负例全部预测为负例。roc曲线下的面积可以定量地评价模型的效果,记作auc,auc越大则模型效果越好。
由于roc曲线描述了在tpr与fpr之间的取舍,因此我一般将其理解为投入产出曲线,receive
of
cost。(事实上我理解错了。相对而言lorenz曲线更适合这个名字。当然啦其实fpr可以理解为另一种cost。2010.10.15)
当我们分类的目标是将正例识别出来时(例如识别有违约倾向的信用卡客户),我们关注tpr,此时roc曲线是评价模型效果的准绳。