python模型性能ROC和AUC分析详解

 更新时间:2023年03月22日 16:11:47   作者:冷冻工厂  
这篇文章主要为大家介绍了python模型性能ROC和AUC分析详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

正文

本文将介绍模型性能分析的两个方法:ROC & AUC。

ROC 分析和曲线下面积 (AUC) 是数据科学中广泛使用的工具,借鉴了信号处理,用于评估不同参数化下模型的质量,或比较两个或多个模型的性能。

传统的性能指标,如准确率和召回率,在很大程度上依赖于正样本的观察。因此,ROC 和 AUC 使用真阳性率和假阳性率来评估质量,同时考虑到正面和负面观察结果。

从分解问题到使用机器学习解决问题的过程有多个步骤。它涉及数据收集、清理和特征工程、构建模型,最后是,评估模型性能。

当您评估模型的质量时,通常会使用精度和召回率等指标,也分别称为数据挖掘领域的置信度和灵敏度。

这些指标将预测值与通常来自保留集的实际观察值进行比较,使用混淆矩阵进行可视化。

让我们首先关注精度,也称为阳性预测值。使用混淆矩阵,您可以将 Precision 构建为所有真实阳性与所有预测阳性的比率。

召回率,也称为真阳性率,表示真阳性与观察到的和预测的所有阳性的比率。

使用混淆矩阵中的不同观察集来描述 PrecisionRecall,您可以开始了解这些指标如何提供模型性能的视图。

值得注意的是 Precision 和 Recall 只关注正例和预测,而不考虑任何负例。此外,他们不会将模型的性能与中值场景进行比较,中值场景只是随机猜测。

1. ROC 曲线

ROC 作为汇总工具,用于可视化 Precision 和 Recall 之间的权衡。ROC 分析使用 ROC 曲线来确定二进制信号的值有多少被噪声污染,即随机性。它为连续预测器提供了一系列操作点的灵敏度和特异性摘要。ROC 曲线是通过绘制 x 轴上的假阳性率与 y 轴上的真阳性率来获得的。

由于真阳性率是检测信号的概率,而假阳性率是误报的概率,因此 ROC 分析也广泛用于医学研究,以确定可靠地检测疾病或其他行为的阈值。

一个完美的模型将具有等于 1 的误报率和真阳性率,因此它将是 ROC 图左上角的单个操作点。而最差的可能模型将在 ROC 图的左下角有一个单一的操作点,其中误报率等于 1,真阳性率等于 0。

随机猜测模型有 50% 的机会正确预测结果,因此假阳性率将始终等于真阳性率。这就是为什么图中有一条对角线,代表检测信号与噪声的概率为 50/50。

2. AUC 面积

要全面分析 ROC 曲线并将模型的性能与其他几个模型进行比较,您实际上需要计算曲线下面积 (AUC),在文献中也称为 c 统计量。曲线下面积 (AUC) 的值介于 0 和 1 之间,因为曲线绘制在 1x1 网格上,并且与信号理论平行,它是信号可检测性的度量。

这是一个非常有用的统计数据,因为它可以让我们了解模型对真实观察结果和错误观察结果的排名有多好。它实际上是 Wilcoxon-Mann-Whitney 秩和检验的归一化版本,它检验零假设,其中两个有序测量样本是从单个分布 中抽取的。

要绘制 ROC 曲线并计算曲线下面积 (AUC),您决定使用 SckitLearn 的 RocCurveDisplay 方法并将多层感知器与随机森林模型进行比较,以尝试解决相同的分类任务。

import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score, RocCurveDisplay
def plot_roc(model, test_features, test_targets):
    """
    Plotting the ROC curve for a given Model and the ROC curve for a Random Forests Models
    """
    # comparing the given model with a Random Forests model
    random_forests_model = RandomForestClassifier(random_state=42)
    random_forests_model.fit(train_features, train_targets)
    rfc_disp = RocCurveDisplay.from_estimator(random_forests_model, test_features, test_targets)
    model_disp = RocCurveDisplay.from_estimator(model, test_features, test_targets, ax=rfc_disp.ax_)
    model_disp.figure_.suptitle("ROC curve: Multilayer Perceptron vs Random Forests")
    plt.show()
# using perceptron model as input
plot_roc(ml_percetron_model, test_features, test_targets)

欢迎Star -> 学习目录

以上就是python模型性能ROC和AUC分析详解的详细内容,更多关于python模型性能ROC AUC的资料请关注脚本之家其它相关文章!

相关文章

  • PyTorch之torch.randn()如何创建正态分布随机数

    PyTorch之torch.randn()如何创建正态分布随机数

    这篇文章主要介绍了PyTorch之torch.randn()如何创建正态分布随机数问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • Python中的字典及其使用方法

    Python中的字典及其使用方法

    这篇文章主要介绍了Python中的字典及其使用方法,包括使用字典(添加、删除、修改等操作)、遍历字典以及字典与列表之间的嵌套使用具有一定的参考价值,需要的小伙伴可以参考一下
    2022-03-03
  • wxPython:python首选的GUI库实例分享

    wxPython:python首选的GUI库实例分享

    wxPython是Python语言的一套优秀的GUI图形库。允许Python程序员很方便的创建完整的、功能键全的GUI用户界面。 wxPython是作为优秀的跨平台GUI库wxWidgets的Python封装和Python模块的方式提供给用户的
    2019-10-10
  • 关于Python常用模块时间模块time

    关于Python常用模块时间模块time

    这篇文章主要介绍了关于Python常用模块时间模块time,这个模块是Python自带的,我们不需要去下载,直接导入就可以使用,需要的朋友可以参考下
    2023-04-04
  • 如何在Flask中实现数据分组流程详解

    如何在Flask中实现数据分组流程详解

    在Flask中,数据分组是指将一组数据按照某种方式进行分类,以便更好地对数据进行处理和展示,可以使用Python内置的itertools模块中的groupby方法,或者使用SQL语句中的GROUP BY子句来实现数据分组,这篇文章介绍了在Flask中实现数据分组,感兴趣的同学可以参考下文
    2023-05-05
  • python数据库编程 Mysql实现通讯录

    python数据库编程 Mysql实现通讯录

    这篇文章主要为大家详细介绍了python数据库编程,Mysql实现通讯录,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-03-03
  • python自动安装pip

    python自动安装pip

    这篇文章主要介绍了python自动安装pip的示例,需要的朋友可以参考下
    2014-04-04
  • Python中的五个神仙级函数一起来看看

    Python中的五个神仙级函数一起来看看

    这篇文章主要为大家介绍了Python中的五个神仙级函数,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-01-01
  • Python的Flask站点中集成xhEditor文本编辑器的教程

    Python的Flask站点中集成xhEditor文本编辑器的教程

    xhEditor是基于jQuery的Web端文本编辑器,基本的图片上传等功能也都带有,这里我们就来看一下Python的Flask站点中集成xhEditor文本编辑器的教程
    2016-06-06
  • 在OpenCV里使用Camshift算法的实现

    在OpenCV里使用Camshift算法的实现

    这篇文章主要介绍了在OpenCV里使用Camshift算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11

最新评论