【挖掘篇】:模型的评估

模型的评估

# 训练集和测试集概念
            # 训练集  用来训练模型或确定参数的数据
            # 测试集  是用来验证模型的准确性的数据
            # 交叉验证  70%的数据作为训练集,30%的作为验证集,测试集用交叉表的形式表示
        #        混淆矩阵
        #      1         0               灵敏度  =  A  /  (A  +  B)   样本真/真实真
        # 真  1  A(击中)   B(漏报)         特异度  =  D  /  (C  +  D)   样本假/真实假
        # 实  0  C(虚报)   D(正确否定)
        
        # 1.ROC 曲线 :用来描述模型分辨能力,对角线以上的图形越高越好
            # Y轴--> 灵敏度 (预测真的能力随着Y轴增大增大)  X轴--> 1-特异度(也就是说特异度随着X轴减小,预测假的能力随X轴增大减小)
            # ROC区域占正方形面积,特征:
                # a.敏感度和特异度越大越好
                # b.ROC曲线间的相对重要性
                # c.沿对角线分布可以认为是随机因素造成的
            # 训练集 约等于 验证集   而 验证集  大于  训练集的可能性不大
            # 随着阈值(就是逻辑回归中预测概率从大到小排序) 下降    灵敏度  上升     特异度   下降
            # 阈值最大值,所有客户都为否      阈值最小值,所有客户都为真
            # 违约值分值高敏感,违约分值低铭感
            # ROC曲线结果:
                # [0.5,0.7] 表示效果比较低,但是预测股票已经很不错了
                # [0.7,0.85) 表示效果一般
                # [0.85,0.95] 表示效果良好
                # [0.95,0.1]  社会科学建模中不太可能出现
            # 注意:
                # 有时候ROC曲线有可能会落入对角线以下,这是需要检查检验方向与状态值的对应关系
                # 如果ROC曲线在对角线两边均有分布,需检查数据或者专业背景
        # 2.K-S曲线 :用来描述模型对违约客户的分辨能力
            # X:深度(首先按照预测概率从高到低排序,分为N组)       Y红:正例的累积密度    Y蓝:负例累积密度
                    # P(预测概率)     实际类别     为真组中累积百分比     为假组中累积百分比         (为真-为假)*100
                    #   0.98           1              0.09               0                       9
                    #   0.93           1              0.18               0                       18
                    #   0.82           0              0.18               0.11                     7
                    #   ...
            # K-S统计量:
                # < 20     模型无鉴别能力
                # 20~40    模型勉强接受
                # 41~50    模型具有区别能力
                # 51~60    此模型有很好的区分能力
                # 61~75    此模型有非常好的区分能力
                # > 75     此模型异常,可能有问题 
                
        # 3.洛伦兹曲线:用来描述预期违约客户的分布
            #  X:深度        Y:正例的累积密度
        # 4.累积提升曲线:由于展示使用模型预测结果与随机情况下获取显性样本的能力
            #  X:深度        Y:正例累积密度/基准概率
        # 5.分类与预测算法评价
                # 绝对误差 E = 实际值 - 期望值  相对误差 e = (实际值 - 期望值)/实际值*100
                # 平均绝对误差 MAE = (1/N)∑(第i个实际与预测值的绝对误差)
                # 均方误差 MSE = (1/N)∑(第i个实际值 - 第i个预测值)^2
                # 均方根 RMSE = 根号(MSE)
                # 平均绝对百分误差
                # 识别准确度 = (正确肯定的分类数 + 正确的否定的分类树 )/总样本量 *100
                # 识别精确度 =  正确肯定的分类数 / (正确肯定的分类数 + 错误肯定的分类数) * 100
                # 反馈率 = 正确肯定的分类数 / (正确肯定的分类数 + 正确否定的分类数) * 100
                # ROC曲线
                # 混淆矩阵

参考资料:《Python数据分析与挖掘实战》和 CDA《信用风险建模》微专业

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容