【数据科学家学习小组】之机器学习第一期第二周作业

【数据科学家学习小组】之机器学习第一期第二周作业

本次作业涉及了很多统计学的知识,对于个人的理解显得有些困难,通过查阅资料,仅对本次要求掌握的重点概念进行了论述,代码部分后期再补,见谅见谅

训练数据集(Train Data):是指用来构建和训练模型的数据。
测试数据集(Validation Data):是指用来评估模型的准确率的数据。

训练数据和测试数据都来自于原始数据,选定的训练数据只能在模型检验时使用,绝对不允许用于模型构建过程,否则会导致过渡拟合。

分类准确度(accuracy):理解分类准确度,首先的先理解分类 (Classification)的真假与正类负类的概念(用放羊的小男孩举例,图片来自: https://blog.csdn.net/qq_14822691/article/details/81051958 ):

image

精准度就是指我们的模型预测正确的结果所占的比 ,也就是
{准确度}= \frac {预测正确的样本数}{总样本数}
, 预测正确的对于上例(二元分类)而言,分类准确度 = \frac{TP + TN}{TP + FP + FN + TN}

精准率: 评价的是对于模型预测的结果是否足够准确,通俗讲就是被我们关注事件真实被我们预测到的概率,对于上例,人们最关心的_<u style="box-sizing: border-box;">是狼来了</u>这件事,精准率的值就是预测狼来了事实狼却是来了的次数(TP)与预测狼来了的次数(TP+FP)的比值,即精准率=\frac{TP} {TP + FP}

召回率: 评价的是在事件真实发生的情况能否被如实预测到,也就是我们关注的那个事件真实的发生情况下,我们成功预测的比例是多少 。亦即召回率 = \frac {TP}{TP + FN}

要全面评估模型的有效性,必须同时检查精确率和召回率 ,但精准率召回率指标往往呈负相关的关系,需要我们根据应用场景进行取舍。对于 量化投资领域,我们期望的是系统预测上涨的股票中,真正上涨的比例越大越好,这就是希望查准率高;对于医疗领域做疾病诊断,我们希望模型尽可能地将所有有病的患者都预测出来,此时关注的召回率多一点。

混淆矩阵: 也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示, 每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目,是一种可视化的工具,比简单的分类准确度更全面。

F1 Score: 是精准率和召回率的调和平均值,介于0与1之间,公式表达式为

gif.gif

,其中precision为精准率,recall为召回率。

ROC曲线: 是一个用于度量分类中的非均衡性的工具,常和AUC( ROC曲线下的面积 )一起用来评价一个二值分类器的优劣 。它描述的是TPR( 预测事件发生,占事件真实发生的数据的百分比,即召回率)和FPR(预测为事件发生但真实未发生的数量,占事件未发生的数据总量的百分比)之间的关系,其中x轴是FPR,y轴是TPR。

均方误差(MSE): 是真实值与预测值的差值的平方然后求和平均,可以抵消掉数据量引起的误差影响。

gif (1).gif

均方根误差(RMSE) : 通过将MSE开平方,可以解决量纲的问题, 衡量观测值与真实值之间的偏差 。

平均绝对误差(MAE)

gif (2).gif

,加m次再除以m,即可求出平均距离,真实值与预测结果之间的距离最小, 可以更好地反映预测值误差的实际情况。
R Squared: 衡量模型拟合度的一个量,是一个比例形式,被解释方差/总方差 ,公式:R-squared = SSR/TSS=1 - RSS/TSS,其中TSS是执行回归分析前,响应变量固有的方差;RSS残差平方和就是,回归模型不能解释的方差;SSR回归模型可以解释的方差。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,271评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,725评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,252评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,634评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,549评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,985评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,471评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,128评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,257评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,233评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,235评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,940评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,528评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,623评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,858评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,245评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,790评论 2 339

推荐阅读更多精彩内容