机器学习常用术语总结

模型评估常用名词

错误率:

分类错误的样本数占样本总数的比例称为“错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m;

精度:

1-a/m称为“精度”(accuracy),即“精度=1一错误率”。

误差:

学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(error),学习器在训练集上的误差称为“训练误差”(training error)或“经验误差”(empirical error),在新样本上的误差称为“泛化误差”(generalization error)。我们希望得到泛化误差小的学习器,实际能做的是努力使经验误差最小化。

混淆矩阵:

|xx | +1 | -1 |
| +1 | TP(真正) | FN()|
| -1 | FP | TN|

正确率/查准率:

(Precision),它等于 TP/(TP+FP) ,给出的是预测为正例的样本中的真正正例的比例。

召回率/查全率:

(Recall),他等于 TP/(TP+FN),给出的是预测为正例的真实正例占所有真实正例的比例。

ROC与AUC

ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,其横轴是“假正例率”(False Positive Rate,简称FPR),纵轴是“真正例率”(True Positive Rate,简称TRP),
TPR = TP/(TP+FN)
FPR = FP/(TN+FP)

ROC曲线给出的是当阈值变化时假阳率和真阳率的变化情况。左下角的点所对应的是将所有样例判为反例的情况,而右上角的点对应的则是将所有样例判为正例的情况。虚线给出的是随机猜测的结果曲线。
对不同的ROC曲线进行比较的一个指标是曲线下的面积(Area Unser the Curve)。AUC给出的是分类器的平均性能值,当然它并不能完全代替对整条曲线的观察。一个完美分类器的AUC为1.0,而随机猜测的AUC则为0.5。

“过拟合”(overfitting)与“欠拟合”(underfitting):

学习器把训练样本学得太好了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会有的一般性质,这样就会导致泛化能力下降。这种现象在机器学习中称为过拟合,相对地,欠拟合是指对训练样本的一般性质尚未学好。

基础术语

数据集与属性

记录的集合称为一个“数据集”(data set) 或者“示例”(instance)或者“样本”(sample)
反映的对象的性质的。例如“色泽”,“根蒂”,“敲声”称为“属性”(attribute)或者“特征”(feature)

模型

若预测的是离散值,此学习任务称为“分类”(classification)
若预测的是连续值,此学习任务称为“回归”(regression)
“聚类”(clustering),即将训练集中西瓜分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇可能对应潜在的概念划分,在聚类学习中,都是事先不知道的,通常不拥有标记信息。

学得模型后,使用其进行预测的过程称为“测试”(testing), 被预测的样本称为“预测样本”(testing sample)。 Fx: 学得f 后,对X进行测试,可得到其预测标记,即 y=f(X)

监督学习和无监督学习

根据训练数据是否有标记信息,学习任务可分为以下两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning) 分类和回归是前者的代表,而聚类则是后者的代表。机器学习使学得的模型适用于“新样本”,学得的模型适用于新样本的能力,称为“泛化”(generalization)能力。
打一个最简单的比喻,我们的目的是为了能够用机器来代替我们的经验来判断一个西瓜到底是不是好瓜!有两种办法,第一种就是告诉机器现有的瓜,让一个经验丰富的瓜农来帮你分好哪些是好瓜,哪些是坏瓜,让你根据特征来学习!这就是有人告诉你对错!就是受到教育! 第二种就是给你一堆瓜,啥的都不告诉你,你跟进你的观察和思考,自主将这些瓜分类,这一堆瓜有都是本地的,这一堆瓜都是深绿色的,然后根据调整,自己找到好瓜的那一堆!

分布

通常假设样本空间中全体样本服从一个未知的“分布”(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed).训练样本越多,得到关于D的信息越多,越可能通过学习获得强泛化能力的模型

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,968评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,682评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,254评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,074评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,964评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,055评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,484评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,170评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,433评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,512评论 2 308
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,296评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,184评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,545评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,150评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,437评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,630评论 2 335

推荐阅读更多精彩内容