机器学习基本概念(一)

机器学习 :根据学习算法从海量的数据中总结出规律的过程,总结出来的规律称为模型,机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法,即学习算法;
模型:泛指从数据中学得的结果;
分为监督学习与非监督学习:
监督学习:分类问题、回归问题
无监督学习:聚类问题

基本概念:
数据集:数据记录/样本的集合
属性:反映对象或事件在某方面的表现或者性质的事项
属性值:属性的取值
属性空间/样本空间:由样本属性张成的空间,每个样本都是该空间中的一个向量
训练集:训练使用的数据
测试集:测试使用的数据
标记:数据样本/示例的结果信息
标记空间/输出空间:所有标记的集合

假设空间:目标问题的所有可能的假设;
泛化过程:即从具体事实归结出的一般性规律
泛化能力:推广到一般情况的能力,泛化能力越强,则模型的能力就越好;
演绎:使用公理系统推导出一般性的结论的过程
归纳:从一般性的现象中总结出定理
版本空间:包含某个训练集中所有正例的假设集合;
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
奥卡姆剃刀:当出现多个符合样本集的假设时,选择最简单的假设,但有时遇到复杂问题如何判断简单需要借助其他机制来解决
NFL(No Free Lunch Theorem):没有免费的午餐定理,即总误差与学习算法无关,前提是所有的问题出现的情况都是均等的,所以不同的学习算法都有自己适合的场景;

错误率:分类错误的数量占样本总体数量的比例
训练误差:模型在训练集数据上的误差
泛化误差:模型在新样本上的误差
训练误差并不是越小越好,因为有可能会出现过拟合
过拟合:训练出的模型将训练集数据中的一些特性作为一般性质导致泛化能力下降
欠拟合:对训练集数据的特性没有学习充分

泛化误差的评估方法:
将样本数据分为训练集和测试集;
分类方法有:留出法、交叉验证法、自助法

留出法:将样本集合分为两个集合,一个作为训练集,另一个为测试集,要尽量保证不同类型的数据在两个集合上的比例,一般会按照比例大小进行多次分组,最终取这些组误差均值
常用的比例有:测试:训练 为1:2 或 1:4

交叉验证法:将样本集平均分成k个集合,K称为折,选择一个集合作为测试集,并且每个集合均要作为一次测试集,因此会得到k组训练集+测试集,最后取k组数据的均值,并且可以按照不同类型数据的比例对样本集随机分p次
常用的是10次10折交叉验证法

自助法:从样本集X中选择m个数据作为训练集,并且每次选择后将选择后的数据再放回X,保证每次取数据时数据集都是全集X, 大概有36.8%的数据从未作为训练集数据,这部分就作为测试集

最终交付模型时,会使用原样本集对模型再一次训练

性能度量:
回归任务常用性能度量:均方误差
分类任务常用性能度量:错误率和精度,
特别的对于二分类问题:使用查准率与查全率(召回率) ,查准率:当前预测正确的正例占当前预测为正例的样本数的比例
查全率:预测正确的正例数量占总体真正正例的数量

泛化性能的度量:
比较检验:假设检验、交叉验证检验、McNemar检验、Friedman检验、Nememyi检验

线性回归与逻辑回归的区别:
最明显的区别是逻辑回归比线性回归多了一个sigmod函数,使样本能映射到0-1区间内;
线性回归的预测值是离散值,而逻辑回归也即对数回归的预测值是可枚举的数值;
线性回归解决的是预测问题,而逻辑回归解决的是分类问题;

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容

  • 机器学习 经验 数据 数据中产生模型model 的算法 学习算法 learning algorithm 数据集 d...
    时待吾阅读 3,956评论 0 3
  • 一. 什么是机器学习 通俗来讲,机器学习方法是计算机利用已有的数据(经验),得出了某种模型(规律),并利用此模型预...
    躺在稻田里的小白菜阅读 1,473评论 0 1
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,484评论 0 6
  • 机器学习术语表 本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。 A A/B 测试 (...
    yalesaleng阅读 1,957评论 0 11
  • 》拟合训练数据和寻找能够泛化到新数据的参数有哪些不同。 》如何使用额外的数据设置超参数。 》机器学习本质上属于应用...
    N89757阅读 2,110评论 0 0