机器学习(一)

一.机器学习的概念

    生活中我们可以利用过去的经验来分析并解决当前遇到的新问题,计算机也可以做同样的事情——即机器学习(Machine Learning)
    机器学习致力于研究通过计算手段,利用经验来改善系统自身的性能。这里所谓的经验指的是就是数据。通过学习算法对输入的数据进行学习,得出的模型,即从数据中学习到的结果。


二.基本术语

例如:(年龄=小明;性别=男性;身高=175),(年龄=小红;性别=女性;身高=165) 这样一组数据

  • 这样的集合称为一个数据集(data set)
  • 其中每条记录都是关于某个个体的描述,称为一个示例(instance)
  • 描述事物某方面特征的值称为 属性(attribute)特征(feature)
  • 属性的取值称为属性值(attribute value)
  • 属性的张成空间称为属性空间(attribute space)样本空间(sample space)或者输入空间可以将一个示例中的三个属性作为坐标系的三个方向,这样就构成了一个三维空间,其中每个点都对应一个坐标向量,所以也可以把一个示例称为“特征向量(feature vector)”
  • 通过数据学习得到模型的过程称为 训练(training)学习(learning)
  • 训练使用的数据称为 训练数据(training data)
  • 其中每个样本称为一个训练样本(training sample)
  • 训练样本组成的集合称为训练集(training set)
  • 模型中得到的某种规律称为假设(hypothesis),而潜在的规律自身则称为真相(ground-truth)整个机器学习的过程就是找出或者让假设逼近真相的一个过程
  • 模型有时候也被称为 学习器(learner)
  • 训练样本的结果称为标记(label)
  • 拥有标记信息的事例称为样例(example)
  • 所有的标记集合称为标记空间(label space)输出空间
  • 使用模型进行预测的过程称为测试(testing)
  • 模型适用于新样本的能力称为泛化(generalization)
  • 机械的记忆训练样本称为机械学习

学习任务的分类

  1. 监督学习(supervised learning),即训练数据具有标记信息,且有反馈(feedback)
  • 预测的结果若为连续值,如0.370.92,则此类学习任务称为回归(regression)
  • 预测的结果若为离散值,如01,“好”或“坏”,则此类学习任务称为分类(classification),其中包括
    1. 二分类(binary classification):即只涉及到两个类别
    2. 多分类(multi-class classification):即涉及到多个类别
  1. 无监督学习(unsupervised learning),即训练数据没有标记信息,且没有反馈(feedback)
  • 聚类(clustering):在使用聚类的过程当中,训练数据没有标记信息。并且,例如身高、体重、性别这样的概念事先是未知的。使用聚类可以了解数据的内在规律,为进一步的分析数据建立基础。
  • 关联(Associative)

三. 假设空间与归纳偏好

    学习的过程就是在所有假设(hypothesis)组成的空间中进行搜索的过程,目标是找到与训练集匹配(fit)的假设。假设的表示一旦确定,假设空间的规模和大小就得到了确定(即假设的数量)。
    但是,现实中的实际问题会面临很大的假设空间,但学习过程是基于有限样本训练集进行的。因此,可能会存在多个假设与训练集一致的情况,我们称之为版本空间(version space)
    由于版本空间的存在,可能导致面临新样本的时候,会产生截然不同的结果。这时候,需要一定的策略对学习结果作出选择,这种策略就是归纳偏好,相当于模型的一种“价值取向”。如若不然,就会被训练集上的等效假设所迷惑,从而无法产生学习结果。
    实际上,算法在不同的问题和情况下好坏程度是不一样的。换句话说,模型的总误差与学习算法性能并没有实际关系!(数学证明略 P8)。因为不同的算符针对具体的问题会有相对的优劣,一旦脱离了具体问题,空泛地谈论哪个算法更加优秀是没有意义的。
   总之,就是具体问题要具体分析。


四.发展历程与应用现状

  1. 搜索引擎
  2. 生物工程
  3. 广告推荐
  4. 自动驾驶
  5. 总统竞选(=。=)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,175评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,674评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,151评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,597评论 1 269
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,505评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,969评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,455评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,118评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,227评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,213评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,214评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,928评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,512评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,616评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,848评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,228评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,772评论 2 339

推荐阅读更多精彩内容