读书笔记 |《机器学习》的基本概念(二)

-- 原创,除非授权,不得转载 2017.10.26 --

上一篇文章介绍了热门的概念之后,这篇文章,讲机器学习里的基本术语。

首先,我们要知道,机器学习,是输入大量的数据,利用算法,得到结果的过程。这些概念在机器学习里都有专业名词,知道了这些术语,才开启了机器学习的大门。

问:PM为什么要学这些?
答:知道了这些术语,你才能和程序猿哥哥们在同一频道上正常沟通。

机器学习

术语

1. 关于数据的概念

1.【样本/示例】:一条数据是关于一个事件或对象的描述。在坐标系里表示样本时,也称为【特征向量】。
2.【数据集】:多条数据(样本)的集合。

  1. 【属性】:表示对象在某方面的表现或性质。如,颜色、声音。
  2. 【属性值】:属性上的取值。如,颜色值:红色。声音:清脆。
  3. 【属性空间】:属性张成的空间。如,颜色,声音,大小,作为三个坐标轴,用于描述西瓜🍉,它们在坐标系里张成的空间叫属性空间,也称为【样本空间】【输入空间】。

4.【维数】:属性值的个数,称为维数。比如,颜色、声音、大小,构成了3维样本空间。

放松一下
2.关于学习过程的概念

0.【模型】:泛指从数据中学得的结果。
1.【训练/学习】:从数据中学得模型的过程。
2.【训练数据】:训练过程中使用的数据。
3.【训练样本】:训练数据中的每个样本。
4.【训练集】 :训练样本组成的集合。

1.【假设】:学得模型对应了关于数据的某种潜在规律,称为假设。
2.【真相/真实】:这种潜在规律自身,称为真相。(只有上帝才知道真相,学习过程是为了逼近真相)
3.【学习器】:给定了参数、数据的学习算法。(实例化了一个模型)

稍等一下
3.关于结果的概念

0.【预测】:人类自己预先想到可能的结果。如,预测此模型能判别西瓜🍉的好坏。
1.【标记】:训练样本的结果。如,颜色:红色,声音:清脆,大小:大,训练结果:好瓜。“好瓜”称为标记。
2.【样例】:拥有了标记信息的样本,称为样例。
3.【标记空间】:所有标记的集合。

1.【泛化】:学得模型适用于新样本的能力。
2.【测试】:学得模型后,用其对新样本进行预测的过程。比如,判断一条新数据是不是“好瓜”。
3.【测试样本】:被测试的样本。

至此,我们用新的术语来描述一下,机器学习的过程。

我们用【多维】的数据【样本】进行【训练】,得到一些有【标记】的【训练样本】,以及找到了训练样本之间的规律【假设】,至此【学习器】初步完成。

为了检验学习器对新样本的【泛化】能力,是否和我们的【预测】差不多,我们用【测试样本】进行【测试】。

学会了开心吧
4. 关于学习任务的术语

【训练数据】可以使用有标记的样本,和无标记的样本。
于是学习任务可划分为两大类:【监督学习】和【无监督学习】。其中,常用的任务有【分类】【回归】【聚类】。

学习任务.png

1.【监督学习】:训练数据【有】标记信息。

  • a.【分类】:对指定的模式进行识别,预测值是离散的。如,识别西瓜是“好瓜”或“坏瓜”。属于【监督学习】
    (离散在坐标轴上就是单个的点,如0,1,2。)
    (连续在坐标轴上就是一条线,如0-2上所有的点连线。)

    • 分类又分【二分类】和【多分类】。
    • 【二分类】:对两个类别的分类,两个类分别叫【正类】【反类】。如:好瓜(正类)、坏瓜(反类)。
    • 【多分类】:两个以上类别的分类。
  • b.【回归】:对指定的模式进行识别,预测值是连续的。如,识别西瓜的成熟度,0.81-0.99。属于【监督学习】

2.【无监督学习】:训练数据【没有】标记信息。

休息一下
5.关于学习偏好的术语

【偏好】:机器学习算法在训练过程中对某种类型假设的偏好。

这个术语需要单独解释一下。我们用书中的例子。

偏好

学得的模型可以用上图表示。

如,1. 色泽任意,根蒂蜷缩,敲声任意,的瓜,是好瓜。
也可以是,2. 色泽任意,根蒂蜷缩,敲声清脆,的瓜,是好瓜。

那么问题来了。

一条新数据。色泽青绿,根蒂蜷缩,声音沉闷,的瓜,测试结果是什么?
用1判别,是好瓜。
用2判别,是坏瓜。
改采用哪个?

这就由学习器本身的【偏好】决定了。如果你的学习器偏好1,那就是好瓜。如果偏好2,结果就是坏瓜。结果唯一。

又问:偏好怎么来的?能避免吗?
答:偏好由训练样本,以及学习算法的学习程度决定。
不能避免。没有偏好的学习器,时而判别为好瓜,时而判别为坏瓜,没有使用价值。

又问:有没有什么一般性原则引导学习器建立“正确”(我想要的)偏好?
答:有。如“奥卡姆剃刀:选择最简单的那个”
或者,具体问题具体分析。这就需要PM对于问题的定义了~

快结束啦

总结

所以,天下没有免费的午餐。所有的算法、数据都需要我们依据各自的问题和实际情况进行有目的的训练,没有一劳永逸的学习器。所以才需要PM这个职位。

身为PM,你要知道你的问题是什么,解决手段是什么?你有什么数据,标记过了吗?预测是什么?技术能实现吗?模型怎么测试?什么结果就达到你的要求了?

嗯,道阻且长,祝大家都成为合格的AI PM!


-- 原创,除非授权,不得转载 2017.10.26 --

我的目的是成为一名人工智能相关的产品经理。加油~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容