-- 原创,除非授权,不得转载 2017.10.26 --
上一篇文章介绍了热门的概念之后,这篇文章,讲机器学习里的基本术语。
首先,我们要知道,机器学习,是输入大量的数据,利用算法,得到结果的过程。这些概念在机器学习里都有专业名词,知道了这些术语,才开启了机器学习的大门。
问:PM为什么要学这些?
答:知道了这些术语,你才能和程序猿哥哥们在同一频道上正常沟通。
术语
1. 关于数据的概念
1.【样本/示例】:一条数据是关于一个事件或对象的描述。在坐标系里表示样本时,也称为【特征向量】。
2.【数据集】:多条数据(样本)的集合。
- 【属性】:表示对象在某方面的表现或性质。如,颜色、声音。
- 【属性值】:属性上的取值。如,颜色值:红色。声音:清脆。
- 【属性空间】:属性张成的空间。如,颜色,声音,大小,作为三个坐标轴,用于描述西瓜🍉,它们在坐标系里张成的空间叫属性空间,也称为【样本空间】【输入空间】。
4.【维数】:属性值的个数,称为维数。比如,颜色、声音、大小,构成了3维样本空间。
2.关于学习过程的概念
0.【模型】:泛指从数据中学得的结果。
1.【训练/学习】:从数据中学得模型的过程。
2.【训练数据】:训练过程中使用的数据。
3.【训练样本】:训练数据中的每个样本。
4.【训练集】 :训练样本组成的集合。
1.【假设】:学得模型对应了关于数据的某种潜在规律,称为假设。
2.【真相/真实】:这种潜在规律自身,称为真相。(只有上帝才知道真相,学习过程是为了逼近真相)
3.【学习器】:给定了参数、数据的学习算法。(实例化了一个模型)
3.关于结果的概念
0.【预测】:人类自己预先想到可能的结果。如,预测此模型能判别西瓜🍉的好坏。
1.【标记】:训练样本的结果。如,颜色:红色,声音:清脆,大小:大,训练结果:好瓜。“好瓜”称为标记。
2.【样例】:拥有了标记信息的样本,称为样例。
3.【标记空间】:所有标记的集合。
1.【泛化】:学得模型适用于新样本的能力。
2.【测试】:学得模型后,用其对新样本进行预测的过程。比如,判断一条新数据是不是“好瓜”。
3.【测试样本】:被测试的样本。
至此,我们用新的术语来描述一下,机器学习的过程。
我们用【多维】的数据【样本】进行【训练】,得到一些有【标记】的【训练样本】,以及找到了训练样本之间的规律【假设】,至此【学习器】初步完成。
为了检验学习器对新样本的【泛化】能力,是否和我们的【预测】差不多,我们用【测试样本】进行【测试】。
4. 关于学习任务的术语
【训练数据】可以使用有标记的样本,和无标记的样本。
于是学习任务可划分为两大类:【监督学习】和【无监督学习】。其中,常用的任务有【分类】【回归】【聚类】。
1.【监督学习】:训练数据【有】标记信息。
-
a.【分类】:对指定的模式进行识别,预测值是离散的。如,识别西瓜是“好瓜”或“坏瓜”。属于【监督学习】
(离散在坐标轴上就是单个的点,如0,1,2。)
(连续在坐标轴上就是一条线,如0-2上所有的点连线。)- 分类又分【二分类】和【多分类】。
- 【二分类】:对两个类别的分类,两个类分别叫【正类】【反类】。如:好瓜(正类)、坏瓜(反类)。
- 【多分类】:两个以上类别的分类。
b.【回归】:对指定的模式进行识别,预测值是连续的。如,识别西瓜的成熟度,0.81-0.99。属于【监督学习】
2.【无监督学习】:训练数据【没有】标记信息。
5.关于学习偏好的术语
【偏好】:机器学习算法在训练过程中对某种类型假设的偏好。
这个术语需要单独解释一下。我们用书中的例子。
学得的模型可以用上图表示。
如,1. 色泽任意,根蒂蜷缩,敲声任意,的瓜,是好瓜。
也可以是,2. 色泽任意,根蒂蜷缩,敲声清脆,的瓜,是好瓜。
那么问题来了。
一条新数据。色泽青绿,根蒂蜷缩,声音沉闷,的瓜,测试结果是什么?
用1判别,是好瓜。
用2判别,是坏瓜。
改采用哪个?
这就由学习器本身的【偏好】决定了。如果你的学习器偏好1,那就是好瓜。如果偏好2,结果就是坏瓜。结果唯一。
又问:偏好怎么来的?能避免吗?
答:偏好由训练样本,以及学习算法的学习程度决定。
不能避免。没有偏好的学习器,时而判别为好瓜,时而判别为坏瓜,没有使用价值。
又问:有没有什么一般性原则引导学习器建立“正确”(我想要的)偏好?
答:有。如“奥卡姆剃刀:选择最简单的那个”
或者,具体问题具体分析。这就需要PM对于问题的定义了~
总结
所以,天下没有免费的午餐。所有的算法、数据都需要我们依据各自的问题和实际情况进行有目的的训练,没有一劳永逸的学习器。所以才需要PM这个职位。
身为PM,你要知道你的问题是什么,解决手段是什么?你有什么数据,标记过了吗?预测是什么?技术能实现吗?模型怎么测试?什么结果就达到你的要求了?
嗯,道阻且长,祝大家都成为合格的AI PM!
-- 原创,除非授权,不得转载 2017.10.26 --
我的目的是成为一名人工智能相关的产品经理。加油~