机器学习从学习的种类来说,习惯分作两种
无监督学习(unsupervised learning)和有监督学习(supervised learning)
所谓“无监督学习”,是指人们在获得训练的向量数据后在没有标签的情况下尝试找出其内部蕴含关系的一种挖掘工作,这个过程中使用者除了可能要设置一些必要的超参数(hyper-parameter)以外,不用对这些样本做任何的标记甚至是过程干预。
“有监督学习”与此不同,每一个样本都有着明确的标签,最后我们只是要总结出这些训练样本向量与标签的映射关系。
有监督学习
通过预测房价来引入有监督学习,假设在链家上收集到了北京房价数据,把这些数据画出来,横轴是房子面积(平方米),纵轴是房子的价格(万元),那么基于这组数据,假如你有一套100平方米的房子,现在打算将它售卖掉,那么你的房子可能能卖多少钱?
下图是24套房子的价格,按X/Y坐标系绘制的面积(平方米)和价格(万元)的图像
如图所示,画一条直线(y=kx+b),让这条直线覆盖尽可能多的数据集中的点,根据这条直线的最终方程式是 y=5.53x+217.88, 那么预测100平方米房子的价值就是 5.553*100+217.88=773.18万元
上面描述的推断价格为773.18万元的过程就是一个简单的有监督学习的例子,通过这条直线的方程式可以计算出出任意面积的房屋对应的价格,在数值上呈现一个连续的输出分布,这样预测当然不是足够准确,影响房屋价格除了面积还有譬如坐标,户型等多种因素,但是基本可以预测出房子的大概价值。
房屋价值的预测过程就是一个回归过程,由于只涉及到一个变量(房屋面积),所以是一个简单的单变量线性回归模型。
有监督学习的两种基本算法是回归和分类
什么是回归? 被用来研究因变量(目标)和自变量(预测)之间的关系的一种预测建模手段,我们尝试通过一系列数据集和其结果,来推测出一系列连续值的过程就是回归。在机器学习领域,最常用的回归有两类:一类是线性回归,一类是非线性回归。所谓线性回归,就是在观察和归纳样本的过程中认为向量和最终的函数值呈现线性的关系。而后设计这种关系为:y=f(x)=wx+b一类是非线性回归,应用最多的当属逻辑回归。它和线性回归都叫回归,但是逻辑回归看上去更像分类。
什么是分类?分类和回归在本质上一样的,分类模型可以将回归模型的输出离散化,回归模型也可以将分类模型的输出连续化。
分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。
举个例子:
预测明天的气温是多少度,这是一个回归任务;
预测明天是阴、晴还是雨,就是一个分类任务。