机器学习的定义
我个人理解,机器学习某种程度上可以看成是一门数据处理+统计算法 的科学。对于已有的数据进行预处理,然后把处理好的已知数据丢给计算机 ,让计算机通过算法去学习已知数据的隐藏逻辑, 并从数据中提取特征。最终目的是让计算机 可以用学会的特征去处理未知的数据。
而计算机在通过算法和数据学习时 又分两种情况:
1.计算机每学习一次 都会获得反馈 知道这次处理的正确答案,并作出矫正,让自己的处理能够靠近正确答案。 这种被称为监督学习(支持向量机,核函数,神经网络)
2.计算机不知道自己做的是对还是错,需要在已知数据中自己寻找规律,并进行分类。这种被称为非监督学习(聚类,降维,推荐系统)。 研究的方向例如:星系形成理论,音频分离,新闻分类
在讲到监督学习时 ,常常会用到 房价预测,乳腺癌预测这些例子。
搜集已知病人的相关的特征,然后给机器进行分析,最终预测出其他未诊断的人是否患有乳腺癌。
这种方式又称之为回归,后面还会提到线性回归,逻辑回归等等。 第一次听到这个术语的人估计会有点懵。即使很多专门做机器学习的人可能也不太清楚回归这个术语的来历。
其实这个词最早是来源于一项研究:
“回归”是由达尔文的表弟 英国著名生物学家兼统计学家高尔顿(Francis Galton)在研究人类遗传问题时提出来的。高尔顿搜集了1078对父亲及其儿子的身高数据。他发现了一个很有趣的现象:当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。这就是所谓的回归效应。
这也就是预测的本质,当机器通过对已知数据的学习找到了那条回归线,那么就可以通过判断未知数据和回归线的关系来预测结果。
提到无监督学习 ,最典型的是聚类
聚类算法和无监督学习算法同样还用在很多其它的问题上
其中就有基因学的理解应用。一个DNA微观数据的例子。我们不知道这些基因的具体功能,是什么类型。我们甚至不知道人们有哪些不同的类型,这些类型又是什么。但机器可以从数据中自己探索出人们难以总结的规律,并进行初步分类,让人们能从结果中获得启发。而这就是无监督学习。