1.什么是机器学习
机器学习的一个正式定义是由计算机科学家Tom M. Mitchell提出的:如果机器能够获取经验并且利用它们,并在以后的类似经验中能够提高它的表现,这就称为机器学习。
2.机器如何学习
学习过程可以分解为4步:
1)数据存储:即收集和存储数据。
2)抽象化:即建立模型来概括存储的数据。
- 常见的模型有:数学方程、像树或图这样的关系图、逻辑上的如果/否则等关系、把数据分组为类等等。
- 模型的选择是由学习任务和可用的数据类型来决定的。
- 用模型来拟合数据集的过程称为训练。
3)一般化:把抽象化的知识转换成可以用于未来行动的一种形式的过程,这些行动针对和以前类似但不完全相同的任务。
4)评估:判断模型的成功性--在初始数据集上训练模型后对模型进行评估,再在一个新数据集上对模型进行检验,从而判断从训练数据集得到的特征推广到新的未知数据的好坏程度。
机器学习的过程中,数据中的噪声或无法解释的波动会导致模型不能完美的一般化。试图用模型拟合噪声就会导致过度拟合。具体来说:如果一个模型在训练时表现得很好,但是当用新的数据集评估时就表现很差的现象,就是过度拟合了训练数据集。
3.机器学习算法的类型
机器学习算法可以根据目的分为以下3类:
1)预测模型:通过发现并且对目标特征(需要预测的特征)和其他特征之间的关系建模,来实现利用数据集中的其他数值来预测另一个值。因为预测模型对于“学什么”和“怎么学”有清晰的指导,所以训练一个预测模型的过程也称为有监督学习。监督并不是指需要人为干预,而是指让目标值担任监督的角色,让它告诉算法要学习的任务是什么。
有监督学习的常见任务有预测分类和预测数值数据两种。但其实数值可以很容易的转换为类别,比如通过取阈值18,将大于18岁的定义为成年人,小于等于18岁的定义为未成年人,从而将一组数值数据转换为有两个分组的类别数据。
在预测模型中被应用最广泛的是回归模型。因为它用表达式准确地量化了输入数据和目标值之间的关系,其中包括该关系的大小和不确定性。
2)描述性模型:算法没有特定的学习任务,而专注于总结和洞察数据。因为没有学习目标,训练描述性模型的过程被称为无监督学习。描述性模型常见的任务是聚类。
3)元学习:不与具体学习任务相关联,而专注于如何更有效的学习。这种算法应用某些学习的结果来指示其他的学习。
--end--