第二章机器学习概述
2.1 基本概念
基本概念:样本、特征(属性)、标签、模型、学习算法
这里举了一个买芒果的例子。特征和标签的区别,特征是一个一个属性,标签是这些属性的值。
2.2 三个基本要素
- 模型
- 线性模型
- 非线性模型
- 学习准则
- 损失函数:损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异。
- 平方损失函数
- 交叉熵损失函数
- Hinge损失函数
- 风险最小化准则,防止过拟合或是欠拟合
- 优化算法
- 梯度下降
- 提前停止
- 随机梯度下降
- 小批量梯度下降
- 损失函数:损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异。
2.3 线性回归
2.4 偏差-方差分解
2.5 算法类型
按照训练样本提供的信息以及反馈方式的不同进行分类。
- 监督学习(回归、分类、结构化学习)
- 无监督学习(聚类、密度估计、特征学习、降维)
- 强化学习
2.6 数据特征表示
2.7 评价指标
正确率、准确率、召回率、F值
2.8 理论和定理
- PAC学习理论
- 奥卡姆剃刀(和正则化思想很类似)
- 归纳偏置(先验)