Content:
1. 从机器学习到神经网络
2. 神经网络训练
3. 神经网络设计原则
- 网络的拓扑结构
- 激活函数
- 损失函数
4. 过拟合与正则化
5. 交叉验证
6. 小结
从机器学习到神经网络
1. 基本概念
2. 机器学习
3. 线性回归模型
- Regression 回归:用统计方法分析因变量和一组自变量之间的关系.
- 线性回归:因变量和自变量之间是线性的关系.
- 单变量线性回归模型:线性回归可以找到一些点的集合背后的规律。可以用一个直线来拟合。
(x) = + x
x : Feature, H(x) : Hypothesis
- 多变量线性回归模型:
- 损失函数:
- 迭代法(梯度下降)方法寻找回归模型参数
4. 人工神经网络发展过程
5. 感知机(Perceptron) 模型
-感知机模型线性分类,超平面
- 寻找损失函数
策略:要使得误分类点到超平面的总距离越小越好.
距离应该符合的特征:(非负,自反,三角不等式),采用欧式距离.
- 随机梯度下降:
6. 两层神经网络- 多层感知机
-浅层神经网络的特点
7. 深度神经网络
- 多层神经网络
8. 神经网络训练
- 正向传播和反向传播
- 正向传播
- 链式法则,反向传播
9. 神经网络的设计原则
- 调整网络拓扑结构
- 隐层的设计
- 选择合适的激活函数
常用的激活函数:
1)sigmoid 函数:缺点-均值不是0,容易发生偏移,收敛比较慢。梯度容易消失,饱和度问题,指数运算速度慢.
2)tanh函数特点:均值是0,再输入很大或者很小的时候,输出几乎平滑,梯度很小,不利于权重更新.
3)ReLU 函数
4)ReLU 的变种
5)ELU 函数,融合sigmoid 和ReLU
- 选择合适的损失函数
1)均方差损失函数
2)交叉熵函数:交叉熵函数+sigmoid 函数
交叉熵+sigmoid 倒数不会存在梯度消失问题
10. 神经网络中损失函数的特性
11. 过拟合与正则化
- 欠拟合与过拟合
- 过拟合,泛化能力差的解决方法 - 正则化
- 损失函数加上惩罚项,似的某些权重参数变小.
- L2正则化:加w范数
- L1 正则化
- Bagging 集成方法
模型平均是减少泛化误差的一种可靠方法.
- Dropout 正则化 - 只是在训练过程使用dropout,反向传播的时候,要更新全部神经单元
- 其他正则化方法
12. 交叉验证
- 最简单的验证方式:如何划分数据集合训练集对模型性能有重要作用
- Leave-one-out-cross-validation 验证方法,计算量过大,耗费时间过长.
- K-Fold cross validation
13. 小结