3.1 线性分类器的数学定义
线性分类器:
其中,代表图片向量(将二维图片转为一维向量),维度为,为分类器的参数,维度为,输出值为向量,表示图片属于10类的可能性大小,数值最大的一类作为预测结果。
如果考虑偏置,公式为:
其中的维度是。
下图是一个例子:
后面的分析一般忽略偏置。
在限定模型为线性分类器之后,分类器就可以完全由其权值来表征了,也就是说就是分类器,分类器就是。
3.2 权值参数的解释及可视化
参数有10行,对应目标标签的10个类别,可以将参数的每一行看作对应类别的过滤器。该过滤器将图片数据转为一个单一值,代表图片属于该类别的分数大小。如下图所示:
也可将每一行的784个数值转换为的二维矩阵,把这一行权重当做一张图片可视化出来。就可以看到这一行权重所代表的的过滤器是什么样子(图片的亮暗表示权重值的大小)。有10行,所以可以画出10张权值图出来。
3.3 概率归一化
分类器的输出是向量,向量里的元素都是不限范围的实数值。下面将其归一化为概率值。
归一化函数要满足以下条件:
- 目标取值范围为,且映射为1,映射为0
- 映射后的值总和为1
- 映射后的值与原值成正比,且各个值的大小关系保持不变
Softmax函数满足以上条件:
其中, 是线性分类器的10个输出值,是样本被预测为第类的概率。
3.4 模型评估:损失值
给定一个分类器(即给定一组权值),如何评估其好坏?可以用损失值来代表分类器分错的程度。
损失值函数是权值到实数的一个映射,它要满足两个特性:
- 预测错了类别的样本越多,损失值越大
- 样本预测错得越离谱,损失值越大
分类器的输出值做了概率归一化后,损失值应满足:
- 预测为正确类别的概率值为0时,损失值为无穷大
- 预测为正确类别的概率值越大,损失值越小
- 预测为正确类别的概率值为1时,损失值为最小值0
函数满足以上条件,可以将损失值定义为:
其中,为第i个样本的正确类别,为第i个样本被预测为正确类别的概率,为分类器在第i个样本上的损失值。
损失值计算流程图:
3.5 模型优化:如何找到损失值最小的权值
方法一:随机搜索
随机生成权值,例如随机1000遍,取结果最好的。
方法二:梯度下降
梯度计算:导数的负数
所以给定权值,计算其损失值,再对的各元素加微小增量,得新的损失