1. 什么是softmax?
2. softmax有毛用?
可以看出,softmax把一个张量转化成元素之和为1,且每个元素值都是介于0-1之间。这个形式跟一个离散的概率分布状态非常相似,所以可以强行解释成概率。
另外,如果把原始张量看做一个layer的输入,softmax也可以考虑作为该layer的输出。与针对每个神经元进行S型函数激活不同,softmax的每个输出元素不止与对应的神经元输入有关,而是与整个layer的输入有关。
3. 对数似然代价函数
显然,若O前面的操作是softmax,而y是one-hot,则对数似然代价函数看起来就很妙。所以说,softmax、对数似然代价、one-hot三者是绝配。
4. 一点补充
可以看出:01二分类问题中的交叉熵损失函数 其实就是 y进行one-hot后的对数似然代价函数。两者本质是一回事。