softmax 交叉熵推导以及pytorch代码验证

1 卷积网络流程图

卷积网络网络图解.png

一个简单的卷积神经网络对于给定的输入图片,经过卷积池化过后得到feature map 然后再拉成一列,经过若干个隐含层得到FC,然后得到输出Z,Z的神经元个数取决于分类类别的个数,然后再经过softmax层得到每个类别的概率,最后经过交叉熵损失函数进行梯度回传。
关于卷积神经网络网上有很多优秀的文章,暂不细讲。图中只给出了网络中最后的一部分,即跟本文内容有关的部分,也就是softmax层和交叉熵。

2 softmax 和 交叉熵

关于softmax和交叉熵的历史,百度会有一堆文章,这里暂且不提,本文着重探讨公式的推导过程和代码验证。

  • softmax公式如下:
    y_i=\frac{e^{z_i}}{\sum{e^{z_j}}},\qquad\sum{y_i} = 1,\qquad i,j = 1,2,3,...,n
    式中,z_i表示第i个输出,y_i表示z_i对应的softmax值,n为类别数。
  • 交叉熵损失函数公式如下:
    L=\sum{-\hat{y_i}\cdot{\log y_i}},\qquad i=1,2,3,...,n
    式中,\hat{y_i}表示第i个类的标签或者说真实值。

3 求导

在一个网络中,参数W需要损失函数对W求负梯度来更新,也就是W = W - \eta\frac{\partial{L}}{\partial{W}},根据链式求导法则\frac{\partial{L}}{\partial{W}}=\frac{\partial{L}}{\partial{z}}\cdot\frac{\partial{z}}{\partial{W}},因此,需要先求\frac{\partial{L}}{\partial{z}}。同理,\frac{\partial{L}}{\partial{z}}=\frac{\partial{L}}{\partial{y}}\cdot{\frac{\partial{y}}{\partial{z}}}.
在求导中,需要分成两步,下面式中的\frac{\partial{L}}{\partial{z_j}}表示损失函数L对第j个输出求导。

  • i = j,也就是对应L中的-\hat{y_j}\cdot\log{y_j}:
    \frac{\partial{L}}{\partial{z_j}}=\frac{\partial{L}}{\partial{y_j}}\cdot{\frac{\partial{y_j}}{\partial{z_j}}}=-\hat{y_j}\cdot{\frac{1}{y_j}}\cdot{\frac{\sum{\cdot{e^{z_j}}-e^{z_j}\cdot{e^{z_j}}}}{\sum^2}}
    \qquad \qquad\qquad=-\hat{y_j}\cdot{\frac{1}{y_j}}\cdot{\frac{e^{z_j}}{\sum}}\cdot{\frac{\sum-e^{z_j}}{\sum}}
    \qquad=-\hat{y_j}\cdot(1-y_j)
  • i\neq j,也就是对应L中下标不等于j的部分
    \frac{\partial{L}}{\partial{z_j}}=\frac{\partial{L}}{\partial{y_i}}\cdot{\frac{\partial{y_i}}{\partial{z_j}}}=-\sum_{i\neq j}{\hat{y_i}\cdot{\frac{1}{y_i}}\cdot{\frac{0-e^{z_i}\cdot{e^{z_j}}}{\sum^2}}}
    \quad=\sum_{i\neq j}\hat{y_i}\cdot{y_j}
    综上:
    \frac{\partial{L}}{\partial{z_j}}=-\hat{y_j}\cdot(1-y_j)+\sum_{i\neq j}\hat{y_i}\cdot{y_j}
    \qquad\qquad\qquad\qquad\qquad\quad=-\hat{y_j}+\hat{y_j}\cdot{y_j}+\sum_{i\neq j}\hat{y_i}\cdot{y_j}
    \qquad\qquad\qquad\qquad\qquad\quad=-\hat{y_j}+\sum\hat{y_i}\cdot{y_j}
    由于在一般的分类任务中,标签\hat{y}一般使用one-hot编码,例如:[0,0,0,1,0,0]表示分类为第4类的编码,因此\sum\hat{y}=1(此处\hat{y}除了是one-hot编码外也可以是一个概率分布,满足和为1即可),所以,
    \frac{\partial{L}}{\partial{z_j}}=y_j-\hat{y_j}
    这个公式的意义就是,损失函数L对输出z_j的导数就等于经过softmax后的输出y_j减去标签 \hat{y_j}

4 在pytorch中的代码验证

import torch.nn as nn
import torch
import torch.nn.functional as F
import numpy as np
x = torch.randn(1,5,requires_grad = True)#随机生成一个size为(1,5)的数据
y = torch.tensor([3]).long()#目标是属于第三类,若是one-hot编码应为[0,0,0,1,0,]
prob = F.softmax(x.float(),dim=1)
loss = nn.CrossEntropyLoss()(x,y)#注意,pytorch中的CrossEntropyLoss函数输入为类别下标和实际输出,该函数会自动进行one-hot编码和softmax计算
print("单样本输出为:"+ str(x))
print("#"*20+"pytorch中的结果"+"#"*20)
print("softmax:"+str(prob.data.numpy()))
print("loss:"+str(loss.data.numpy()))
loss.backward()#求导
print("grad:"+str(x.grad.data.numpy()))
print("\n")
softmax_=np.exp(x.data.numpy().squeeze())/np.sum(np.exp(x.data.numpy()))
loss_ = -np.log(softmax_[3])#因为one-hot编码中标签除了目标类为1,其他的标签都为0,因此loss_= -np.log(softmax_[3])
grad = [item-(i==3) for i,item in enumerate(softmax_)]#根据公式可知,梯度只需要对第三类的softmax输出减去标签1即可,因为其他类的标签为0,就只是softmax的输出值
print("#"*20+"自己的结果"+"#"*20)
print("softmax:"+ str(softmax_))
print("loss:"+str(loss_))
print("grad:"+str(grad))
'''
单样本输出为:tensor([[-2.0777,  0.3450,  0.7605,  0.2708, -0.3969]], requires_grad=True)
####################pytorch中的结果####################
softmax:[[0.02212428 0.24947256 0.3779738  0.2316277  0.11880173]]
loss:1.462624
grad:[[ 0.02212428  0.24947257  0.3779738  -0.7683723   0.11880173]]


####################自己的结果####################
softmax:[0.02212428 0.24947256 0.37797377 0.2316277  0.11880171]
loss:1.462624
grad:[0.022124277, 0.24947256, 0.37797377, -0.7683723, 0.11880171]
'''

最后提一句,在得到\frac{\partial{L}}{\partial{z}}之后,根据\frac{\partial{L}}{\partial{W}}=\frac{\partial{L}}{\partial{z}}\cdot\frac{\partial{z}}{\partial{W}}便可对参数进行求导,从而更新参数,后续有时间再写一篇文章讨论。
如有错误,欢迎指正!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,612评论 5 471
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,345评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,625评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,022评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,974评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,227评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,688评论 3 392
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,358评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,490评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,402评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,446评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,126评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,721评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,802评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,013评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,504评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,080评论 2 341