Stanford / Winter 2020 CS224n 课程学习笔记03-04

引言

命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。
英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

在做推荐系统或者智能音箱等应用时,NER的作用显得尤为重要,某些词的歧义可能会导致意想不到的后果。如下图,你可能会问:两辆面包车捐献给史密斯堡的是未来的学校还是叫“未来”的学校呢?

图 1

为了解决这个问题,Word-Window classification分类方法被提出,主要思想是从中心词附近的单词来进行判断,中心词是不是实体。和Skip-grim算法相似,也有一个窗口。

Word-Window classification

在进行分类训练时,上一课训练的词向量在这里派上用场了。假设现在中心词为Paris,窗口为5,每个词的词向量维度为\mathbb{R}^{1*4},将一个窗口内所有的单词进行拼接后,得到拼接矩阵x \in \mathbb{R}^{1*20}作为训练输入。

图 2 对Paris进行分类

然后利用神经网络进行训练。随机初始化一个矩阵W,定义神经元的激活函数f(x)为sigmoid。

f(x)= \frac{1}{1+e^{-x}}

这张图的顶点的计算结果,即为Paris在这段窗口中心的得分。

图 3 一个简单的三层神经网络示意图

注:a为神经元激活函数,z为第一层神经元计算后的输出结果。为了方便score(x)简写为s

Maximum Margin Objective Function

如果令S为“真”标签窗口的得分
S = Score(Museums in Paris are amazing)
S_c为“假”标签窗口的得分
S_c = Score(Not all museums in Paris)
最后,定义在所有训练窗口上的优化目标函数为:
Minimize J = max(0,1 - s + s_c)
为什么用此优化函数的详细讲解
当损失函数J变化值大于\Delta时,更新权重,否则停止更新。为了更新权重,利用神经网络的反向传播来完成。

神经网络计算过程:

即当x矩阵输入模型后,计算过程动画展示如图所示。

图 4 Neural Network

具体的计算细节可以移步这里\rightarrowNeural Networks: Foundations

重点:反向传播

如图三所示。各层计算公式如下

f(z)为激活函数,在这里为sigmoid:
\begin{aligned} & s = u^T h \\& h = f(z) \\& z = Wx + b \end{aligned}
最后的输出为:
score(x)=u^T f(Wx+b)

将神经网络简化为图的形式表达:

简化的神经网络图

假如现在对权重矩阵b进行更新,按照反向传播的计算,
计算细节及示例\rightarrowComputation Graphs and Backpropagation

\frac{\partial s}{\partial h} = u, \quad \frac{\partial s}{\partial z} = \frac{\partial f(z)}{\partial z} \frac{\partial s}{\partial h} = \frac{\partial h}{\partial z} \frac{\partial s}{\partial h} \because(f(z) = h)\quad \frac{\partial s}{\partial b} = \frac{\partial s}{\partial z} 经过层层迭代后,发现它其实就是一个链式求导的过程。

根据链式求导法则对b求偏导:

\frac{\partial s}{\partial b} = \frac{\partial s}{\partial h} \frac{\partial h}{\partial z } \frac{\partial z}{\partial b}

即对其拆分,分别求\frac{\partial s}{\partial h}、\frac{\partial h}{\partial z} 、\frac{\partial z}{\partial b}的导数。

tips:在求\frac{\partial h} {\partial z}时,会用到如下计算
\begin{aligned}& f(x) = f(x_{1} ,x_{2} , ... x_{n}) \\& \frac{\partial f}{\partial x} = [\frac{\partial f}{\partial x_{1}},\frac{\partial f }{\partial x_{2}},...,\frac{\partial f}{\partial x_{n}}] \end{aligned}
f(x) = [f_{1}(x_{1},x_{2},...x_{n}),f_{2}(x_{1},x_{2},...x_{n}),...,f_{m}(x_{1},x_{2},...x_{n})]
\frac{\partial f}{\partial x} = \begin{bmatrix} \frac{\partial f_{1}}{\partial x_{1} } & \cdots & \frac{\partial f_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}} & \cdots & \frac{\partial f_{m}}{\partial x_{n}} \end{bmatrix}
(\frac{\partial f}{\partial x})_{ij} = \frac{\partial f_{i}}{\partial x_{j}}
h = f(z),h_{i} = f(z_{i})

计算 \frac{\partial h} {\partial z}

\begin{aligned}& \frac{\partial h}{\partial z} = \frac{\partial h_{i}} {\partial z_{j}} = \frac{\partial } {\partial z_{j}}(z_{i}) \\& =\left\{\begin{matrix} f'(z_{i}) \quad if \quad i = j\\0 \quad if \quad othewise \end{matrix}\right. \end{aligned}
即:\frac{\partial h}{\partial z } = \begin{pmatrix} f'(z_1) & & 0 \\ & \ddots & \\ 0 & & f'(z_n) \end{pmatrix} = diag(f'(z))

\frac{\partial s}{\partial h}、\frac{\partial h}{\partial z} 、\frac{\partial z}{\partial b}的导数的计算结果如下:

\begin{aligned} & \frac{\partial s}{\partial h} = \frac{\partial}{\partial h} (u^{T}h) = u \\& \frac{\partial h}{\partial z} = \frac{\partial}{\partial h} (f(z)) = diag(f'(z)) \\& \frac{\partial z}{\partial b} = \frac{\partial}{\partial h} (Wx + b) = I \end{aligned}

所以b的更新梯度结果为:

\frac{\partial s}{\partial b} = \frac{\partial s}{\partial h } \frac{\partial h}{\partial z} \frac{\partial z}{\partial b} = u·diag(f'(z)) · I = u \circ f'(z)

同样用链式法则对W求偏导,

\frac{\partial s}{\partial W} = \frac{\partial s}{\partial h } \frac{\partial h}{\partial z} \frac{\partial z}{\partial W}

不难发现,链式求导的前两项是一样的,令 \delta = \frac{\partial s}{\partial h} \frac{\partial h}{\partial z} = u·diag(f'(z)),接下来仅需计算\frac{\partial z}{\partial W}就行了:

tips:
\frac{\partial a^TXb }{\partial X} = ab^T

W的更新梯度结果为:

\begin{aligned} & \frac{\partial s}{\partial W} = \frac{\partial s}{\partial h } \frac{\partial h}{\partial z} \frac{\partial z}{\partial W} \\& = \delta \frac{\partial z}{\partial W } \\& = \delta \frac{\partial}{\partial W} (Wx + b) \\& = \frac{\partial}{\partial W} (\delta Wx) \\& = \delta^Tx^T \end{aligned}

利用梯度下降更新方法对权重矩阵进行更新
\theta^{new} = \theta^{old} - \alpha \bigtriangledown_{\theta}J(\theta)
关于学习率,正则化,激活函数,优化器等等的细节,建议看看吴恩达机器学习,应该会有收获。

若有错误或者表达不明确,欢迎大家批评指正!

[1]Stanford / Winter 2020 CS224n
[2]CS224n-2019 学习笔记(looperxx)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,392评论 5 470
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,258评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,417评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,992评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,930评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,199评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,652评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,327评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,463评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,382评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,432评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,118评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,704评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,787评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,999评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,476评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,057评论 2 341