【论文笔记一】Chinese NER Using Lattice LSTM(Yue Zhang,Jie Yang)
本文针对中文NER提出了一种网格LSTM结构模型(Lattice LSTM):
相比character-based方法,能够充分利用单词和词序信息;
相比word-based方法,独立于分词,不会因为分词错误从而影响识别结果;
门控循环单元使得模型能够从句子中选择最相关的字符和词,生成更好的 NER 结果。
模型核心思想:
通过用Lattice结构的LSTM模型表示句子中的词,将潜在的词信息整合到基于字符的LSTM-CRF中(integrate latent
word information into characterbased LSTM-CRF by representing lexicon wordsfrom the sentence using a lattice structure LSTM.)
在目前,英文 NER 的最高水准是使用LSTM-CRF 模型实现的,研究者同样使用了 LSTM-CRF 作为主要网络结构。(原论文提及)
实验:
数据集:OntoNotes、MSRA、Weibo(all)、resume
模型比较:
结论:
本文实证研究了一种适用于汉语NER的点阵LSTM-CRF表示法,它在不同领域的性能始终优于基于文字(word-based)和字符(char-based)的LSTM-CRF表示法。Lattice模型完全独立于分词,但由于可以在上下文中自由选择词汇来消除歧义,因此在使用单词信息时更加有效。
【论文笔记二】Bidirectional LSTM-CRF Models for Sequence Tagging(Huang et al.)
本篇论文介绍了多种序列标注模型,包括LSTM网络、BI-LSTM网络、CRF网络、LSTM-CRF网络、BI-LSTM-CRF网络,比较将它们用于自然语言处理的性能与准确率。
重点是本文首次提出将BI-LSTM-CRF模型应用于自然语言处理基准序列标记数据集。该模型可以在POS、分块和NER数据集上产生最先进(或接近于)的精度,并且本文证明BI-LSTMCRF模型的稳健性,相比Collobert等人的研究,该模型对嵌入词的依赖更少,它不需要嵌入词就可以精确的标注。
实验结果:
对于POS、chunk ing、NER在各个模型上的F1值的对比,比较模型如下表:
实验部分:
在三个NLP标记任务(Penn TreeBank (PTB) POS标记、CoNLL 2000分块和CoNLL 2003命名实体标记)上测试了LSTM、BI-LSTM、CRF、LSTM-CRF和BI-LSTM-CRF模型:
Feature:401K, 76K, and 341K features extracted for POS,chunkingand NER data sets respectively.
Spelling Features:lower case word features, whether start with a capitalletter, whether has all capital letters.
… …
实验对比:
模型:
1.长短时记忆模型:输入门、遗忘门、输出门,一个信息进入LSTM网络当中,可以根据规则来判断是否有用,只有符合算法的认证才能留下,不符合的通过遗忘门遗忘。
2.双向长短时记忆模型:可以访问给定时间过于和未来的输入。
3.条件随机场模型:CRF可以产生更高的精度。
4.LSTM-CRF模型:1).结合LSTM和CRF组成LSTM-CRF
2).通过LSTM可以有效利用过去的输入特征
3).通过CRF可以有效利用句子级标签信息
因此,可以通过LSTM-CRF,有效的使用过去和未来的特征标签来预测当前标签
5. BI-LSTM-CRF模型:1).结合BI-LSTM-CRF和CRF
2).提升了标记的准确率
【论文笔记三】End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(Xuezhe Ma and Eduard Hovy)
本文提出了:1. 一种新的用于语言序列标记的神经网络结构。
2.对两个经典NLP任务的基准数据集进行实证评价。
3.实现了真正的端到端系统并且取得不错的实验结果。
端到端特征:
1.no task-specific resources,
2.no feature engineering,
3.no data pre-processing beyond pre-trained wordembeddings on unlabeled corpora.
本文神经网络的主要架构如上图所示。每个单词的字符表示由图1中的CNN计算。然后将字符表示向量与嵌入词连接起来,再送入BLSTM网络。虚线箭头表示在BLSTM的输入和输出向量上都应用了Dropout层:
步骤一:用Character-level CNN获得词表示。
步骤二:把步骤一的词表示和事先训练好的词向量拼接起来,输入Bi-directional LSTM,得到每个状态的表示。注意,BLSTM的输入和输出都过了Dropout层。
步骤三:用步骤二的输出输入CRF层,最终预测。
模型训练
实验参数:
数据集:we evaluate our neural network model on two sequence labeling tasks: POS
tagging and NER
实验结果:
结论
本文提出了一种用于序列标记的神经网络结构。它是一个真正的端到端模型,不依赖于特定任务的资源、特征工程、数据预处理。与之前最先进的系统相比,我们在两个语言序列标记任务上取得了最先进的性能。
未来的工作有几个潜在的方向:
首先,我们的模型可以进一步改进,探索多任务学习方法,结合更有用和相关的信息。例如,我们可以用POS和NER标记联合训练一个神经网络模型,以改进我们在网络中学习到的中间表示(intermediate representations)。
另一个有趣的方向是将我们的模型应用于来自其他领域的数据,如社交媒体(Twitter和微博)。由于我们的模型不需要任何领域或特定于任务的知识,因此可以轻松地将其应用到这些领域。
【论文笔记四】Named Entity Recognition With Parallel Recurrent Neural Networks(Andrej Zukov-Gregori ˇ cˇ)
本文贡献:提出了一种新的命名实体识别体系结构模型,并行递归神经网络模型,在相同的输入中使用多个独立的双向LSTM单元,并通过使用模型间正则化项来促进它们之间的多样性。通过在多个较小的LSTMs上的分布计算,我们发现参数总数有所减少。本文架构在CoNLL 2003 NER数据集上实现了最先进的性能。
实验
使用双向LSTMs作为基本的循环单元,并使用大小为100的预先训练的单词嵌入。
连接到词嵌入式字符级嵌入式,类似于 (Lample et al., 2016)但使用了最大池层。
与并行LSTM不同,我们只使用一个字符嵌入LSTM。
实验结果:
结论
在CoNLL 2003英语数据集上取得了最先进的结果,并引入了一种新的模型,其主要动机是易于分发和减少参数总数。
展望:研究在不同的分类和序列分类任务中的性能。
如果模型是跨CPU内核并行化,可以通过运行分析比较速度。