自然语言处理基础技术之命名实体识别简介

声明：转载请注明出处，谢谢：https://www.jianshu.com/p/02b08ff8ad3c
另外，更多实时更新的个人学习笔记分享，请关注：

知乎：https://www.zhihu.com/people/yuquanle/columns
公众号：StudyForAI
CSDN地址：http://blog.csdn.net/m0_37306360

整理一波关于命名实体识别方面的知识，希望对大家有帮助~~

命名实体识别定义：

百度百科定义：命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。
维基百科定义：Named-entity recognition (NER) (also known as entity identification, entity chunking and entity extraction) is a subtask of information extraction that seeks to locate and classify named entity mentions in unstructured text into pre-defined categories such as the person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.
简单的讲，就是识别自然文本中的实体指称的边界和类别。

发展历史：

命名实体识别（Named Entity Recognition）这个术语首次出现在MUC-6（Message Understanding Conferences），这个会议关注的主要问题是信息抽取（Information Extraction），第六届MUC除了信息抽取评测任务还开设了新评测任务即命名实体识别任务。除此之外，其他相关的评测会议包括CoNLL（Conference on Computational Natural Language Learning）、ACE（Automatic Content Extraction）和IEER（Information Extraction-Entity Recognition Evaluation）等。
在MUC-6之前，大家主要是关注人名、地名和组织机构名这三类专业名词的识别。自MUC-6起，后面有很多研究对类别进行了更细致的划分，比如地名被进一步细化为城市、州和国家，也有人将人名进一步细分为政治家、艺人等小类。
此外，一些评测还扩大了专业名词的范围，比如CoNLL某年组织的评测中包含了产品名的识别。一些研究也涉及电影名、书名、项目名、研究领域名称、电子邮件地址、电话号码以及生物信息学领域的专有名词（如蛋白质、DNA、RNA等）。甚至有一些工作不限定“实体”的类型，而是将其当作开放域的命名实体识别和分类。

常见方法：

早期的命名实体识别方法基本都是基于规则的。之后由于基于大规模的语料库的统计方法在自然语言处理各个方面取得不错的效果之后，一大批机器学习的方法也出现在命名实体类识别任务。宗成庆老师在统计自然语言处理一书粗略的将这些基于机器学习的命名实体识别方法划分为以下几类：

有监督的学习方法：这一类方法需要利用大规模的已标注语料对模型进行参数训练。目前常用的模型或方法包括隐马尔可夫模型、语言模型、最大熵模型、支持向量机、决策树和条件随机场等。值得一提的是，基于条件随机场的方法是命名实体识别中最成功的方法。
半监督的学习方法：这一类方法利用标注的小数据集（种子数据）自举学习。
无监督的学习方法：这一类方法利用词汇资源（如WordNet）等进行上下文聚类。
混合方法：几种模型相结合或利用统计方法和人工总结的知识库。

值得一提的是，由于深度学习在自然语言的广泛应用，基于深度学习的命名实体识别方法也展现出不错的效果，此类方法基本还是把命名实体识别当作序列标注任务来做，比较经典的方法是LSTM+CRF、BiLSTM+CRF。

这里有一个基于tensorflow的实现：https://github.com/shiyybua/NER

一些相关的数据集：

CCKS2017开发的中文的电子病例测评相关的数据。
评测任务一：https://biendata.com/competition/CCKS2017_1/
评测任务二：https://biendata.com/competition/CCKS2017_2/
CCKS2018开发的音乐领域的实体识别任务。评测任务：https://biendata.com/competition/CCKS2018_2/
（CoNLL 2002）Annotated Corpus for Named Entity Recognition。
地址：https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus
NLPCC2018开放的任务型对话系统中的口语理解评测。地址：http://tcci.ccf.org.cn/conference/2018/taskdata.php
一家公司提供的，2000条，网址：数据下载 - BosonNLP，包含人名、地名、机构名、专有名词。下载地址：https://bosonnlp.com/dev/resource

命名实体识别工具：

Stanford NER：斯坦福大学开发的基于条件随机场的命名实体识别系统，该系统参数是基于CoNLL、MUC-6、MUC-7和ACE命名实体语料训练出来的
https://nlp.stanford.edu/software/CRF-NER.shtml
python实现的Github地址：https://github.com/Lynten/stanford-corenlp
MALLET：麻省大学开发的一个统计自然语言处理的开源包，其序列标注工具的应用中能够实现命名实体识别。

官方地址：http://mallet.cs.umass.edu/
Hanlp：HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。支持命名实体识别。
Github地址：https://github.com/hankcs/pyhanlp
官网：http://hanlp.linrunsoft.com/
NLTK：NLTK是一个高效的Python构建的平台,用来处理人类自然语言数据。提供实体识别接口。
Github地址：https://github.com/nltk/nltk
官网：http://www.nltk.org/
spaCy：工业级的自然语言处理工具。
Gihub地址：https://github.com/explosion/spaCy
官网：https://spcay.io/
Crfsuite：可以载入自己的数据集去训练实体识别模型。
文档地址：https://sklearn-crfsuite.readthedocs.io/en/latest/?badge=latest

参考：

1.统计自然语言处理

最后编辑于：2018.11.27 19:02:26

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

自然语言处理基础技术之命名实体识别简介

命名实体识别定义：

发展历史：

常见方法：

一些相关的数据集：

推荐阅读更多精彩内容