命名实体识别
即专有名词,如人名,地名,机构等等
有限集合,基于词库
1.词库+分类
词库中无法识别的一些词,可通过相似度,以及分类方法识别
例如 词库中感冒药品, 感冒药
无法穷尽
正则:邮箱 手机号
分类方法
方法
- 利用规则(正则)
- 投票模型
- 分类模型
- 非时序模型 ,逻辑回归, SVM
- 时序模型:HMM,CRF,LSTM+CRF,BERT+LSTM+CRF等等
投票决策
原理:统计训练数据中每个词/字出现标签的次数,哪个标签多,取哪个。
非时序模型
原理:对每个词/字做分类,需要做特征工程,比如这个词字个数,是不是数字,是否出现在开头,词性,上下文信息等等,需要构造特征。
文本领域特征工程(机器学习必备技能):
- word-base featrues:
- 前后词,当前词,前前后后单词等等 unigram。
- 提取当前词的 2-gram
- 3-gram等等
- pos-base featrues:
- 当前词的词性,前后词,前前后后词-unigram
- 2-gram,3-gram 等等
- 如果是英文,还可以提取前后缀词。(未曾涉猎)
- 当前词特点:
- 词长,是否包含某个字词
- 包含有多少个数字
- 词频
- 依存句法分析:
- 提取单词之间的依赖关系,unigram,2-gram,3-gram
- TF-IDF
时序模型:
比较主流的模型结构:bert+ LSTM +CRF。
后续附上代码