中文分词技术原理及应用:https://sanwen8.cn/p/2919tFk.html
方法:
基于AC自动机的快速分词:http://kexue.fm/archives/3908/
字标注法和HMM模型:http://kexue.fm/archives/3922/
基于双向LSTM的seq2seq字标注【中文分词】:http://kexue.fm/archives/3924/
轻便的深度学习分词系统:http://kexue.fm/archives/4114/ <并不实用>
基于语言模型的无监督分词:http://kexue.fm/archives/3956/
基于全卷积网络的中文分词:http://kexue.fm/archives/4195/
深度学习分词:http://kexue.fm/archives/4245/
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法(试验阶段)和基于统计的分词方法
基于字符串匹配的分词方法
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);还可以将上述各种方法相互组合
这类算法优点是速度块,都是O(n)时间复杂度,实现简单,效果尚可。也有缺点,就是对歧义和未登录词处理不好。常见的基于字符串匹配的分词工具有IKanalyzer,Paoding等。
基于统计的分词方法:因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。基于统计学**的分词工具有ICTCLAS、结巴分词等。
基于统计的分词方法有CRF(条件随机场)