Jieba是一个中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。
Anaconda创建环境:
//下面是创建python=3.6版本的环境,取名叫py36
conda create -n py36 python=3.6
Windows中使用conda activate激活环境
在Python里安装Jieba中文分词组件
1)下载Jieba
官网地址:http://pypi.python.org/pypi/jieba/
个人地址:http://download.csdn.net/detail/sanqima/9470715
2)将其解压到D:\TDDownload,如图(1)所示:
点击电脑桌面的左下角的【开始】—》运行 —》输入: cmd —》切换到Jieba所在的目录,比如,D:\TDDownload\Jieba,依次使用如下命令:
C:\Users\Administrator>D:
D:\>cd D:\TDDownload\jieba-0.35
D:\TDDownload\jieba-0.35>python setup.py install
01 Jieba的三种分词模式
Jieba提供了三种分词模式:
精确模式:试图将句子最精确地切开,适合文本分析。
全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
下面是使用这三种模式的对比。
import jieba
sent = '中文分词是文本处理不可或缺的一步!'
seg_list = jieba.cut(sent, cut_all=True)
print('全模式:', '/ '.join(seg_list))
seg_list = jieba.cut(sent, cut_all=False)
print('精确模式:', '/ '.join(seg_list))
seg_list = jieba.cut(sent)
print('默认精确模式:', '/ '.join(seg_list))
seg_list = jieba.cut_for_search(sent)
print('搜索引擎模式', '/ '.join(seg_list))
运行结果如下:
全模式:
中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一步//
精确模式:
中文/分词/是/文本处理/不可或缺/的/一步/!
默认精确模式:
中文/分词/是/文本处理/不可或缺/的/一步/!
搜索引擎模式:
中文/分词/是/文本/本处/处理/文本处理/不可/或缺/不可或缺/的/一步/!
可以看到,全模式和搜索引擎模式下,Jieba将会把分词的所有可能都打印出来。一般直接使用精确模式即可,但是在某些模糊匹配场景下,使用全模式或搜索引擎模式更适合。
https://blog.csdn.net/zw0Pi8G5C1x/article/details/88706653
https://blog.csdn.net/sanqima/article/details/50965439
https://blog.csdn.net/sinat_37676560/article/details/90794659