一、jieba分词
1.在cmd中安装结巴分词
python setup.py install
并在python环境下输入
import jieba
没有出现报错,故判断为成功安装
2.安装pycharm
3.进行分词测试
个人通过pycharm在jieba目录下建立文件名为2.py 的文件,并在文件中输入测试代码
import jieba
seg_list = jieba.cut("我来到北京清华大学",cut_all=True)
print ("Full Mode:","/ ".join(seg_list)) #全模式
seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print ("Default Mode:", "/ ".join(seg_list)) #精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") #默认是精确模式
print (", ".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") #搜索引擎模式
print(", ".join(seg_list))
cmd中执行指令:
python 2.py
结果如下:
4.自定义词典
a.创建词典
b.添加词典
代码如下:
import jieba
test_sent = ("我来到北京清华大学,他来到了网易杭研大厦,小明硕士毕业于中国科学院计算所,后在日本京都大学深造")
jieba.load_userdict("mydict.txt")
words = jieba.cut(test_sent)
print('/'.join(words))
结果如下
通过自定义词典对分词结果进行了修订
c.动态词典
代码如下:
import jieba
test_sent = ("我来到北京清华大学,他来到了网易杭研大厦,小明硕士毕业于中国科学院计算所,后在日本京都大学深造")
jieba.add_word('我来到')
words = jieba.cut(test_sent)
print('/'.join(words))
结果如下:
二、NLPIR在线分词工具
1.打开语义分析系统
分词提取如下:
词频统计如下:
关键词提取如下:
三、中文在线抽词-PullWord
它基于词语出现的评率对文字进行了分词处理,相比于前两种分词工具,它的分词结果较不直观。