自然语言处理NLP之中文分词和词性标注

Python第三方库jieba（中文分词、词性标注）特点

支持三种分词模式：

1.精确模式，试图将句子最精确地切开，适合文本分析；

2.全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

3.搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

4.支持繁体分词

5.支持自定义词典

jieba中文分词的安装：

pip3 install jieba

python文件里通过import jieba来引用

"""

import jieba

import jieba.analyse

import jieba.posseg

'''

1. 分词

中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，

而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，

虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂得多、困难得多。

1）jieba.cut 方法接受三个输入参数:

需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型

2）jieba.cut_for_search 方法接受两个参数：

需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

3）待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。

注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

4）jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，

可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用

5）jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

6）jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，

可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

'''

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)

print("【全模式】: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("充电了么App是专注上班族职业技能提升充电学习的在线教育平台", cut_all=True)

print("【全模式】: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)

print("【默认精确模式】: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("我来到北京清华大学") # 默认是精确模式

print("【精确模式】"+", ".join(seg_list))

seg_list = jieba.cut("充电了么App是专注上班族职业技能提升充电学习的在线教育平台") # 默认是精确模式

print("【精确模式】"+", ".join(seg_list))

# 搜索引擎模式

seg_list = jieba.cut_for_search("我来到北京清华大学")

print(", ".join(seg_list))

seg_list = jieba.cut_for_search("充电了么App是专注上班族职业技能提升充电学习的在线教育平台")

print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")

print(", ".join(seg_list))

print("分词完毕。")

'''

【全模式】:

我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】:

我/ 来到/ 北京/ 清华大学

【搜索引擎模式】：

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本,

京都, 大学, 日本京都大学, 深造

'''

分词应用场景：

比如搜索引擎，拿我们充电了么官网的搜索举例。

http://www.chongdianleme.com

'''

词性标注：

例子：充电了么App是专注上班族职业技能提升充电学习的在线教育平台

充电/v,了/ul,么/y,App/eng,是/v,专注/v,

上班族/nz,职业技能/n,提升/v,充电/v,学习/v,的/uj,在线教育/l,平台/n

词性表如下所示：

形语素

形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。

形容词

取英语形容词 adjective的第1个字母。

副形词

直接作状语的形容词。形容词代码 a和副词代码d并在一起。

名形词

具有名词功能的形容词。形容词代码 a和名词代码n并在一起。

区别词

取汉字“别”的声母。

连词

取英语连词 conjunction的第1个字母。

副语素

副词性语素。副词代码为 d，语素代码ｇ前面置以D。

副词

取 adverb的第2个字母，因其第1个字母已用于形容词。

叹词

取英语叹词 exclamation的第1个字母。

方位词

取汉字“方”

语素

绝大多数语素都能作为合成词的“词根”，取汉字“根”的声母。

前接成分

取英语 head的第1个字母。

成语

取英语成语 idiom的第1个字母。

简称略语

取汉字“简”的声母。

后接成分

习用语

习用语尚未成为成语，有点“临时性”，取“临”的声母。

数词

取英语 numeral的第3个字母，n，u已有他用。

名语素

名词性语素。名词代码为 n，语素代码ｇ前面置以N。

名词

取英语名词 noun的第1个字母。

人名

名词代码 n和“人(ren)”的声母并在一起。

地名

名词代码 n和处所词代码s并在一起。

机构团体

“团”的声母为 t，名词代码n和t并在一起。

其他专名

“专”的声母的第 1个字母为z，名词代码n和z并在一起。

拟声词

取英语拟声词 onomatopoeia的第1个字母。

介词

取英语介词 prepositional的第1个字母。

量词

取英语 quantity的第1个字母。

代词

取英语代词 pronoun的第2个字母,因p已用于介词。

处所词

取英语 space的第1个字母。

时语素

时间词性语素。时间词代码为 t,在语素的代码g前面置以T。

时间词

取英语 time的第1个字母。

助词

取英语助词 auxiliary

动语素

动词性语素。动词代码为 v。在语素的代码g前面置以V。

动词

取英语动词 verb的第一个字母。

副动词

直接作状语的动词。动词和副词的代码并在一起。

名动词

指具有名词功能的动词。动词和名词的代码并在一起。

标点符号

非语素字

非语素字只是一个符号，字母 x通常用于代表未知数、符号。

语气词

取汉字“语”的声母。

状态词

取汉字“状”的声母的前一个字母。

未知词

不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准，CSW分词中定义)

'''

def dosegment_all(sentence):

'''

带词性标注，对句子进行分词，不排除停用词等

:param sentence:输入字符

:return:

'''

sentence_seged = jieba.posseg.cut(sentence.strip())

outstr = ''

for x in sentence_seged:

outstr+="{}/{},".format(x.word,x.flag)

#上面的for循环可以用python递推式构造生成器完成

# outstr = ",".join([("%s/%s" %(x.word,x.flag)) for x in sentence_seged])

return outstr

str = dosegment_all("充电了么App是专注上班族职业技能提升充电学习的在线教育平台")

print(str)

print("词性标注")

关键词抽取基于TF-IDF算法

基于 TF-IDF（term frequency–inverse document frequency）算法的关键词抽取:

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence ：为待提取的文本

topK：为返回几个 TF/IDF 权重最大的关键词，默认值为 20

withWeight ：为是否一并返回关键词权重值，默认值为 False

allowPOS ：仅包括指定词性的词，默认值为空，即不筛选

TF-IDF原理介绍

TF-IDF（term frequency–inverse document frequency）

是一种用于资讯检索与文本挖掘的常用加权技术。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

字词的重要性随着它在文件中出现的次数成正比增加，

但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

除了TF-IDF以外，互联网上的搜寻引擎还会使用基于连结分析的评级方法，

以确定文件在搜寻结果中出现的顺序。

原理

在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的次数。

这个数字通常会被正规化，以防止它偏向长的文件。

同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。

逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。

某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

高权重的TF-IDF：某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，

可以产生出高权重的TF-IDF。

因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

'''

import jieba.analyse

sentence = """

充电了么是专注上班族职业培训充电学习的在线教育平台。

免费学习职业技能，提高工作效率，带来经济效益！今天你充电了么？

充电了么官网：http://www.chongdianleme.com

充电了么App下载：https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

功能特色如下：

【全行业职位】 - 上班族职业技能提升

覆盖所有行业和职位，不管你是上班族，高管，还是创业都有你要学习的免费视频和文章。其中大数据人工智能AI、区块链、深度学习是互联网一线工业级的实战经验。

除了专业技能学习，还有通用职场技能，比如企业管理、股权激励和设计、职业生涯规划、社交礼仪、沟通技巧、演讲技巧、开会技巧、发邮件技巧、工作压力如何放松、人脉关系等等，全方位提高你的专业水平和整体素质。

【牛人课堂】 - 学习牛人工作经验

1.智能个性化推荐引擎：

海量免费视频课程，覆盖所有行业、所有职位，通过不同行业职位的技能词偏好挖掘分析，智能推荐匹配你目前职位最感兴趣的技能学习课程。

2.听课全网搜索

输入关键词搜索海量视频课程，应有尽有，总有适合你的免费课程。

3.听课播放详情

视频播放详情，除了播放当前视频，更有相关视频课程和文章阅读推荐，对某个技能知识点强化，让你轻松成为某个领域的资深专家。

【精品阅读】 - 技能文章兴趣阅读

1.个性化阅读推荐引擎：

千万级免费文章阅读，覆盖所有行业、所有职位，通过不同行业职位的技能词偏好挖掘分析，智能推荐匹配你目前职位最感兴趣的技能学习文章。

2.阅读全网搜索

输入关键词搜索海量文章阅读，应有尽有，总有你感兴趣的技能学习文章。

【机器人老师】 - 个人提升趣味学习

基于搜索引擎和人工智能深度学习训练，为您打造更懂你的机器人老师，用自然语言和机器人老师聊天学习，寓教于乐，高效学习，快乐人生。

【精短课程】 - 高效学习知识

海量精短牛人课程，满足你的时间碎片化学习，快速提高某个技能知识点。

充电了么官网：http://www.chongdianleme.com

充电了么App下载：https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

"""

keywords = jieba.analyse.extract_tags(sentence,

topK=36,

withWeight=True,

allowPOS=('n', 'nr', 'ns'))

print("TF-IDF算法提取关键词：-------------------------------------------")

for item in keywords:

print(item[0], item[1])

基于TextRank算法的关键词抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False,

allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 仅包括指定词性的词，默认值为空，即不筛选。

jieba.analyse.TextRank() 新建自定义 TextRank 实例

基本思想：

将待抽取关键词的文本进行分词

以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图

计算图中节点的PageRank，注意是无向带权图

textRank算法原理介绍

将原文本拆分为句子，在每个句子中过滤掉停用词（可选），并只保留指定词性的单词（可选）。

由此可以得到句子的集合和单词的集合。

每个单词作为pagerank中的一个节点。设定窗口大小为k，假设一个句子依次由下面的单词组成：

w1, w2, w3, w4, w5, ..., wn

w1, w2, ..., wk、w2, w3, ...,wk+1、w3, w4, ...,wk+2等都是一个窗口。

在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。

基于上面构成图，可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。

'''

keywords = jieba.analyse.textrank(sentence,

topK=36,

withWeight=True,

allowPOS=('n', 'nr', 'ns'))

print("TextRank算法提取关键词：==============================")

for item in keywords:

print(item[0], item[1])

除了自然语言处理NLP之中文分词和词性标注☞https://ke.qq.com/course/474976?flowToken=1028976

其它深度学习框架也有不错的开源实现，比如MXNet，后面请大家关注充电了么app，课程，微信群，更多内容请看新书《分布式机器学习实战（人工智能科学与技术丛书）》

【新书介绍】

《分布式机器学习实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】https://item.jd.com/12743009.html

新书特色：深入浅出，逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目

【新书介绍视频】

分布式机器学习实战（人工智能科学与技术丛书）新书【陈敬雷】https://ke.qq.com/course/3067704?flowToken=1029963

视频特色：重点对新书进行介绍，最新前沿技术热点剖析，技术职业规划建议！听完此课你对人工智能领域将有一个崭新的技术视野！职业发展也将有更加清晰的认识！

【精品课程】

《分布式机器学习实战》大数据人工智能AI专家级精品课程https://ke.qq.com/course/393750?flowToken=1028919

【免费体验视频】

人工智能百万年薪成长路线/从Python到最新热点技术 https://ke.qq.com/course/package/31251?flowToken=1029962

从Python编程零基础小白入门到人工智能高级实战系列课

https://ke.qq.com/course/package/29782?flowToken=1028733

视频特色：本系列专家级精品课有对应的配套书籍《分布式机器学习实战》，精品课和书籍可以互补式学习，彼此相互补充，大大提高了学习效率。本系列课和书籍是以分布式机器学习为主线，并对其依赖的大数据技术做了详细介绍，之后对目前主流的分布式机器学习框架和算法进行重点讲解，本系列课和书籍侧重实战，最后讲几个工业级的系统实战项目给大家。课程核心内容有互联网公司大数据和人工智能那些事、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战（推荐算法系统实战、人脸识别实战、对话机器人实战）、就业/面试技巧/职业生涯规划/职业晋升指导等内容。

【充电了么App】

本书在充电了么App里有对应的视频课程，更多学习资源也可以通过下载充电了么App客户端，也可以从各大应用商店里搜索“充电了么”自行下载。充电了么是专注上班族职业技能提升的在线教育平台。这里有海量免费课程，在这里你可以学习牛人的实际工作经验，也能够大幅提升职业技能，提高工作效率，带来经济效益！除了陈敬雷老师的课以外，还有上千万好课免费分享。全都在充电了么App上。充电了么APP是专注上班族职业培训充电学习的在线教育平台。各大安卓商店和苹果App Store搜索“充电了么”即可下载。按照下图输入网址也可以下载哦~

充电了么官网：http://www.chongdianleme.com/

充电了么App官网下载地址：https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

功能特色如下：

【全行业职位】 - 专注职场上班族职业技能提升

覆盖所有行业和职位，不管你是上班族，高管，还是创业都有你要学习的视频和文章。其中大数据智能AI、区块链、深度学习是互联网一线工业级的实战经验。

【牛人课堂】 - 学习牛人的工作经验

1.智能个性化引擎：

海量视频课程，覆盖所有行业、所有职位，通过不同行业职位的技能词偏好挖掘分析，智能匹配你目前职位最感兴趣的技能学习课程。

2.听课全网搜索

输入关键词搜索海量视频课程，应有尽有，总有适合你的课程。

3.听课播放详情

视频播放详情，除了播放当前视频，更有相关视频课程和文章阅读，对某个技能知识点强化，让你轻松成为某个领域的资深专家。

【精品阅读】 - 技能文章兴趣阅读

1.个性化阅读引擎：

千万级文章阅读，覆盖所有行业、所有职位，通过不同行业职位的技能词偏好挖掘分析，智能匹配你目前职位最感兴趣的技能学习文章。

2.阅读全网搜索

输入关键词搜索海量文章阅读，应有尽有，总有你感兴趣的技能学习文章。

【机器人老师】 - 个人提升趣味学习

基于搜索引擎和智能深度学习训练，为您打造更懂你的机器人老师，用自然语言和机器人老师聊天学习，寓教于乐，高效学习，快乐人生。

【精短课程】 - 高效学习知识

海量精短牛人课程，满足你的时间碎片化学习，快速提高某个技能知识点。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

自然语言处理NLP之中文分词和词性标注

推荐阅读更多精彩内容