[数据分析]基于人物登场率生成《倚天》词云图

前言

词云图在文本分析上有着显著的效果，前段时间看完了《倚天屠龙记》，这里使用Python通过jieba库进行小说全文分词,在通过wordcloud库基于小说中人物的登场效率(确切的说是人物名字的出现频率)生成词云图，登场率高的字体更大。先看看看效果，如下图：

词云图

环境搭建

1.按照国际惯例Python库先装一波

pip3 install jieba
pip3 install worldcloud

woroldcloud默认是不支持中文的，需要下载一个中文字体,或者指定系统的中文字体路径

2.小说txt文本

点击即可下载

倚天屠龙记.txt

3.创建自定义关键词

自定义字典文件 “namedict.txt”。在这个字典文件中，记录了几个小说人物名，并标注词性为”nr“，代表名字，举个例子，作用就是告诉程序周芷若是一个人的名字，jieba分词虽然功能强大，但是对于不常见的，特定的小说人物名称的断句和分词表现就不是那么亮眼了。格式如下：

iamge

jieba和wordcloud功能简介

1. 中文分词组件jieba

功能1. 分词

jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2）cut_all参数用来控制是否采用全模式
jieba.cut_for_search方法接受一个参数：需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

import jieba

txt = "我是西南林业大学一名大三的学生"
seg_list = jieba.cut(txt,cut_all=True)
print("[全模式]：", "/".join(seg_list))

seg_list = jieba.cut(txt,cut_all= False)
print("[精确模式]：","/".join(seg_list))

seg_list = jieba.lcut_for_search(txt)
print("[搜索引擎模式]:",'/'.join(seg_list))


>>>
[全模式]： 我/是/西南/林业/林业大学/业大/大学/一名/大三/的/学生
[精确模式]： 我/是/西南/林业大学/一名/大三/的/学生
[搜索引擎模式]: 我/是/西南/林业/业大/大学/林业大学/一名/大三/的/学生

可以看到就文本分析而言，精确模式分词效果是比较好的,当不指定cut_all参数时，默认为False,即默认为精确模式

功能2.添加自定义词典

开发者可以指定自己自定义的词典，以便包含jieba词库里没有的词。虽然jieba有新词识别能力，但是自行添加新词可以保证更高的正确率
用法： jieba.load_userdict(file_name) # file_name为自定义词典的路径
词典格式和dict.txt一样，一个词占一行；每一行分三部分，一部分为词语，另一部分为词频，最后为词性（可省略），用空格隔开。

西南林业大学是一所大学的名称，不希望产生分词错误，通过创建dict.txt 里面输入“西南林业大学”

import jieba
jieba.load_userdict('dict.txt')

txt = "我是西南林业大学一名大三的学生"
seg_list = jieba.cut(txt)
print("[通过自定义词典,避免分词错误]：", "/".join(seg_list))


>>>
[通过自定义词典,避免分词错误]： 我/是/西南林业大学/一名/大三/的/学生

功能3. 关键词提取

jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
setence为待提取的文本
topK为返回几个TF/IDF权重最大的关键词，默认值为20

以小说分词和得到的文本信息，如下图，提取出现频率最大的三个名字

image

import jieba
import jieba.analyse


with open('分词后.txt') as f:
    fc = f.read()
topthree = jieba.analyse.extract_tags(fc,topK= 3)
print('/'.join(topthree))

>>>

张无忌/张翠山/谢逊

3.其他

分析词性功能，可以标注句子分词后每个词的词性，后续通过词性进行关键词提取;
并行分词
原理：将目标文本按行分隔后，把各行文本分配到多个python进程并行分词，然后归并结果，从而获得分词速度的可观提升,windows系统下还不支持

补充

Python join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。

seq = ('一','二三','四五六')
print('/'.join(seq))

>>>
一/二三/四五六

for i in seq:
    print(i+'/',end = '')

>>>
一/二三/四五六/

2.词云生成库wordcloud

这个库的使用就更简单了，只需要设置背景图片，字体，等参数，具体参数的设置可以参考文档，设置collocations=False参数是为了使词云图避免出现重复的关键词。

3.matplotlib库

python的一个画图库，这里用到只是为了显示生产的词云图，不用也行，可以将生产的词云图先保存下来，再在文件夹中找到打开进行显示

代码结构

词云中的词汇只有角色的名字，没有其他无关词汇，这样才能更好地反映出角色的权重。

整个程序的实现思路：

分词 (函数)
    小说文本整体分词（jieba）
    构建自定义人名词典
    筛选关键词(人名)
生成词云，绘制图片

完整代码

import jieba
jieba.load_userdict("namedict.txt")
import jieba.analyse as analyse
from wordcloud import WordCloud
from scipy.misc import imread
import matplotlib.pyplot as plt

# 获取关键词
def get_words(file_name):
    with open(file_name,encoding='utf-8') as f:
        fiction_text = f.read()
    wordList = jieba.cut(fiction_text)  #分词
    print('小说分词完成...')
    allow_pos = ('nr',)                 #设置筛选参数为”nr“
    tags = jieba.analyse.extract_tags(fiction_text, topK=30, withWeight=False, allowPOS=allow_pos) #从原文文本original_text中，筛选词性为”nr“的前30个词汇作为关键词
    print('关键词筛选完成...')
    stags="/".join(tags)                         #将关键词用‘/’分隔
    with open("stags.txt","w") as f:
        f.write(stags)     #将关键词保存到stags.txt文件中（可供调试查看）
    outstr = ''
    for word in wordList:
        if word  in stags:   #与关键词字符串比较，只保留关键词
            if word != '/':
                outstr += word 
                outstr += "/"
    return outstr

# 绘制词云
def draw_wordcloud(strwords):
    backgroud_Image = plt.imread('backpic.png')
    cloud = WordCloud(width=1024, height=768,
                 background_color='white',mask=backgroud_Image,
                 font_path='/home/yhch/Downloads/kaiti.ttf',collocations=False,
                 max_font_size=400,random_state=50)
    word_cloud = cloud.generate(strwords)                # 生成词云数据
    return word_cloud

if __name__ == '__main__':
    file_name = '/home/yhch/Downloads/yitian.txt'
    outstr = get_words(file_name)
    word_cloud=draw_wordcloud(outstr)
    plt.imshow(word_cloud)
    plt.axis('off')
    plt.show()
    word_cloud.to_file('yitian.jpg')

分析结果

生成的词云

词云图

因为分析的结果是图片，直观，简单，一目了然，这里就不再赘述了，同时也暴露出了小问题这里把武功 , 少林等关键词也当成了人名进行操作，wordcloud有停用词方法，可以对不想显示的关键词语进行屏蔽;同时程序也有需要改进的地方，整个程序大概要运行2分钟才能结束，一部分原因是这部小说有一百万字，数据量还是比较大的，程序中频繁的IO操作也是有影响速度的主要因素，是考虑到将中间结果保存下来，可供调试，就懒得。先这样后续会改进更新。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342