词云绘制,推荐三种 Python包外加一个在线网站!

词云是文本可视化的重要方式,可将大段文本中的关键语句和词汇高亮展示,

本篇文章先介绍几种制作词云的 Python 库,分别是 WordCloud、StyleCloud、Pyecharts;再加一个在线词云制作网站;最后通过代码实操和可视化效果对它们做个简单比较

WordCloud、StyleCloud、Pyecharts 这三个包制作词云都具备一个特点:仅需几行代码就能绘制出一张精美的词云图,但需设置的参数量较大

WordCloud

WordCloud 是 Python 做词云图使用频率最高的一个库,上手简单,操作方便;词云 mask 形状可以自定义;后面介绍的两款库都是基于它 进行二次开发

WordCloud 把所有方法都封装到 WordCloud 类中,使用时只需更改一些参数,来调整词云图样式

以一个简单的 圆形 词云图为例,

先用 collections 构建了一个词频字典, 之后利用 WordCloud() 中的 generate_from_frequencies() 方法来拟合传入的文本

关于词云形状 ,下面代码中通过 numpy 生成一个圆形二值化数组作为 mask 参数;

from wordcloud import WordCloud
from collections import Counter

word_list = []
with open("danmu.txt",encoding='utf-8') as f:
    words = f.read()
    for word in words.split('\n'):
        if re.findall('[\u4e00-\u9fa5]+', str(word), re.S):  # 正则表达式匹配中文字符
            word_list.append(word)

def SquareWord(word_list):
    counter = Counter(word_list) # 计算词频;
    start = random.randint(0, 15) # 随机取0-15中间一个数字;
    result_dict = dict(counter.most_common()[start:]) # 在 counter 中取前start 个元素;

    x,y = np.ogrid[:300,:300] # 创建0-300二维数组;
    mask = (x-150)**2 + (y-150)**2>130**2 #创建以 150,150为圆心,半径为130的Mask;
    mask = 255*mask.astype(int) # 转化为 int

    wc = WordCloud(background_color='black',
                   mask = mask,
                   mode = 'RGB',
                   font_path="D:/Data/fonts/HGXK_CNKI.ttf",  # 设置字体路径,用于设置中文,
                   ).generate_from_frequencies(result_dict)

    plt.axis("off")
    plt.imshow(wc,interpolation="bilinear")
    plt.show()

SquareWord(word_list)# 绘制词云图主函数

效果如下:

square

<figcaption style="margin-top: 5px; text-align: center; color: #888; font-size: 0.0;">square</figcaption>

WordCloud 相对于其它两个 Python 库最突出的一个点:**可以自定义 Mask **,通过 mask 参数传入一个 numpy 数组,来设定词云形状

但需要注意的是文本只填充 value!=255 的区域,对 Value ==255 区域忽略 ,所以如果作为mask的备选图像不满足这个条件的话,需对图像进行预处理如下,背景用纯白色像素填充

image-20210210103201422

自定义mask词云绘制

def AliceWord(word_list):
    counter = Counter(word_list)  # 计算词频;
    start = random.randint(0, 15)  # 随机取0-15中间一个数字;
    result_dict = dict(counter.most_common()[start:])  # 在 counter 中取前start 个元素;

    # x, y = np.ogrid[:300, :300]  # 创建0-300二维数组;
    # mask = (x - 150) ** 2 + (y - 150) ** 2 > 130 ** 2  # 创建以 150,150为圆心,半径为130的Mask;
    # mask = 255 * mask.astype(int)  # 转化为 int

    # 读取图片作为 Mask
    alic_coloring = np.array(Image.open("D:/Data/WordArt/Alice_mask.png"))
    wc = WordCloud(background_color = "white",# 设置背景颜色
                   mode ="RGB",
                   mask=alic_coloring,# 为None时,自动创建一个二值化图像,长400,宽200;
                   min_font_size=4,#  使用词的最小频率限定;
                   relative_scaling= 0.8,# 词频与大小相关性
                   font_path="D:/Data/fonts/HGXK_CNKI.ttf",  # 字体路径,用于设置中文,
                   ).generate_from_frequencies(result_dict)

    wc.to_file("D:/Data/WordArt/wordclound.jpg")# 把生成的词云图进行保存
    plt.axis("off")
    plt.imshow(wc, interpolation="bilinear")
    plt.show()

可视化效果

wordclound

最后,这里提一下 WordCloud 中最主要的几个参数设定:

  • background_color(type->str) ,颜色名字或颜色代码,设置词云图的背景色
  • font_path(type->str), 自定义字体路径,需要注意的时若预览的是中文文本,这个参数必须设置,否则会出现乱码情况;
  • mask(type->ndarray),自定义词云形状,绘制时忽略纯白区域;
  • mode(type->str),设为 ’RGBA‘ 时,背景为透明,默认为 ’RGB‘;
  • relative_scaling(type-> float),词汇频率与最终词汇展示大小相关性,取值 0 -1;这个值越大相关性越强,默认为 0.5;
  • prefer_horizontal(type->float),控制水平文字相对于处置显示文字的比例,越小则词云图中竖直显示文字越多;

除了以上参数之外,还可以设定 颜色,禁用词,是否出现重复词 等信息

image-20210210110804316

详情可参考官方文档

https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html#wordcloud.WordCloud

StyleCloud

StyleCloud 是基于 WordCloud 开发的,在 WordCloud 的基础上又加入了一些新特性

image-20210210114111274
  • 1,支持颜色渐变;
  • 2,关于词云颜色,可以通过设计好的调色板来设置;
  • 3,支持图标 作为 mask,这个新特性是最赞的,并且设置时可直接对接 Font Awesome 网站,这里面有各式各样的图标
  • 4,除了 text文本可作为词汇输入之外,还支持等 csv、txt 文件格式的输入;

主程序只需一行代码即可

def Style_WordArt():
    # StyleClound 绘制词云图
    stylecloud.gen_stylecloud(
        file_path = "danmu.txt",#词云文本
        background_color='white',#背景颜色
        palette="colorbrewer.qualitative.Dark2_7",#调色板,来改变词云图文本颜色
        icon_name='fas fa-cat',# 词云图标;
        font_path= "D:/Data/fonts/HGXK_CNKI.ttf",# 中文字体路径
        random_state=40,#控制文本颜色随机状态;
        invert_mask= False,# 最终Mask是否逆置;
        output_name="D:/Data/WordArt/styleclound.jpg",# 图片保存路径
    )

效果如下:

styleclound

修改蒙版的话只需要更改 icon_name 参数即可,可参考 Font Awesome 网站,https://fontawesome.com/icons?d=gallery&m=free,里面几千种图案都可以使用

image-20210210115437929

icon_name名称的设置为目标图标的 class 标签即可,如下

image-20210210120030256

<figcaption style="margin-top: 5px; text-align: center; color: #888; font-size: 0.0;">image-20210210120030256</figcaption>

icon_name = 'fas fa-dog'

styleclound1

icon_name ='fab fa-amazon' 时:

styleclound11

关于词云颜色调色板设定,修改 palette 参数即可,palette 设定可参考 Palettable 网站:https://jiffyclub.github.io/palettable/ ,有多种调色样式模板可供选择

image-20210210120541712

其中上面每个模块中又有许多子模块,为最终需要设置的调色板

image-20210210121310786

设置时选择任意模板的子模板即可, 不需要前面的palettable. 字符串;例如我想设置 palettale.colorbrewser.qualitative.Dark2_3 作为调色版,只需要将 palettle = 'colorbrewser.qualitative.Dark2_3'即可

设置不同的调色板,最终会有不同的样式效果哦!

paletabble ='colorbrewer.qualitative.Paired_10'

image-20210210121514012

paletabble ='lightbartlein.diverging.BlueDarkOrange12_11'

image-20210210121739080

关于 Stylecloud 其它参数用法,可参考官方文档 https://github.com/minimaxir/stylecloud

Pyecharts

Pyecharts 是基于 Apache Echarts 开发的,主要用于数据可视化;词云图只是其中众多图表类型中的一个,相对于前两种词云包,Pyecharts 的可视化效果要弱一些

但 Pyecharts 将词云图保存为单个 html 文件,最终呈现出来有一定的交互效果

word

代码部分

from pyecharts.charts import WordCloud
import pyecharts.options as opts

word_list = []
with open("danmu.txt",encoding='utf-8') as f:
    words = f.read()
    for word in words.split('\n'):
        if re.findall('[\u4e00-\u9fa5]+', str(word), re.S):  # 正则表达式匹配中文字符
            word_list.append(word)

def Pyecharts_wordArt(word_list):
    counter = Counter(word_list)  # 计算词频;
    start = random.randint(0, 15)  # 随机取0-15中间一个数字;
    result_dict = list(counter.most_common()[start:])  # 在 counter 中取前start 个元素;
    print(result_dict[5:])

    Charts = WordCloud().add(series_name="Pyecharts", data_pair=result_dict, word_size_range=[6, 66]).set_global_opts(
        title_opts=opts.TitleOpts(
            title="Pyecharts", title_textstyle_opts=opts.TextStyleOpts(font_size=23)),
        tooltip_opts=opts.TooltipOpts(is_show=True),
    )
    Charts.render("Pyecharts_Wordclound.html")

Pyecharts_wordArt(word_list)

需要注意的是,Pyecharts 输入的文本需要是列表类型, 并且每隔词语与他出现的频率以数组形式存在,格式如下:

image-20210210130357486

总结

在这三种词云图的基础上,这里再推荐一个词云在线制作网站,WordArt.com, 最终的可视化效果要优于上面三种,并且调整样式也非常方便,简单直观,如果制作词云图数量不是很多的话,建议借助这个网站进行绘制

image-20210210131002843

要对这几个工具做个比对的话,从下面几个角度我对它们做了个排序

可视化效果

WordArt > Stylecloud > WordCloud > Pyecharts

交互效果

WordArt > Pyecharts > StyleCloud = WordCloud

自动化效率

Pyecharts = StyleCloud = WordCloud > WordArt

上手容易程度

WrodArt > StyleCloud > Pyecharts > WordCloud

至于最终选择那个作为最终词云绘制工具,需要结合自身情况及使用场景进行选择,但无论哪一种工具,都要要提前简单了解一下

好了,以上就是本篇文章的全部内容了,最后感谢大家的阅读,我们下期见!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容