需要导入的模块
import itchat
import re
import jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator
from scipy.misc import imread # 这是一个处理图像的函数
登录, 获取好友列表, 会出现一个二维码,用手机微信扫一扫登录
# 登录
itchat.login()
# 获取好友列表
friends = itchat.get_friends(update=True)[0:]
# print(friends)
打印之后你会发现,有大量的span,class,emoji,emoji1f3c3等的字段,因为个性签名中使用了表情符号,这些字段都是要过滤掉的,写个正则和replace方法过滤掉
# 去除所有这些符号
tList = []
for i in friends:
# 获取个性签名
signature = i['Signature'].strip().replace('span', '').replace('class', '').replace('emoji', '')
#正则匹配过滤掉emoji表情, 例如emoji1f33f等
rep = re.compile("1f\d.+")
signature = rep.sub('', signature)
tList.append(signature)
接来下用jieba分词,然后制作成词云,首先要安装jieba和wordcloud库
终端输入如下命令:
pip install jieba
pip install wordcloud
分词
# 拼接字符串
text = ''.join(tList)
wordlist_jieba = jieba.cut(text, cut_all=True)
wl_space_split = ' '.join(wordlist_jieba)
# print(wl_space_split)
下面我用一张生成配色方案的图,最后生成的词云图片颜色从此图片取,注意比较词云,原图如下:
接下来生成词云
# 用于生成配色方案的图
back_color = imread('mao.jpg')
# 词云
my_wordcloud = WordCloud(background_color='white', # 背景颜色
max_words=2000, # 最大词数
mask=back_color, # 以该参数值作图绘制词云,这个参数不为空时,width和height会被忽略
max_font_size=100, # 显示字体的最大值
stopwords=STOPWORDS.add('中国'), # 使用内置的屏蔽词,再添加'中国'
font_path='/Users/guohongjun/Library/Fonts/simfang.ttf', # 指定字体文件 解决显示口字型乱码问题,
random_state=42, # 为每个词返回一个PIL颜色
# width=1000, # 图片的宽
# height=860 #图片的长
)
# 用wl_space_split生成词云
my_wordcloud.generate(wl_space_split)
# 基于彩色图像 生成响应的色彩
image_colors = ImageColorGenerator(back_color)
# 显示图片
# plt.imshow(my_wordcloud)
# 关闭坐标轴
# plt.axis('off')
# 绘制词云
plt.figure()
plt.imshow(my_wordcloud.recolor(color_func=image_colors))
plt.axis('off')
# 保存图片
my_wordcloud.to_file('ciyun.png')
最终生成的词云图片如下:
点这里:源码
此篇到此结束,希望多多提意见,共同学习!
同时,此系列文章也会不定期更新哦!~~