爬取微博用户公开信息，分析为周杰伦打榜的夕阳红老年团，告诉你他们真实年龄！

前段时间为“周杰伦打榜”话题迅速登上微博热搜榜
因为cxk的粉丝们质疑周杰伦微博没有数据
（周杰伦没有开通微博）
于是，无数隐匿江湖多年
看不下去的周杰伦老年粉开始被迫营业
[图片上传失败...(image-79b0e7-1564912398885)]
于是一场周杰伦中老年粉VS蔡徐坤铁军
微博打榜大战拉响
为听了那么多年的周杰伦
粉丝们纷纷拉下老脸
和00后的微博饭圈小年轻们
从零学习如何做数据
[图片上传失败...(image-67e885-1564912398885)]

一、需求背景

iKun们都说周杰伦的粉丝是夕阳红老年团

在这里插入图片描述

今天我们就用他们说的数据，来实力打脸，让iKun们看看周杰伦的粉丝们到底是不是中老年粉！

二、功能描述

用爬虫爬取#周杰伦超话#下的微博，然后再爬取他们的个人主页信息，获取年龄、地区、性别等信息，然后用数据分析，再可视化呈现！

注意：文中说的微博个人主页信息均为微博公开信息，不包含任何隐私信息，同时全文中将不会出现任何人的个人信息，信息仅用于学习分析，任何人不得使用此教程用作商用，违者后果自付！

三、技术方案

我们大概分解下技术步骤，以及使用的技术

爬取#周杰伦超话#下的微博
根据每条微博爬取该用户基本信息
将信息保存到csv文件
使用数据分析用户年龄、性别分布
分析粉丝团的地区分布
使用词云分析打榜微博内容

爬取数据我们可以使用requests库，保存csv文件我们可以使用内置库csv，而可视化数据分析这次给大家介绍一个超级好用的库pyecharts，技术选型好了之后我们就可以开始技术实现了！

四、爬取超话微博

1.找到超话加载数据URL

我们在谷歌浏览器（chrome）中找到#周杰伦超话#页面，然后调出调试窗口，改为手机模式，然后过滤请求，只查看异步请求，查看返回数据格式，找到微博内容所在！
[图片上传失败...(image-460db6-1564912398885)]
微博请求链接：https://m.weibo.cn/api/container/getIndex?jumpfrom=weibocom&containerid=1008087a8941058aaf4df5147042ce104568da_-_feed

2.代码模拟请求数据

拿到链接我们就可以模拟请求，这里我们还是使用我们熟悉的requests库。简单几句便可以获取微博！
[图片上传失败...(image-8a4743-1564912398885)]

3.提取微博内容

我们可以看到返回的数据是一个json格式的，我们一层一层寻找，就可以找到微博内容、用户id所在！
[图片上传失败...(image-bc391a-1564912398885)]
了解微博返回的数据结构之后我们就可以将微博内容和id提取出来啦！
[图片上传失败...(image-418568-1564912398885)]

4.批量爬取微博

在我们提取一条微博之后，我们便可以批量爬取微博啦，如何批量？当然是要分页了？那如何分页，这里猪哥再教大家一遍寻找分页参数技巧：

查找分页参数技巧：比较第一次和第二次请求url，看看有何不同，找出不同的参数！给大家推荐一款文本比较工具：Beyond Compare

比较两次请求的URL发现，第二次比第一次请求链接中多了一个：since_id参数，而这个since_id参数就是每条微博的id！

微博分页机制：根据时间分页，每一条微博都有一个since_id，时间越大的since_id越大所以在请求时将since_id传入，则会加载对应话题下比此since_id小的微博，然后又重新获取最小since_id将最小since_id传入，依次请求，这样便实现分页

了解微博分页机制之后，我们就可以制定我们的分页策略：我们将上一次请求返回的微博中最小的since_id作为下次请求的参数，这样就等于根据时间倒序分页抓取数据！

[图片上传失败...(image-e80bb2-1564912398885)]
然后写一个for循环调用上面那个方法就可以啦

# 批量爬取
    for i in range(1000):
        print('第%d页' % (i + 1))
        spider_topic()

四、爬取用户信息

批量爬取微博搞定之后，我们就可以开始爬取用户信息啦！

首先我们得了解，用户基本信息页面的链接为：https://weibo.cn/用户id/info，我们以某喜欢唱、跳、rap还有篮球的同学主页为例子！
[图片上传失败...(image-924da2-1564912398885)]
所以我们只要获取到用户的id就可以拿到他的公开基本信息！

1.获取用户id

回顾我们之前分析的微博数据格式，发现其中便有我们需要的用户id！
[图片上传失败...(image-cf35dd-1564912398885)]
所以我们在提取微博内容的时候可以顺便将用户id提取出来！
[图片上传失败...(image-2dfc12-1564912398885)]

2.模拟登录

我们获取到用户id之后，只要请求https://weibo.cn/用户id/info 这个url就可以获取公开信息了，但是查看别人用户主页是需要登录的，那我们就先用代码模拟登录！

我们之前爬取豆瓣的时候，已经教过大家如何模拟登录了，这里就直接放出代码！
[图片上传失败...(image-961f76-1564912398885)]
登录我们使用的是requests.Session()对象，这个对象会自动保存cookies，下次请求自动带上cookies！

3.爬取用户公开信息

拿到用户id又登录之后，就可以开始爬取用户公开信息啦！
[图片上传失败...(image-13d56b-1564912398885)]
这里公开信息我们只要：用户名、性别、地区、生日这些数据！所以我们需要将这几个数据提取出来！
[图片上传失败...(image-df213e-1564912398885)]
爬取用户信息不能过于频繁，否则会出现请求失败（响应状态码=418），但是不会封你的ip，其实很多大厂不太会轻易的封ip，太容易误伤了，也许一封就是一个小区甚至更大！

五、保存csv文件

微博信息拿到了、用户信息也拿到了，那我们就把这些数据保存起来，方便后面做数据分析！

我们之前一直是保存txt格式的，因为之前都是只有一项数据，而这次是多项数据（微博内容、用户名、地区、年龄、性别等），所以选择CSV（Comma Separated Values逗号分隔值）格式的文件！
[图片上传失败...(image-4e6ccd-1564912398885)]
我们生成一个列表，然后将数据按顺序放入，再写入csv文件！
[图片上传失败...(image-d7b43c-1564912398885)]
看看生成的csv文件，注意csv如果用wps或excel打开可能会乱码，因为我们写入文件用utf-8编码，而wps或excel只能打开gbk编码的文件，你可以用一般的文本编辑器即可，pycharm也可以！
[图片上传失败...(image-4511d7-1564912398885)]

六、数据分析

数据保存下来之后我们就可以进行数据分析了，首先我们要知道我们需要分析哪些数据？

我们可以将性别数据做生成饼图，简单直观
将年龄数据作出柱状图，方便对比，看看到底是不是夕阳红老年团
将地区做成中国热力图，看看哪个地区粉丝最活跃
最后将微博内容做成词云图，直观了解大家在说啥

1.读取csv文件列

因为我们保存的数据格式为：'用户id', '用户名', '性别', '地区', '生日', '微博id', '微博内容'，的很多行，而现在做数据分析需要获取指定的某一列，比如：性别列，所以我们需要封装一个方法用来读取指定的列！
[图片上传失败...(image-9c0ce8-1564912398885)]
这里猪哥还使用了Counter类来统计词频，方便后面数据分析，他返回的格式为：{'女': 1062, '男': 637}。

2.可视化库pyecharts

在我们分析之前，有一件很重要的事情，那就是选择一个合适可视化库！大家都知道Python可视化库非常多，之前我们一直在用matplotlib库做词云，matplotlib做一些简单的绘图非常方便。但是今天我们需要做一个全国分布图，所以经过猪哥对比筛选，选择了国人开发的pyecharts库。选择这个库的理由是：开源免费、文档详细、图形丰富、代码简介，用着就是一个字：爽！

官网：https://pyecharts.org/#/
源码：https://github.com/pyecharts/pyecharts
安装：pip install pyecharts

po一张他们的官方文档图片
[图片上传失败...(image-32006d-1564912398885)]
这里有非常详细的例子，直接复制过来就可以运行得到图片！
[图片上传失败...(image-7b669b-1564912398885)]

3.分析性别

选择了可视化库之后，我们就来使用吧！
[图片上传失败...(image-68a242-1564912398885)]
这里说下为什么生成的是html？因为这是动态图，就是可以点击选择显示的，非常人性化！执行之后会生成一个gender.html文件，在浏览器打开就可以！
[图片上传失败...(image-e01685-1564912398885)]
[图片上传失败...(image-4af467-1564912398885)]
效果图中可以看到，在打榜的粉丝中女性多于男性，女性占比大概为62%！

4.分析年龄

这一项是大家比较关心的，真的是夕阳红粉丝团吗？
[图片上传失败...(image-909cca-1564912398885)]
[图片上传失败...(image-911fb8-1564912398885)]
上图中我们发现为周杰伦打榜的主力军为：90后！

5.地区分析

下面我们来看看打榜粉丝全国各省的分布情况！
[图片上传失败...(image-f7f2c1-1564912398885)]
上图中我们可以看到打榜最多的三个省（直辖市）依次为：广州、北京、上海！

6.打榜内容分析

我们来看看这些打榜的粉丝们都在说什么！
[图片上传失败...(image-84e315-1564912398885)]
上图分析出现一些有趣的词：营业、老年人、奶茶！

看来打榜粉丝们都自认为自己是老年人，哈哈哈！
[图片上传失败...(image-c6d0c3-1564912398885)]

七、总结

从结果来讲为周杰伦打榜的粉丝主力军还是80、90后，毕竟曾经的青春啊，而且女生要比男生多，打榜粉丝最多的地区为广东！

从技术分析今天这个例子有不少的新东西，了解新浪微博分页机制、爬取用户公开信息、使用csv库保存文件、使用pyecharts做数据可视化！

当然中间遇到了很多问题，只有自己亲自尝试才会知道，猪哥已经把源码放在github（https://github.com/pig6/sina_topic_spider 或点击阅读原文）中，感兴趣的同学记得转发收藏有时间的时候尝尝鲜！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342