在不考虑模拟登录的前提下,我们该如何获取博主的微博数据,这是我们需要思考的问题,接下来我们就一步一步分析,如何得到我们想要的数据.
1、当我们要抓取一个网站的时候,我们的原则是首先要看这个网站有没有移动站,如果有移动站的话就抓移动站,因为移动站的反爬虫稍微会弱一些,这样也好抓取一些。
这里是谢娜微博的主页,接着我们看获取主页时调用的接口
这里通过筛选,我们得到了两个数据api,接着我们来看这两个接口分别获取的是什么数据。
https://m.weibo.cn/api/container/getIndex?containerid=1076031192329374,这个接口获取到的数据是博主发送的微博
containerid其实是个固定字段,主页的是230283+博主ID,微博内容是107603+博主ID,了解api的规律之后我们只要知道博主的ID,我们就可以根据这个接口抓取任意博主的微博了。
核心部分已经分析完了,下一篇我们就用代码来实现吧。