1 背景
朋友在研究股票相关资讯,再加上自己对股票也比较有兴趣,于是研究能否通过Scrapy爬取雪球数据。本次主要爬取粉丝在5w以上的大v名单。
2 输出结果
5w粉以上大V共171人
3 使用工具:Scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的python应用框架。相较于通过urlib库来爬取数据,Scrapy则更为专业、快捷,尤其在递归爬取这块。
4 编码思路
从一个雪球大V开始出发,找到它的粉丝列表,如果他的粉丝列表中有5w粉以上的,则递归一次。
5 编码
Scrapy主要工作量就是spider代码,如下:
6 注意点
注 1:通过以下链接可以查看指定用的粉丝列表,该链接可以通过访问用户列表的时候通过fiddler工具抓取出来:https://xueqiu.com/friendships/followers.json?pageNo=9&uid=5964068708
注 2 :通过该段代码可以模拟用户登录,否则会出现Not allowed或者fobbiden字样,headers信息可通过firefox的f12的网络里找。
注 3 :防止重复爬取,否则无线循环
注 4:输出到文本。通过这种方式可以即时看到爬取的用户信息,而且雪球整体5w粉以上的并不多
注 5:限制爬取页面数量,节省计算资源,至于为什么是20000,因为最大的大v小小辛巴也就2w页
注 6:该处为递归,处理好要处理的链接后,重新进行迭代计算。
业余兴趣学习中,欢迎指导,希望能认识互联网行业产品、运营、技术潜力股。