爬取目标:简书七日热门的文章数据(如标题,作者,阅读量,评论,喜欢等等),并把这些数据存放到Mongodb中!
接下来我们可以分析一下这个页面,我们可以看到它的页面信息是异步加载的,我们尝试着获得它的页面规律:
我们发现页面的请求链接实际是:http://www.jianshu.com/trending/weekly?pages=2这样的一个结构,我们在进行翻页的时候,只需要将page的数据替换掉就行了。并且我们发现,每一个页面一共有20篇文章数据,于是我们就可以获得每个文章页面的用户链接了;
抓取 完连链接后就开始爬取文章的详细信息
对于这里面的爬取,阅读量和喜欢,评论需要用正则表达式匹配,其他的直接用BS就可以,直接上代码吧
爬取的结果
存放在Mongodb中的数据
最后总结一点:学编程,需要的就是不断的行动!也许你看了很多书,很多视频但实战就知道自己不行了,好好加油吧!(加了一个python学习社群,这篇是作业)