爬取网址:https://www.jianshu.com/trending/weekly
爬取信息:文章名、作者ID、发布日期、指数、阅读、评论、喜欢、赞赏数量、收录专题
爬取方式:在详细页面中进行解析。
存储方式:打印出来
①浏览下拉网页,发现网页使用了Ajax技术进行分页。经过测试,可使用以下URL来获取正确内容
https://www.jianshu.com/trending/weekly?page=4,修改数字4即可构造出URL。page范围为1-10页。
②本次爬虫在详细页面中进行,文章名、作者ID、发布日期、指数、阅读、评论、喜欢、赞赏数量可简单获取。
赞赏数量和收录专题使用了Ajax异步加载,但是相关网址都已经被锁定。
此处与书不同,先放着吧,继续往下学习。