前几天刚刚开始研究网络爬虫,都说爬虫工程师都是前端工程师,作为一枚前端,觉得自己是不是也能在爬虫的路上越走越远呢。
网上看了些教程,看看一些简单的爬虫代码,我的爬虫生涯就算是正式开始了。
第一个目标,我选择了爱奇艺,本身从事与媒体行业,所以首选当然是与媒体行业相关的网站。这里我选择爱奇艺的电视剧频道。
观察爱奇艺的网址,它的页数是以11-1-1-iqiyi--.html来区分的,我们选择第二页可以观察到地址变成11-2-1-iqiyi--.html
所以我们选择拼接该网址,简单的for循环20页,爬取前20页的图片。
打开f12,观察网页渲染后的代码
可以看到,中国兄弟连这部电视剧里,有title和src,代表标题和图片的链接
这里,我使用pyquery来进行解析,观察到这些图片所在的img标签上都有rseat="dsjp7",所以使用
doc = pq(html)
items = doc('[rseat=dsjp7]').items()
注意一定要先安装pyquery的包
将取到的items进行遍历,得到图片地址和标题,再将其保存到自己提前建好的文件夹中
看看爬虫的效果
代码地址:Github