用selenium自动加载浏览器下载图片

上一篇用requests这个库进行图片的批量下载，只所以可以这样做，是因为豆瓣提供的XHR的接口API，而且接口返回的数据类型为json格式，所以使用起来非常的方便，但是有时候我们需要分析html格式或xml格式的数据，从中提取需要的链接，再进行下载，这时候selenium就派上了用场。

一人工下载海报

以下载甄子丹的海报为例，我们一般打开豆瓣电影网站：https://movie.douban.com/ 然后输入关键词甄子丹，然后再去下载海报。

二自动下载处理思路

自动下载，我们需要能够分析出网页种海报图片的具体地址，然后通过程序去下载。

2.1 xpath学习

这里通过xpath去搜寻图片的地址，xpath是 XML Path Language的简称，原来用于搜索xml中的具体路径的，同样适用于搜寻html的元素，简单语法说明下:

xpath基本语法

在python中，适用lxml库可以将html转成xpath对象，然后进行分析，非常方便，lxml库可以对html未闭合的标签元素做容错处理。
看一个简单的例子：

from lxml import etree

text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''

解析：

#读取字符串，读取文件可以用
#html=etree.parse('test.html',etree.HTMLParser()) 
html = etree.HTML(text)
#转成补全字节
r = etree.tostring(html,encoding='utf-8')
#打印补全结果
#print(r.decode('utf-8'))
#搜下下面所有为li的子孙节点
resultLi = html.xpath("//li")
print("//li: "+ str(resultLi))
#搜寻li节点下面的a节点，并取href属性的值
reLiA = html.xpath("//li/a/@href")
print("//li/a/@href :"+ str(reLiA))
#获取href的属性值为link2.html的a节点的上层节点的class熟悉值
reClass=html.xpath('//a[@href="link2.html"]/../@class')
print('//a[@href="link2.html"]/../@class :'+ str(reClass))
#搜寻li节点下面的a节点，并取href属性的值
reLiText = html.xpath("//li/a/text()")
print("//li/a/text() :"+ str(reLiText))

上述代码本来是一段，在markdown中解析有问题，改成两段了。
打印结果如下：

//li: [<Element li at 0x1cb14b89908>, <Element li at 0x1cb14b89988>, <Element li at 0x1cb14b899c8>, <Element li at 0x1cb14b89a08>, <Element li at 0x1cb14b89a48>]
//li/a/@href :['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
//a[@href="link2.html"]/../@class :['item-1']
//li/a/text() :['first item', 'second item', 'third item', 'fourth item', 'fifth item']

2.2 图片的xpath路径提取

通过上面的例子，xpath的语法虽然不复杂，但是有时候还要记忆，幸好chorme浏览器有个xpath helper插件，安装上之后鼠标放在图片上，按下ctrl+shift+x键，弹出对话框：

xpath help获取路径

鼠标在这些海报中来回移动，发现变化的部分，然后修改xpath，去掉前面的固定前缀，把list的下标改成固定值，得到如下：

xpath调整

得到海报的xpath:

//div[@id='recent_movies']/div[@class='bd']/ul[@class='list-s']/*/div[@class='pic']/a/img/@src

这个xpath可以获取到的图片地址为：

https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2577437186.webp
https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2537133715.webp
https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2542380253.webp
https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2528842218.webp
https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2499052494.webp

我们用selenium模拟浏览器来进行html的加载和xpath的查询，获取到地址后，就可以通过下载函数进行图片下载。

三. 利用selenium 进行海报的下载

在豆瓣电影中搜索"甄子丹”
https://search.douban.com/movie/subject_search?search_text=%E7%94%84%E5%AD%90%E4%B8%B9&cat=1002
调整下xpath:

//div[1]/div[@class='sc-bZQynM jbSySb sc-bxivhb gemzcp'][*]/div[@class='item-root']/a[@class='cover-link']/img[@class='cover']/@src

得到的15个结果:

https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2577437186.webp
...

如果需要翻页的话，链接加个start=15说明从16个海报开始展示。
获取电影名称：

//div[@class='_ytukbl17q']/div[1]/div[@class='sc-bZQynM cBnAay sc-bxivhb gemzcp'][*]/div[@class='item-root']/div[@class='detail']/div[@class='title']/a[@class='title-text']

得到结果：

武侠‎ (2011)
西游记之大闹天宫‎ (2014)
...

最终下载代码：

# -*- coding: utf-8 -*-
import requests
import json
import sys
import io
import os
from selenium import webdriver
from lxml import etree


def download(picPath,src, id):
  if not os.path.isdir(picPath):
    os.mkdir(picPath)
  dir = picPath+'/' + str(id) + '.webp'
  print(src)
  imageHeader  = {
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    #'accept-encoding': 'gzip, deflate',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cache-control': 'max-age=0',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-site': 'none',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
  }
  try:
    pic = requests.get(src,headers=imageHeader,timeout=50)
    fp = open(dir, 'wb')
    fp.write(pic.content)
    fp.close()
  except requests.exceptions.ConnectionError:
    print('Sorrry,image cannot downloaded, url is error{}.'.format(src))

def query_img(query,downloadUrl):
    realUrl = downloadUrl.format(query)
    print(realUrl)
    driver = webdriver.Chrome('D:\\py3\\Lib\\site-packages\\selenium\\webdriver\\chrome\\chromedriver_win32\\chromedriver.exe')
    driver.get(realUrl)
    #解析html
    html = etree.HTML(driver.page_source)
    image_url_path = "//div[1]/div[*]/div[@class='item-root']/a[@class='cover-link']/img[@class='cover']/@src"
    movie_name_path = "//div/div[1]/div[*]/div[@class='item-root']/div[@class='detail']/div[@class='title']/a[@class='title-text']/text()"
    urls = html.xpath(image_url_path)
    names = html.xpath(movie_name_path)
    picPath = 'F:\\python\\images'
    for (url,name) in zip(urls,names):
        download(picPath,url,name)

if __name__ == "__main__":
    query = '甄子丹'
    url = 'https://search.douban.com/movie/subject_search?search_text=\'{}\'&cat=1002'
    query_img(query,url)

注意：这里面利用chrome浏览器的driver，不同的浏览器的driver可以到https://selenium-python.readthedocs.io/installation.html链接去下载，主要要和自己的浏览器版本保持一致。
chrome浏览器的版本可以通过在浏览器中输入：chrome://version/来进行查看。

祝大家冬至快乐！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,033评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,725评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,473评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,846评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,848评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,691评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,053评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,700评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,856评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,676评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,787评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,430评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,034评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,990评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,218评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,174评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,526评论 2赞 343

用selenium自动加载浏览器下载图片

一 人工下载海报

二 自动下载处理思路

2.1 xpath学习

2.2 图片的xpath路径提取

三. 利用selenium 进行海报的下载

推荐阅读更多精彩内容

一人工下载海报

二自动下载处理思路