爬虫数据一般分为三步
1.获取网页 2.提取信息 3.保存信息
开始爬虫
我们需要一个爬取的目标网站:http://www.netbian.com/
我们爬虫的一般步骤是:
1.分析网页 ,写出网页的xpath路径
2.利用requests库获取网页
3.使用lxml解析网页
4.通过xpath获取图片的链接
5.下载图片
6.命名并保存图片
我们想要爬取我网页上面的所有的图片,我们需要先找到图片xpath的共性,总结出规律。
代码:
#-*- coding: utf-8 -*
import requests
from lxml import etree
#网站地址
url = 'http://www.netbian.com/'
#获取网页
r = requests.get(url)
r.encoding = r.apparent_encoding
#解析网页
dom = etree.HTML(r.text)
#获取图片 img标签
#先获取图片所在的 img标签在分别获取图片链接和名字
img_path = '//a[@title]/img'
imgs = dom.xpath(img_path)
#获取图片的链接和名字 并下载 命名 保存
for img in imgs:
#xpath 的相对路径 “.” 代表上一级标签
#不要忘记 xpath返回的总是列表!
src = img.xpath('./@src')[0]
name = img.xpath('./@alt')[0]
#下载图片
image = requests.get(src)
#命名并保存图片
with open('G:\\python代码\\121212\\' + name +'.jpg' ,'wb') as f:
f.write(image.content)
思考:我们想要将图片放在我们理想的路径下,
with open('路径' + name +'文件格式' ,'wb') as f:
f.write(image.content)