前面写了一个爬虫程序,爬取了一个固定网站里面的所需要的图片,在这个基础上,改了一些代码,改成通用的程序,只需要把你所要爬取的链接放在上面,便可以爬取所需链接里面的图片(通用),今天Python第四个项目:爬取简书任意一篇文章所有图片(通用)。
首先拿自己的一片游记做一下测试:江城武汉,一座离开后会怀念的城市:https://www.jianshu.com/p/8a11293ab640
代码如下:
# _*_coding:utf-8_*_
from urllib.parse import urljoin
import requests
import re
import os
class GetImage(object):
def __init__(self, url):
self.url = url
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
}
self.dir_path = os.path.dirname(os.path.abspath(__file__))
self.path = self.dir_path + '/imgs'
isExists = os.path.exists(self.dir_path + '/imgs')
# 创建目录
if not isExists:
os.makedirs(self.path)
def download(self, url):
try:
res = requests.get(url, headers=self.headers)
return res
except Exception as E:
print(url + '下载失败,原因:' + E)
def parse(self, res):
content = res.content.decode()
# print(content)
img_list = re.findall(r'<img.*?src="(.*?)"', content, re.S)
img_list = [urljoin(self.url, url) for url in img_list]
return img_list
def save(self, res_img, file_name):
if (file_name.endswith('jpg')) or (file_name.endswith('png')):
file_name = file_name
else:
file_name = file_name + '.jpg'
if res_img:
with open(file_name, 'wb') as f:
f.write(res_img.content)
print(url + '下载成功')
def run(self):
# 下载
res = self.download(self.url)
# 解析
url_list = self.parse(res)
# 下载图片
for url in url_list:
res_img = self.download(url)
name = url.strip().split('/').pop()
file_name = self.path + '/' + name
# 保存
self.save(res_img, file_name)
if __name__ == '__main__':
url_list = ['https://www.jianshu.com/p/8a11293ab640']
for url in url_list:
text = GetImage(url)
text.run()
运行之后得到一个自动生成的imgs文件夹
打开 文件夹可以看到,链接里面所有的图片已经抓取下来了。
原文作者:祈澈姑娘 技术博客:https://www.jianshu.com/u/05f416aefbe1
90后前端妹子,爱编程,爱运营,文艺与代码齐飞,魅力与智慧共存的程序媛一枚,欢迎关注【编程微刊】公众号,回复【领取资源】,500G编程学习资源干货免费送。