1、需要的一些库
这里需要5个库,当然如果想要简单一些,也可以去掉一些。
gevent包:这是使用多协程必不可少的包,如果你使用的不是多协程,可以不用这个
time包:这是可以用来计时,也用来设置爬取间隔,不然对服务器不友好就不好了。。
request包:这是对网址链接进行处理和响应的,必不可少的。
BeautifuiSoup包:这是对响应的网址进行解析的。
os包:创建文件夹的。
'''
想最快的入门Python吗?请搜索:"泉小朵",来学习Python最快入门教程。
也可以加入我们的Python学习Q群:902936549,送给每一位python的小伙伴教程资料。
'''
from gevent import monkey
monkey.patch_all()
from gevent.queue import Queue
import requests
from bs4 import BeautifulSoup
import gevent
import time
import os
2、在我们导入需要的库之后,要对网页网址进行分析,看看响应的图片藏在哪里,从而进行爬取。我这里采用的网址是
小猫咪网址
当你打开它时,会发现很多很多可爱的小猫咪,让人都不舍得离开了(哈哈,题外话),好了我们点开网页检查,发现小猫咪的网址链接藏在 img src 中。
我这里采用的是用最小父系中去寻找,而我找到的最小父系是
'div',class_='il_img'
话不多说,这是我爬取的所有代码如下所示,基本上都很简单,一目了然。
def pachong():
while not work.empty():
url = work.get_nowait()
res = requests.get(url,headers = headers)
jiexi = BeautifulSoup(res.text,'html.parser')
fuxi = jiexi.find_all('div',class_='il_img')
for i in fuxi:
photo = i.find_all('a')[0].find('img')['src']
transform = str(photo)
add = 'https:' + transform
image.append(add)
3、接下来是存储图片到本地文件中,先使用os模块创建文件夹,创建好之后因为是图片,以wb模式写入文件夹中。
dir_name = 'catimage'
#在当前目录下创建文件夹
if not os.path.exists(dir_name):
os.mkdir(dir_name)
i = 0
for img in image:
#给它一点点时间,不然可能会把服务器搞崩掉。。
time.sleep(0.1)
picture_name = img.split('/')[-1] #提取图片url后缀,一定要用!
response = requests.get(img,headers = headers)
with open(dir_name+'/'+picture_name,'wb') as f:
f.write(response.content)
4、除此之外,我还加了五只爬虫来进行异步爬取,这样会快一点。
5、好了,说了这么多,轮到看看我们的最终得到了什么,我去本地文件夹里找到我创建的catimage文件夹。打开,入眼可见(我截图为部分图片),太可爱了吧!
6、整体源码提供如下啦!
#需要导入的库
#我采用多协程方式
from gevent import monkey
monkey.patch_all()
from gevent.queue import Queue
import requests
from bs4 import BeautifulSoup
import gevent
import time
import os
#用time.time()方法来记录爬取的时间
starttime = time.time()
work = Queue()
start_url = 'https://www.ivsky.com/tupian/xiaomao_t3023/index_{page}.html'
#头文件还是要加的,不然会被服务器拦截掉,导致爬取不到
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}
#对服务器不能太狠,所以只爬取4页就好了。。。
for x in range(1,5):
real_url = start_url.format(page = x)
work.put_nowait(real_url)
image = []
#主要爬虫的操作都在这里
def pachong():
while not work.empty():
url = work.get_nowait()
res = requests.get(url,headers = headers)
jiexi = BeautifulSoup(res.text,'html.parser')
fuxi = jiexi.find_all('div',class_='il_img')
for i in fuxi:
photo = i.find_all('a')[0].find('img')['src']
transform = str(photo)
add = 'https:' + transform
image.append(add)
dir_name = 'catimage'
#在当前目录下创建文件夹
if not os.path.exists(dir_name):
os.mkdir(dir_name)
i = 0
for img in image:
#给它一点点时间,不然可能会把服务器搞崩掉。。
time.sleep(0.1)
picture_name = img.split('/')[-1] #提取图片url后缀,一定要用!
response = requests.get(img,headers = headers)
with open(dir_name+'/'+picture_name,'wb') as f:
f.write(response.content)
i = i+1
print('正在爬取第'+str(i)+'张图片')
task_list = []
for z in range(5):
task = gevent.spawn(pachong)
task_list.append(task)
gevent.joinall(task_list)
endtime = time.time()
print('爬取时长:',endtime-starttime)
好啦。不了解的可以评论给我哦!