爬取80s网站2018年电视剧作品主图片
-- coding:utf-8 --
2018年3月25日
下载图片request.urlretrieve(jpg_link, path)
from urllib import request
import re
Python 2.7.9 之后引入了一个新特性当你urllib.urlopen一个 https 的时候会验证一次 SSL 证书
导入证书库
import ssl
禁掉这个证书的要求
context = ssl._create_unverified_context()
picture=[["网址","标题"]]
获取图片地址
def gettupian():
response=request.urlopen(url,context=context)
html=response.read().decode("utf-8")
re_tupian=re.compile(r'<li> <a href=.? title="(.?)">.?<img id.?src="(.*?)" src',re.S)
list=re_tupian.findall(html)
for title,url_tp in list:
url_tp="http:"+url_tp
picture.append([url_tp,title])
下载图片到本地
def xz():
for i in range(1,len(picture)):
request.urlretrieve(picture[i][0],str(i)+".jpg")
for j in range(1,5):
url="https://www.80s.tw/ju/list/---2018-0-g-p%s"%j
gettupian()
print("正在下载第%s页"%j)
xz()
print("下载完毕")