Python网络爬虫（三）- 爬虫进阶

Python网络爬虫（一）- 入门基础

Python网络爬虫（二）- urllib爬虫案例

Python网络爬虫（三）- 爬虫进阶

Python网络爬虫（四）- XPath

Python网络爬虫（五）- Requests和Beautiful Soup

Python网络爬虫（六）- Scrapy框架

Python网络爬虫（七）- 深度爬虫CrawlSpider

Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序

1.爬虫进阶cookielib

Python入门网络爬虫之精华版：详细讲解了Python学习网络爬虫。
为了进行高效的抓取有用的数据，并且减少冗余数据的存储，后续需要使用正则表达式来进行对爬取数据中特定内容的存储。
urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问。可以设置代理IP来进行爬虫，具体见代码操作（四）
当你获取一个URL你使用一个opener。在
Python网络爬虫（二）- urllib爬虫案例中，我们都是使用的默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url，data，timeout。
Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）
- cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。
- 如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置。

1）获取Cookie，并保存到CookieJar()对象中

# urllib2_cookielibtest1.py

import urllib2
import cookielib

# 构建一个CookieJar对象实例来保存cookie
cookiejar = cookielib.CookieJar()

# 使用HTTPCookieProcessor()来创建cookie处理器对象，参数为CookieJar()对象
handler=urllib2.HTTPCookieProcessor(cookiejar)

# 通过 build_opener() 来构建opener
opener = urllib2.build_opener(handler)

# 4. 以get方法访问页面，访问之后会自动保存cookie到cookiejar中
opener.open("http://www.baidu.com")

## 可以按标准格式将保存的Cookie打印出来
cookieStr = ""
for item in cookiejar:
    cookieStr = cookieStr + item.name + "=" + item.value + ";"

## 舍去最后一位的分号
print cookieStr[:-1]

2）访问网站获得cookie，并把获得的cookie保存在cookie文件中

# urllib2_cookielibtest2.py

import cookielib
import urllib2

# 保存cookie的本地磁盘文件名
filename = 'cookie.txt'

# 声明一个MozillaCookieJar(有save实现)对象实例来保存cookie，之后写入文件
cookiejar = cookielib.MozillaCookieJar(filename)

# 使用HTTPCookieProcessor()来创建cookie处理器对象，参数为CookieJar()对象
handler = urllib2.HTTPCookieProcessor(cookiejar)

# 通过 build_opener() 来构建opener
opener = urllib2.build_opener(handler)

# 创建一个请求，原理同urllib2的urlopen
response = opener.open("http://www.baidu.com")

# 保存cookie到本地文件
cookiejar.save()

3）从文件中获取cookies，做为请求的一部分去访问

# urllib2_cookielibtest2.py

import cookielib
import urllib2

# 创建MozillaCookieJar(有load实现)实例对象
cookiejar = cookielib.MozillaCookieJar()

# 从文件中读取cookie内容到变量
cookie.load('cookie.txt')

# 使用HTTPCookieProcessor()来创建cookie处理器对象，参数为CookieJar()对象
handler = urllib2.HTTPCookieProcessor(cookiejar)

# 通过 build_opener() 来构建opener
opener = urllib2.build_opener(handler)

response = opener.open("http://www.baidu.com")

urllib 模块方法。
urllib2 的异常错误处理
- URLError

import urllib2

requset = urllib2.Request('http://www.ajkfhafwjqh.com')

try:
    urllib2.urlopen(request, timeout=5)
except urllib2.URLError, err:
    print err

HTTPError

HTTPError是URLError的子类，我们发出一个请求时，服务器上都会对应一个response应答对象，其中它包含一个数字"响应状态码"。

如果urlopen或opener.open不能处理的，会产生一个HTTPError，对应相应的状态码，HTTP状态码表示HTTP协议所返回的响应的状态。

注意，urllib2可以为我们处理重定向的页面（也就是3开头的响应码），100-299范围的号码表示成功，所以我们只能看到400-599的错误号码。

import urllib2

requset = urllib2.Request('http://blog.baidu.com/itcast')

try:
    urllib2.urlopen(requset)
except urllib2.HTTPError, err:
    print err.code
    print err

改进版

import urllib2

requset = urllib2.Request('http://blog.baidu.com/itcast')

try:
    urllib2.urlopen(requset)

except urllib2.HTTPError, err:
    print err.code

except urllib2.URLError, err:
    print err

else:
    print "Good Job"

这样我们就可以做到，首先捕获子类的异常，如果子类捕获不到，那么可以捕获父类的异常。

2.具体代码操作

代码操作（一）自定义数据请求方式

# -*- coding:utf-8 -*-
import urllib2,urllib

#创建一个HTPP请求对象
http_handler = urllib2.HTTPHandler()

# 构建一个HTTPHandler 处理器对象，支持处理HTTPS请求
http_handler = urllib2.HTTPSHandler()

#创建一个打开方式对象
opener = urllib2.build_opener(http_handler)
#通过自定义的打开方式，
response = opener.open('https://www.baidu.com')
#读取响应对象中的数据
print response.read()

爬取结果

注解：这里使用urllib2.HTTPHandler()访问https网页得到的html代码。

这种方式发送请求得到的结果，和使用urllib2.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。

如果在 HTTPHandler()增加 debuglevel=1参数，还会将 Debug Log 打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。

# 仅需要修改的代码部分：

# 构建一个HTTPHandler 处理器对象，支持处理HTTP请求，同时开启Debug Log，debuglevel 值默认 0
http_handler = urllib2.HTTPHandler(debuglevel=1)

# 构建一个HTTPHSandler 处理器对象，支持处理HTTPS请求，同时开启Debug Log，debuglevel 值默认 0
https_handler = urllib2.HTTPSHandler(debuglevel=1)

代码操作（二）自定义数据请求方式

# -*- coding:utf-8 -*-
import urllib,urllib2

#准备数据
ftp_server = '192.168.1.100'
username = 'root'
password = '123'

#创建一个密码管理器对象
pass_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()

#增加一个管理服务器
pass_mgr.add_password(None,ftp_server,username,password)

#创建一个web验证服务器
http_auth_handler = urllib2.HTTPBasicAuthHandler(pass_mgr)

#构建一个请求对象
request = urllib2.Request('http://image.baidu.com')

#创建自定义打开方式对象【开锁人】
opener = urllib2.build_opener(http_auth_handler)

#发送请求，获取服务器的响应对象
response = opener.open(request)

# 获取响应中的数据
content = response.read()

#处理相关数据

代码操作（三）从ftp服务器爬取数据

# -*- coding:utf-8 -*-
import urllib,urllib2

#准备数据
ftp_server = '192.168.1.100'
username = 'root'
password = '123'

#创建一个密码管理器对象
pass_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()

#增加一个管理服务器
pass_mgr.add_password(None,ftp_server,username,password)

#创建一个web验证服务器
http_auth_handler = urllib2.HTTPBasicAuthHandler(pass_mgr)

#构建一个请求对象
request = urllib2.Request('http://image.baidu.com')

#创建自定义打开方式对象【开锁人】
opener = urllib2.build_opener(http_auth_handler)

#发送请求，获取服务器的响应对象
response = opener.open(request)

# 获取响应中的数据
content = response.read()

#处理相关数据
print content

代码操作（四）自定义数据请求方式——代理请求

# -*- coding:utf-8 -*-
import urllib
import urllib2

#创建一个HTTP处理器对象
#使用免费的代理进行处理器的创建
proxy_handler = urllib2.ProxyHandler({'http':'110.50.85.68:80'})

#如果是付费的代理，输入自己的账号密码即可
# proxy_handler = urllib2.ProxyHandler({'http':'username:password@175.172.212.178:80'})

# 创建一个请求发送对象
opener = urllib2.build_opener(proxy_handler)

#创建请求对象
request = urllib2.Request(r'http://www.baidu.com')

#发送请求，获取服务器返回的响应对象
response = opener.open(request)

#获取数据
print response.read()

代码操作（五）爬取人人网个人中心数据，需要验证登陆

# -*- coding:utf-8 -*-
import urllib
import urllib2
import cookielib


#声明一个CookieJar对象实例来保存cookie
cookie = cookielib.CookieJar()

#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
cookielib_handler = urllib2.HTTPCookieProcessor(cookie)

#创建一个请求打开方式
opener = urllib2.build_opener(cookielib_handler)

#构建请求对象 'http://www.renren.com/PLogin.do' 这个接口没有做反爬虫处理
url = 'http://www.renren.com/PLogin.do' #http://www.renren.com/SysHome.do，这个接口做了反爬虫处理
data = urllib.urlencode({'email':'用户名','password':'密码'})
request = urllib2.Request(url,data)

#发送请求
response = opener.open(request)

#获取数据
content = response.read()

print content

data数据从form表单name中获取

代码操作（六）爬取指定网页的图片保存至本地，这里写的函数是爬取游民星空每周壁纸精选

# -*- coding:utf-8 -*-
import urllib
import urllib2
import re

#定义函数，用于爬取对应的数据
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

#定义函数，进行爬虫的核心处理功能
def getImg(html):
    #使用正则表达式匹配想要保存的数据———图片
    reg = 'src="(.+?\.jpg)"'
    #将正则表达式编译成Pattern对象，
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x+=1
    return imglist

#主程序运行入口
if __name__ == '__main__':
    Html = raw_input('请输入想要爬取的网页链接：')

    html = getHtml(Html)
    getImg(html)

注解： urllib 模块提供的 urlretrieve() 函数

urlretrieve(url, filename=None, reporthook=None, data=None)

参数 finename 指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据。）
参数 reporthook 是一个回调函数，当连接上服务器、以及相应的数据块传输完毕时会触发该回调，我们可以利用这个回调函数来显示当前的下载进度。
参数 data 指 post 到服务器的数据，该方法返回一个包含两个元素的(filename, headers)元组，filename 表示保存到本地的路径，header 表示服务器的响应头。
urllib2与urllib一些常用方法的比较

爬取的是游民星空壁纸精选

从本地文件可以看到爬取保存至本地20张图片

最后编辑于：2020.12.04 14:10:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345

Python网络爬虫（三）- 爬虫进阶

Python网络爬虫（三）- 爬虫进阶

目录：

1.爬虫进阶cookielib

2.具体代码操作

代码操作（一）自定义数据请求方式

代码操作（二）自定义数据请求方式

代码操作（三）从ftp服务器爬取数据

代码操作（四）自定义数据请求方式——代理请求

代码操作（五）爬取人人网个人中心数据，需要验证登陆

代码操作（六）爬取指定网页的图片保存至本地，这里写的函数是爬取游民星空每周壁纸精选

注解： urllib 模块提供的 urlretrieve() 函数

推荐阅读更多精彩内容

Python网络爬虫（三）- 爬虫进阶

目录：

1.爬虫进阶cookielib

2.具体代码操作

代码操作（一） 自定义数据请求方式

代码操作（二） 自定义数据请求方式

代码操作（三）从ftp服务器爬取数据

代码操作（四） 自定义数据请求方式——代理请求

代码操作（五） 爬取人人网个人中心数据，需要验证登陆

代码操作（六） 爬取指定网页的图片保存至本地，这里写的函数是爬取游民星空每周壁纸精选

注解： urllib 模块提供的 urlretrieve() 函数

推荐阅读更多精彩内容

代码操作（一）自定义数据请求方式

代码操作（二）自定义数据请求方式

代码操作（四）自定义数据请求方式——代理请求

代码操作（五）爬取人人网个人中心数据，需要验证登陆

代码操作（六）爬取指定网页的图片保存至本地，这里写的函数是爬取游民星空每周壁纸精选