爬虫原理与数据抓取之七: URLError 和 HTTPError

urllib2 的异常错误处理

  • 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。
  • 这里主要说的是URLError和HTTPError,以及对它们的错误处理。

URLError

  • URLError 产生的原因主要有:
    • 没有网络连接
    • 服务器连接失败
    • 找不到指定的服务器
  • 我们可以用try except语句来捕获相应的异常。下面的例子里我们访问了一个不存在的域名:
# urllib2_urlerror.py

import urllib2

requset = urllib2.Request('http://www.ajkfhafwjqh.com')

try:
    urllib2.urlopen(request, timeout=5)
except urllib2.URLError, err:
    print err
  • 运行结果如下:
<urlopen error [Errno 8] nodename nor servname provided, or not known>
urlopen error,错误代码8,错误原因是没有找到指定的服务器。

HTTPError

  • HTTPError是URLError的子类,我们发出一个请求时,服务器上都会对应一个response应答对象,其中它包含一个数字"响应状态码"。
  • 如果urlopen或opener.open不能处理的,会产生一个HTTPError,对应相应的状态码,HTTP状态码表示HTTP协议所返回的响应的状态。
注意,urllib2可以为我们处理重定向的页面(也就是3开头的响应码),100-299范围的号码表示成功,所以我们只能看到400-599的错误号码。
# urllib2_httperror.py
import urllib2
requset = urllib2.Request('http://blog.baidu.com/itcast')
try:
    urllib2.urlopen(requset)
except urllib2.HTTPError, err:
    print err.code
    print err
  • 运行结果如下:
    404
    HTTP Error 404: Not Found
    

HTTP Error,错误代号是404,错误原因是Not Found,说明服务器无法找到被请求的页面。
通常产生这种错误的,要么url不对,要么ip被封。

改进版

  • 由于HTTPError的父类是URLError,所以父类的异常应当写到子类异常的后面,所以上述的代码可以这么改写:
# urllib2_botherror.py

import urllib2

requset = urllib2.Request('http://blog.baidu.com/itcast')

try:
    urllib2.urlopen(requset)

except urllib2.HTTPError, err:
    print err.code

except urllib2.URLError, err:
    print err

else:
    print "Good Job"
  • 运行结果如下:
    404
  • 这样我们就可以做到,首先捕获子类的异常,如果子类捕获不到,那么可以捕获父类的异常。

HTTP响应状态码参考:

1xx:信息

  • 100 Continue : 服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。
  • 101 Switching Protocols : 服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。

2xx:成功

  • 200 OK : 请求成功(其后是对GET和POST请求的应答文档)
  • 201 Created : 请求被创建完成,同时新的资源被创建。
  • 202 Accepted : 供处理的请求已被接受,但是处理未完成。
  • 203 Non-authoritative Information : 文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。
  • 204 No Content : 没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的。
  • 205 Reset Content : 没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
  • 206 Partial Content : 客户发送了一个带有Range头的GET请求,服务器完成了它。

3xx:重定向

  • 300 Multiple Choices : 多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
  • 301 Moved Permanently : 所请求的页面已经转移至新的url。
  • 302 Moved Temporarily : 所请求的页面已经临时转移至新的url。
  • 303 See Other : 所请求的页面可在别的url下被找到。
  • 304 Not Modified : 未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。
  • 305 Use Proxy : 客户请求的文档应该通过Location头所指明的代理服务器提取。
  • 306 Unused : 此代码被用于前一版本。目前已不再使用,但是代码依然被保留。
  • 307 Temporary Redirect : 被请求的页面已经临时移至新的url。

4xx:客户端错误

  • 400 Bad Request : 服务器未能理解请求。
  • 401 Unauthorized : 被请求的页面需要用户名和密码。
    • 401.1 : 登录失败。
    • 401.2 : 服务器配置导致登录失败。
    • 401.3 : 由于 ACL 对资源的限制而未获得授权。
    • 401.4 : 筛选器授权失败。
    • 401.5 : ISAPI/CGI 应用程序授权失败。
    • 401.7 : 访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
  • 402 Payment Required : 此代码尚无法使用。
  • 403 Forbidden : 对被请求页面的访问被禁止。
    • 403.1 : 执行访问被禁止。
    • 403.2 : 读访问被禁止。
    • 403.3 : 写访问被禁止。
    • 403.4 : 要求 SSL。
    • 403.5 : 要求 SSL 128。
    • 403.6 : IP 地址被拒绝。
    • 403.7 : 要求客户端证书。
    • 403.8 : 站点访问被拒绝。
    • 403.9 : 用户数过多。
    • 403.10 : 配置无效。
    • 403.11 : 密码更改。
    • 403.12 : 拒绝访问映射表。
    • 403.13 : 客户端证书被吊销。
    • 403.14 : 拒绝目录列表。
    • 403.15 : 超出客户端访问许可。
    • 403.16 : 客户端证书不受信任或无效。
    • 403.17 : 客户端证书已过期或尚未生效。
    • 403.18 : 在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
    • 403.19 : 不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
    • 403.20 : Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
  • 404 Not Found : 服务器无法找到被请求的页面。
    • 404.0 : 没有找到文件或目录。
    • 404.1 : 无法在所请求的端口上访问 Web 站点。
    • 404.2 : Web 服务扩展锁定策略阻止本请求。
    • 404.3 : MIME 映射策略阻止本请求。
  • 405 Method Not Allowed请求中指定的方法不被允许。
  • 406 Not Acceptable : 服务器生成的响应无法被客户端所接受。
  • 407 Proxy Authentication Required : 用户必须首先使用代理服务器进行验证,这样请求才会被处理。
  • 408 Request Timeout : 请求超出了服务器的等待时间。
  • 409 Conflict : 由于冲突,请求无法被完成。
  • 410 Gone : 被请求的页面不可用。
  • 411 Length Required : "Content-Length" 未被定义。如果无此内容,服务器不会接受请求。
  • 412 Precondition Failed : 请求中的前提条件被服务器评估为失败。
  • 413 Request Entity Too Large : 由于所请求的实体的太大,服务器不会接受请求。
  • 414 Request-url Too Long : 由于url太长,服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时,就会发生这种情况。
  • 415 Unsupported Media Type : 由于媒介类型不被支持,服务器不会接受请求。
  • 416 Requested Range Not Satisfiable : 服务器不能满足客户在请求中指定的Range头。
  • 417 Expectation Failed : 执行失败。
  • 423 : 锁定的错误。

5xx:服务器错误

  • 500 Internal Server Error : 请求未完成。服务器遇到不可预知的情况。
    • 500.12 : 应用程序正忙于在 Web 服务器上重新启动。
    • 500.13 : Web 服务器太忙。
    • 500.15 : 不允许直接请求 Global.asa。
    • 500.16 : UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。
    • 500.18 : URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。
    • 500.100 : 内部 ASP 错误。
  • 501 Not Implemented : 请求未完成。服务器不支持所请求的功能。
  • 502 Bad Gateway : 请求未完成。服务器从上游服务器收到一个无效的响应。
    • 502.1 : CGI 应用程序超时。 ·
    • 502.2 : CGI 应用程序出错。
  • 503 Service Unavailable : 请求未完成。服务器临时过载或当机。
  • 504 Gateway Timeout : 网关超时。
  • 505 HTTP Version Not Supported : 服务器不支持请求中指明的HTTP协议版本
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,580评论 18 139
  • 一、概念(载录于:http://www.cnblogs.com/EricaMIN1987_IT/p/3837436...
    yuantao123434阅读 8,326评论 6 152
  • 工作流程 一次HTTP操作称为一个事务,其工作过程可分为四步: 1)首先客户机与服务器需要建立连接。只要单击某个超...
    保川阅读 4,579评论 2 14
  • 2系列200 OK请求已成功,请求所希望的响应头或数据体将随此响应返回。201 Created请求已经被实现,而且...
    Y像梦一样自由阅读 3,557评论 1 5
  • 我们总以为来日方长,可一不小心就是后会无期。 都希望在最好的年华遇见一个人,可往往是遇见了一个人,才迎来最好的年华...
    冰凝紫阅读 303评论 0 2