【Python入门】30.常用内置模块之 HTTP请求库urllib & 实现简单爬虫 和 自动登录微博

摘要:教你如何快速爬取一个网页信息;urllib模块中常用的方法介绍;通过修改头信息来伪装成浏览器访问页面;Get请求和Post请求的介绍


*写在前面:为了更好的学习python,博主记录下自己的学习路程。本学习笔记基于廖雪峰的Python教程,如有侵权,请告知删除。欢迎与博主一起学习Pythonヽ( ̄▽ ̄)ノ *


目录

常用内置模块
urllib
简单爬虫
urlopen
urllib的常用方法
模拟浏览器
Get请求(百度搜索关键字)
Post请求(登录新浪微博)
小结

常用内置模块

urllib

Urllib是Python内置的HTTP请求库,或者说,就是用来操作URL的。在爬虫的时候常用到这个库。

简单爬虫

要爬取网页信息,首先我们要引入urllib.request模块,这是一个请求模块。

然后通过urllib.requesturlopen( )方法来打开一个网页。

最后使用read( )方法来获取网页信息。

我们以百度http://www.baidu.com为例

import urllib.request
f = urllib.request.urlopen ('http://www.baidu.com')
data = f.read()

这样我们就获取了该网页的内容,此外,我们还要把它保存下来。

添加一个html文件,然后把data写进去:

import urllib.request
f = urllib.request.urlopen ('http://www.baidu.com')
data = f.read()

with open('./1.html','wb') as fh:
    fh.write(date)

此时,我们打开指定目录下的1.html,就能看到我们爬取的网页了。(是不是炒鸡简单(* ̄︶ ̄))

urlopen

我们都知道urlopen()函数是用来打开url的,实际上它参数不止url一个。

urllib.request.urlopen()函数参数介绍:

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

常用的参数是前三个:urldatatimeout

url 是需要打开的网址;
data 是需要传入的数据,一般在get请求方式使用;
timeout 是超时时间,当网络请求过慢,超过timeout设置的时间,就会给出异常,而不是一直等待结果。

urllib的常用方法

下面看一些简单常用的urllib用法。

方法 作用
info() 返回网页的当前环境有关信息
getcode() 返回网页状态码,若为200则正确,若为其他则错误
geturl() 返回网页的url
urllib.request.quote() 对网址进行编码
urllib.request.unquote() 对网址进行解码

例子:

>>>import urllib.request
>>>f = urllib.request.urlopen ('http://www.baidu.com')
>>>f.info()
Bdpagetype: 1 
Bdqid: 0x8915e4020002cb95 
...
Transfer-Encoding: chunked 
>>>f.getcode()
200
>>>f.geturl()
http://www.baidu.com
>>>urllib.request.quote('http://www.baidu.com')
http%3A//www.baidu.com
>>>urllib.request.unquote('http%3A//www.baidu.com')
http://www.baidu.com

模拟浏览器

有时候,我们爬取网页的时候会出现错误,这是因为这些网页为防止恶意获取信息进行了反爬虫设置。

为避免这种情况,一般而言我们会模拟成浏览器去访问网页。

要模拟成浏览器,就需要添加Headers信息,即头信息。通过设置User-Agent可以让爬虫模拟成浏览器。

如何添加Headers信息呢?这里需要用到urllib模块中的urllib.request.Requset()函数

调用urllib.request.Requset()函数可以创建一个request对象,调用时传入三个参数,第一个为url即网址信息,第二个为数据,默认为0,第三个为headers,即需要添加的头信息,要以dict类型传入,默认为不传头部。

随后,调用urllib.request.urlopen()打开request对象,就能实现模拟成浏览器访问网页了。

看一下具体的代码:

import urllib.request
 
url='http://www.baidu.com'                                     # 设置url的值

header={                                                       # 设置header的值
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'
}

request = urllib.request.Request(url, headers = header)        # 调用Request函数
data = urllib.request.urlopen(request).read()                  # 访问网页

with open('./1.html', 'wb') as fh:                             # 创建html文件并把数据保存下来
    fh.write(data)

还有个问题是怎么得到这个User-Agent的信息呢?

有个简单的方法:使用浏览器打开任意一个网页,按F12,在弹出的界面的上方找到Network,点击后会出现一些文件,点击其中的一个,点击右边的header,在里面就有User-Agent信息。

(参考下图进行操作(`・ω・´))


如何获取User-Agent

那么User-Agent表示什么呢?

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息
——百度百科

Get请求(百度搜索关键字)

如果要进行客户端与服务器端之间的消息传递,我们可以使用HTTP协议请求进行。

在本节内容中介绍两种常用的请求:Get和Post。先来看一下Get请求。

Get请求,通过URL网址传递信息。我们可以把数据直接放在URL中,从而得到想要的信息。

以百度搜索为例子。

当我们用百度搜索Python时,仔细观察url会发现,其中有wd=Python的字段。

事实上,wd字段就是表示搜索的关键字,那么通过Get请求,就可以实现用爬虫自动使用百度搜索了:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import urllib.request

url='http://www.baidu.com/s?wd=' 
key=urllib.request.quote('三贝的博客')                   # 由于URL含有中文,需要编码
url_all=url+key
header={                                                # 头部信息
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'
}  
                                      
request = urllib.request.Request(url_all, headers=header)
data = urllib.request.urlopen(request).read()

with open('./search三贝的博客.html', 'wb') as f:        # 写入文件中
    f.write(data)

打开指定目录下的html文件,显示的就是搜索指定关键字的页面啦( ̄▽ ̄)~*。


搜索三贝的博客

Post请求(登录新浪微博)

Post请求即向服务器发送数据,然后请求执行相应的操作。比如登录用户。

我们只要把需要发送的数据放进data里面,然后传进urlopen的data参数即可。

下面以登录新浪微博为例(以下代码除注释转自廖雪峰官网)

from urllib import request, parse

print('Login to weibo.cn...')
email = input('Email: ')                    # 用户输入登录的邮箱名
passwd = input('Password: ')                # 用户输入登录的密码
login_data = parse.urlencode([              # 登录数据,用dict类型储存,parse.urlencode将dict转为url参数
    ('username', email),
    ('password', passwd),
    ('entry', 'mweibo'),
    ('client_id', ''),
    ('savestate', '1'),
    ('ec', ''),
    ('pagerefer', 'https://passport.weibo.cn/signin/welcome?entry=mweibo&r=http%3A%2F%2Fm.weibo.cn%2F')
])

req = request.Request('https://passport.weibo.cn/sso/login')  
req.add_header('Origin', 'https://passport.weibo.cn')
req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')
req.add_header('Referer', 'https://passport.weibo.cn/signin/login?entry=mweibo&res=wel&wm=3349&r=http%3A%2F%2Fm.weibo.cn%2F')

with request.urlopen(req, data=login_data.encode('utf-8')) as f:
    print('Status:', f.status, f.reason)             # 返回页面执行的状态
    for k, v in f.getheaders():                      # 得到HTTP相应的头和JSON数据
        print('%s: %s' % (k, v))
    print('Data:', f.read().decode('utf-8'))         # 得到页面信息

如果登录成功( ̄▽ ̄)/,我们获得的响应如下:

Status: 200 OK
Server: nginx/1.6.1
...
Set-Cookie: SSOLoginState=1535461471; path=/; domain=weibo.cn
...
Data: {"retcode":20000000,"msg":"","data":{...,"uid":"2237339025"}}

如果登录失败(T▽T)/,我们获得的响应如下:

...
Data: {"retcode":50011015,"msg":"\u7528\u6237\u540d\u6216\u5bc6\u7801\u9519\u8bef","data":{"username":"aaa@python.org","errline":665}}

小结

urllib提供的功能就是利用程序去执行各种HTTP请求。

关于Python爬虫的知识点还有很多,本节只是对urllib模块进行简单的介绍,供想Python入门的人儿学习,往后会有更详细的内容介绍ヾ(o・ω・)ノ。


以上就是本节的全部内容,感谢你的阅读。

下一节内容:常用内置模块之 XML

有任何问题与想法,欢迎评论与吐槽。

和博主一起学习Python吧( ̄▽ ̄)~*

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容