python爬虫系列（2）—— requests和BeautifulSoup库的基本用法

本文主要介绍python爬虫的两大利器：requests和BeautifulSoup库的基本用法。

1. 安装requests和BeautifulSoup库

可以通过3种方式安装：

easy_install
pip
下载源码手动安装

这里只介绍pip安装方式：

pip install requests
pip install BeautifulSoup4

2. requests基本用法示例

# coding:utf-8
import requests

# 下载新浪新闻首页的内容
url = 'http://news.sina.com.cn/china/'
# 用get函数发送GET请求，获取响应
res = requests.get(url)
# 设置响应的编码格式utf-8（默认格式为ISO-8859-1），防止中文出现乱码
res.encoding = 'utf-8'

print type(res)
print res
print res.text

# 输出：
'''
<class 'requests.models.Response'>
<Response [200]>
<!DOCTYPE html>
<!-- [ published at 2017-04-19 23:30:28 ] -->
<html>
<head>
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<title>国内新闻_新闻中心_新浪网</title>
<meta name="keywords" content="国内时政,内地新闻">
...
'''

下面将上面获取到的网页html内容写入到文件中，这里有一点需要注意的是：python是调用ASCII编码解码程序去处理字符流的，当字符不属于ASCII范围时会抛异常（ordinal not in range(128)），所以要提前设置程序的默认编码：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

然后再将响应的html内容存入文件中：

with open('content.txt','w+') as f:
    f.write(res.text)

3. BeautifulSoup基本用法

1. 自定义测试html

html = '''
<html>
    <body>
        <h1 id="title">Hello World</h1>
        <a href="#link1" class="link">This is link1</a>
        <a href="#link2" class="link">This is link2</a>
    </body>
</html>
'''

2. 从html文本中获取soup

from bs4 import BeautifulSoup
# 这里指定解析器为html.parser（python默认的解析器），指定html文档编码为utf-8
soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8')
print type(soup)

# 输出：<class 'bs4.BeautifulSoup'>

3. soup.select()函数用法

(1) 获取指定标签的内容

header = soup.select('h1')
print type(header)
print header
print header[0]
print type(header[0])
print header[0].text

# 输出：
'''
<type 'list'>
[<h1 id="title">Hello World</h1>]
<h1 id="title">Hello World</h1>
<class 'bs4.element.Tag'>
Hello World
'''

alinks = soup.select('a')
print [x.text for x in alinks]

# 输出：[u'This is link1', u'This is link2']

(2) 获取指定id的标签的内容（用'#'）

title = soup.select('#title')
print type(title)
print title[0].text

# 输出：
'''
<type 'list'>
Hello World
'''

(3) 获取指定class的标签的内容（用'.'）

alinks = soup.select('.link')
print [x.text for x in alinks]

# 输出：[u'This is link1', u'This is link2']

(4) 获取a标签的链接（href属性值）

print alinks[0]['href']

# 输出：#link1

(5) 获取一个标签下的所有子标签的text

body = soup.select('body')[0]
print body.text

# 输出：
'''

Hello World
This is link1
This is link2
'''

(6) 获取不存在的标签

aa = soup.select('aa')
print aa

# 输出：[]

(7) 获取自定义属性值

html2 = '<a href="www.test.com" qoo="123" abc="456">This is a link.</a>'
soup2 = BeautifulSoup(html2,'html.parser')
alink = soup2.select('a')[0]
print alink['qoo']
print alink['abc']

# 输出：
'''
123
456
'''

4. soup.find()和soup.find_all()函数用法

(1) find()和find_all()函数原型：

find和find_all函数都可根据多个条件从html文本中查找标签对象，只不过find的返回对象类型为bs4.element.Tag，为查找到的第一个满足条件的Tag；而find_all的返回对象为bs4.element.ResultSet（实际上就是Tag列表）,这里主要介绍find函数，find_all函数类似。

find(name=None, attrs={}, recursive=True, text=None, **kwargs)
注：其中name、attrs、text的值都支持正则匹配。

find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)
注：其中name、attrs、text的值都支持正则匹配。

(2) find函数的用法示例

html = '<p><a href="www.test.com" class="mylink1 mylink2">this is my link</a></p>'
soup = BeautifulSoup(html,'html.parser')
a1 = soup.find('a')
print type(a1)
# 输出：<class 'bs4.element.Tag'>

print a1.name
print a1['href']
print a1['class']
print a1.text
# 输出：
'''
a
www.test.com
[u'mylink1', u'mylink2']
this is my link
'''

# 多个条件的正则匹配：
import re
a2 = soup.find(name = re.compile(r'\w+'),class_ = re.compile(r'mylink\d+'),text = re.compile(r'^this.+link$'))
# 注：这里的class属性之所以写成'class_'，是为了防止和python关键字class混淆，其他属性名写正常的名就行，不用这样特殊处理
print a2

# 输出：
'''
<a class="mylink1 mylink2" href="www.test.com">this is my link</a>
'''

# find函数的链式调用
a3 = soup.find('p').find('a')
print a3

# 输出：
'''
<a class="mylink1 mylink2" href="www.test.com">this is my link</a>
'''

# attrs参数的用法
# 注：支持正则匹配属性值（包括自定义属性）
import re
html = '<div class="myclass" my-attr="123abc"></div><div class="myclass" my-attr="abc">'
soup = BeautifulSoup(html,'html.parser')
div = soup.find('div',attrs = {'class':'myclass','my-attr':re.compile(r'\d+\w+')})
print div

# 输出：
'''
<div class="myclass" my-attr="123abc"></div>
'''

4. 网络爬虫基本架构

5. 补充

1. 代理访问

有时候为了避免封IP，或者在某些公司内网访问外网时候，需要用到代理服务器发送请求，代理的用法示例：

import requests
proxies = {'http':'http://proxy.test.com:8080','https':'http://proxy.test.com:8080'}  # 其中proxy.test.com即为代理服务器的地址
url = 'https://www.baidu.com'  # 这个url为要访问的url
resp = requests.get(url,proxies = proxies)

如果代理服务器需要账号、密码，则可以这样写proxies：

proxies = {'http':'http://{username}:{password}@proxy.test.com:8080','https':'http://{username}:{password}@proxy.test.com:8080'}

2. 向https的url发送请求

有时候向https的url发送请求会报错：ImportError:no module named certifi.

解决方法：在发送请求时关闭校验：verify = False，如：

resp = requests.get('https://test.com',verify = False)

注：也可通过在headers中传相关鉴权参数来解决此问题。

3. httpbin.org

httpbin.org是requests库的作者开发的一个网站，可以专门用来测试requests库的各种功能，其页面如下：

但httpbin.org的服务器在国外，访问速度比较慢。所以需要在本地搭建一个该网站的镜像，方法如下：

前提：安装好requests库，才能基于该网站测试requests库的功能。
pip install gunicorn httpbin
gunicorn httpbin:app
浏览器输入：127.0.0.1:8000,即可访问。

注：以上步骤在windows下会报错：缺少模块pwd.fcanl，在linux下没问题。

4. requests库官方文档

http://docs.python-requests.org/en/master/

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343