《python3爬虫、数据清洗与可视化实战》第二章简单的爬虫

2.1 关于爬虫的合法性

几乎每一个网站都有一个名为robots.txt的文档，用来判断是否有禁止访客获取的数据，以淘宝为例子，在浏览器访问 https://www.taobao.com/robots.txt，淘宝允许部分爬虫访问它的部分路径，而对于没有得到允许的用户则是全部禁止爬取，代码如下：

# 除前面指定的爬虫外，不允许其他爬虫爬取任何数据。
User-Agent: *
Disallow: /

2.2 认识网页结构

网页由HTML（超文本标记语言）、CSS（层叠样式表）、JScript（活动脚本语言）三部分组成。

2.3 使用GET方式抓取数据

Ctrl+U 打开源码页面，Ctrl+F打开搜索框，确认好请求对象和方式后，在pycharm中输入以下代码。

import requests #导入requests包
url = 'http://www.cntour.cn/' 
strhtml = requests.get(url) #GET方式，获取网页数据
print(strhtml.text) #表示网页源代码

2.4 使用POST抓取数据

以有道翻译为例，首先输入网址：http://fanyi.youdao.com/，按F12，进入开发者模式依次单击“Network”按钮和“XHR”按钮，找到翻译数据。

import requests
import json
def get_translate_data (word=None):
  url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule '
  Form_data = {'i': word,
  'from': 'AUTO',
  'to': 'AUTO',
  'smartresult': 'dict',
  'client': 'fanyideskweb',
  'salt': '15629866146500',
  'sign': '3980757ebe914c2d22649888361da473',
  'ts': '1562986614650',
  'doctype': 'json',
  'version': '2.1',
  'keyfrom': 'fanyi.web',
  'action': 'FY_BY_REALTlME',
  'typoResult':'false'}
  response = requests.post(url,data = Form_data)
  content = json.loads(response.text)
  print(content['translateResult'][0][0]['tgt'])
if __name__ =='__main__':
  get_translate_data ('我爱数据')

2.5 使用 Beautiful Soup 解析网页

首先安装BeautifuSoup4，然后还需要安装lxml库，如果不安装，就会使用python默认的解析器，安装完python第三方库之后，输入以下代码：

import requests
import pprint
from bs4 import BeautifulSoup
url = 'http://www.cntour.cn/'
strhtml = requests.get(url)
soup = BeautifulSoup(strhtml.text,'lxml') # 指定lxml解析器进行解析
data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.leftBox > div:nth-child(2) > ul > li > a')
pprint.pprint(data)

在浏览器的开发者模式，对爬取内容的路径进行Copy selector，代码如下：

#main > div > div.mtop.firstMod.clearfix > div.leftBox > div:nth-child(2) > ul > li > a

2.6 数据清洗

首先明确要提取的数据是标题和链接，标题在<a>标签中，提取标签的正文用 get_text() 方法，提取href属性也用 get() 方法。

for item in data:
  result={
  'title':item.get_text(),
  'link':item.get('href')
  }
  print(result)

正则表达式，提取链接中的数字ID，需要用到的正则符号如下：

\d #匹配数字
+ #匹配前一个字符1次或多次

在python中调用正则表达式时使用re库，这个库不用安装，可以直接调用，在pycharm中输入以下代码：

import re
for item in data:
  result = {
  'title':item.get_text(),
  'link':item.get('href'),
  'ID':re.findall('\d+',item.get('href'))
  }

这里使用re库的finadall方法，第一个参数表示正则表达式，第二个参数表示要提取的文本。

2.6 爬虫攻防线

网站针对爬虫，会采取一些反爬策略，第一种方式就是通过检查链接的 useragent 来识别到底是浏览器访问，还是代码访问。
服务器识别浏览器访问的方法就是判断是否为Request headers 下的User-Agent，因此，我们只需要构造这个请求头的参数即可，以2.4为例，代码如下：

headers = {'User-Agent': 'Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome/70.0.3538.102 Safari/537.36'}
response = requests.post(url,data = Form_data,headers=headers)

除此之外，访问的频率过高，这个行为也不符合正常人类的行为，也会被封IP，这个问题有两个解决方案，第一就是增设延时，设3s抓取一次，代码如下：

import time
time.sleep(3)

requests相应有proxies属性，为了提高效率，阔以从本质上解决问题，首先，构建自己的代理IP池，将其以字典的形式赋值给proxies，然后传输给requests，代码如下：

proxies = {
"http":"http://10.10.1.10:3128",
"https":"http://10.10.1.10:1080",
}
response = requests.get(url,proxies=proxies)

最后编辑于：2019.07.15 18:13:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,045评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,114评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,120评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,902评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,828评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,132评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,590评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,258评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,408评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,335评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,385评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,068评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,660评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,747评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,967评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,406评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,970评论 2赞 341

《python3爬虫、数据清洗与可视化实战》第二章 简单的爬虫

2.1 关于爬虫的合法性

2.2 认识网页结构

2.3 使用GET方式抓取数据

2.4 使用POST抓取数据

2.5 使用 Beautiful Soup 解析网页

2.6 数据清洗

2.6 爬虫攻防线

推荐阅读更多精彩内容

《python3爬虫、数据清洗与可视化实战》第二章简单的爬虫