从信息泄密谈到爬虫

2016年8月，一位自称“Peace”的黑客声称盗取了2亿雅虎用户账户和密码，并寻求在暗网(dark web)上进行售卖。黑客所声称的2亿条信息的泄露似乎盗取自2012年，同时发生的还有MySpace（3.6亿条）和Linkedln（1亿条）两家网站的信息泄露。

有趣的是 Linkedln 的泄露事件还间接导致了扎克伯格的推特账号被黑。因为扎克伯格在两个网站都使用了同一个密码：“dadada”……

在信息化时代，数据泄露无处不在，这种风险可能来自于我们上网的每一个步骤。下面笔者将介绍一种批量获取信息的方式——爬虫。编程语言基于Python，如果对这门语言不是很熟悉可以先了解下它的语法结构。本文将对于爬虫做一个简单入门介绍。

关于爬虫

我们一直在说的爬虫究竟是个什么鬼？

网络爬虫（web crawler），是一个自动提取网页的程序，它为搜索引擎从网路上下载网页。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。

（摘自百度百科）

简单来讲，爬虫是通过程序或者脚本获取网页上的一些文本、图片、音频的数据。

从笔者的经验来看，做一个简单的爬虫程序有以下几个步骤：确立需求、网页下载、网页分析与解析、保存。接下来大家可以跟随笔者的流程，我们来写个抓取豆瓣书籍信息的爬虫。

1、需求

以豆瓣读书为例，我们爬取豆瓣的书籍信息，需要获取的信息包括：图书名称，出版社，作者，年份，评分。

2、网页下载

页面下载分为静态和动态两种下载方式。

静态主要是纯 html 页面，动态是网页会使用 javascript 处理，并通过Ajax 异步获取的页面。在这里，我们下载的是静态页面。

在下载网页的过程中我们需要用到网络库。在 Python 中有自带的 urllib、urllib2 网络库，但是我们一般采用基于 urllib3 的第三方库Requests ，这是一个深受 Pythoner 喜爱的更为高效简洁的网络库，能满足我们目前的 web 需求。

3、网页分析与解析

1）网页分析：

选好网络库后我们需要做的是：分析我们要爬取的路径——也就是逻辑。

这个过程中我们要找到爬取的每一个入口，例如豆瓣读书的页面。已知图书标签的 url，点击每个 url 能得到图书列表，在图书列表中存放需要的图书信息，求解如何获得图书信息。

所以很简单！我们的爬取路径就是：图书标签 url —> 图书列表—>图书信息。

2）网页解析：

网页解析主要就是通过解析网页源代码获取我们需要的数据，网页解析的方式有很多种，如：正则表达式， BeautifulSoup， XPath 等等，在这里我们采用的是 XPath。Xpath 的语法很简单，是根据路径来进行定位。

举个栗子：上海的位置是地球—中国—上海，语法表达为 //地球/中国[@城市名=上海]

接下来我们需要解析网页获取到图书的 tag 标签的url。打开网页，右击选择审查元素，然后就会出现调试工具，左上角点击获取我们需要的数据，下面的调试窗口就会直接定位到其所在代码。

根据其位置，写出其 Xpath 解析式：//table[@class='tagCol']//a

这里我们看到小说在一个< table >标签下的< td >标签的< a >标签里。< table > 标签可以用 class 属性进行定位。

以下是获取 tag 的 url 的代码：

获取完了 tag ，我们还需要获取到图书的信息，下面我们对图书列表页进行解析：

解析之后代码如下：

爬取的信息内容如下：

4、数据保存

获取到了数据之后，我们可以选择把数据保存在数据库中，或者直接写在文件中。这里我们把数据保存到了 mongodb。接下来做一些统计，例如使用图表插件 echarts，将我们的统计结果展示出来。

5、爬虫相关问题

1）网站限制：

爬虫过程中可能会遇到爬不到数据了的问题，这是因为相应网站做了一些反爬的处理来进行爬取限制，比如在爬取豆瓣的时候，就遇到了 403forbidden 。怎么办？这时候可以通过一些相应的方法来解决，比如使用代理服务器，降低爬取速度等，在这里我们采用每次请求 sleep2秒。

2）URL 去重：

URL 去重是爬虫运行中一项关键的步骤，由于运行中的爬虫主要阻塞在网络交互中，因此避免重复的网络交互至关重要。爬虫一般会将待抓取的 URL 放在一个队列中，从抓取后的网页中提取到新的 URL，在他们被放入队列之前，首先要确定这些新的 URL 没有被抓取过，如果之前已经抓取过了，就不再放入队列了。

3）并发操作：

Python 中的并发操作主要涉及的模型有：多线程模型、多进程模型、协程模型。在 Python 中可以通过：threading 模块、multiprocessing 模块、gevent 库来实现多线程、多进程、或协程的并发操作。

scrapy —— 强大的爬虫框架

谈到爬虫，不得不提的是 Scrapy。Scrapy 是 Python 开发的一个快速，高层次的爬虫框架，用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy 吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如 BaseSpider、sitemap 爬虫等。

scrapy 的架构：

其中绿线是数据流向，首先从初始 URL 开始，Scheduler 会将其交给 Downloader 进行下载，下载之后会交给 Spider 进行分析，需要保存的数据则会被送到 Item Pipeline，对数据进行后期处理。

另外，在数据流动的通道里还可以安装各种中间件，进行必要的处理。因此在开发爬虫的时候，最好也先规划好各种模块。

注：

Xpath 教程：http://www.w3school.com.cn/xpath/index.asp

Requests官方文档：http://docs.python-requests.org/en/master/

更多的 Scrapy 请参考：http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html

本文作者：胡宇涵（点融黑帮），就职于点融网工程部infra团队运维开发工程师。爱自然，爱生活。

最后编辑于：2017.12.06 03:45:58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342