Python分布式爬虫(三) - 爬虫基础知识

0 相关源码

1 技术选型爬虫能做什么

1.1 scrapy VS requests + beautifulsoup

做爬虫的时候，经常都会听到 scrapy VS requests+beautifulsoup的组合在本次分布式爬虫实现中只用scrapy而不用后者的原因是：

requests 和 beautifulsoup 都是库， scrapy是一个框架框架中可以应用 requests等，可以集合很多第三方库
基于 twisted(异步IO框架) 性能是最大的优势
方便扩展提供了很多内置的功能，提高开发速度
内置 css和 xpath selector 对html或者xml进行分析,非常方便, beautifulsoup缺点就是慢

实践中还是会用到requests，但是不会用到beautifulsoup，因为它的功能可以直接使用scrapy的select完成.

1.2 网页分类

常见类型的服务

静态网页事先在服务器端生成好的页面，内容固定
动态网页从服务器端取数据返回
webservice（REST API）也是属于动态网页的一种，只是通过ajax方式和后台交互的一种技术

1.3 爬虫能做什么

搜索引擎-百度，google，垂直领域搜索引擎（有一个目标，知道自己到底爬什么数据）
推荐引擎-今日头条（根据浏览习惯猜测感兴趣的内容进行推送）
机器学习的数据样本
数据分析-金融数据分析，舆情分析

2 正则表达式

2.1 为何需要

为什么有css或者xpath selector还要学正则表达式，有时候根据selector获得了整个标签内的内容，但是还要进行进一步的筛选，比如里面的数字信息等

2.2 作用

可以帮我们判断某个字符串是否符合某一个模式提取整个字符串里面的重要的部分信息

2.3 常用字符的用法

^ : 以什么字符开头$ : 以什么字符结尾. : 任意字符* ：出现任意次数，0次或者更多次()：还提取按模式取出来的子串。例如，".*(b.\*b).\*"表示不管前后是什么的两个b之间的子串? ：下面详解+ ：字符至少出现一次{1}：前面的字符出现一次{3，}: 要求前面的字符必须出现3次以上{2,5}：前面的字符至少出现2次，最少出现5次| ： 或的关系\[\] : 中括号里面的内容只要满足任何一个即可，也可以是一个区间，中括号里面的^表示不等于，中括号里面的符号就是符号，不是特殊符号的含义\\s ：表示空格符\\S : 刚好与小s的意思相反，只要不是空格都可以\\w : 表示\[A-Za-z0-9_\]其中的任意一个字符\\W : 与\\w的意思刚好相反\[\\u4E00-\\u9FA5\] : unicode编码，含义是汉字，意思是只要出现汉字就可以。\\d : 表示数字

2.4 coding 演示

新建项目

image

^ : 以什么字符开头此处以J开头即可!

image

$ : 以什么字符结尾此处以4结尾即可!

image

J开头,中间为任意字符,最后以4结尾

image

? : 非贪婪匹配模式

默认的情况下，匹配是贪婪模式，匹配最大长度比如对于 "bobby123"这个待匹配的，结果就是bb，而不是bobb，所以这就是贪婪，反向匹配（或者理解成直到结束符合的最后一个结果）非贪婪匹配就是从左边开始，只需要出现一个结果就可以了,".?(b.?b)."表示对两个b从左到右只要出现一次就可 ".?(b.b)."第二个b不要问好，那么第二个b就是贪婪模式，会持续匹配到最后一个b

现在源数据变更为

image
欲取得字符串 boooooooob

image
然而现实,却是

image

非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o+”将匹配所有“o”。

此处贪婪匹配最开始时反向匹配,从右向左,所以得到bb结果串!就无法提取目标串!何解?

那就需要我们的 ?了!变成一种非贪婪模式

image

于是我们,更改匹配规则

image

结果令人失望!居然还多了个小b!!!

image

虽然左部分正常匹配左边的b了,但是规则的右部分依旧贪婪匹配!必须让规则右边的b不要那么贪婪!给他也加个 ?修饰~即可!

image

终于......提取成功啦!

image

限定出现次数

image

| : 表示或关系

image

下面更改源字符串

image
规则

image
结果

image
想要提取完整的怎么做呢?

image
结果

image

[]

image

规则

image

结果

image

匹配电话号码

image

规则

image

其中有 ^

image

\s

image

\S只能匹配一个非空字符!!!

image

image

\w

image

w不满足的空格,W满足!

image

汉字编码

image

源字符串

image
想提取到底是什么大学

image
这样也是不行的,又产生了贪婪匹配问题

image
所以要加上 ?取消贪婪

image

完美提取XX大学

d D

image

源字符串

image
想提取1997
这样是不够的,只能提取出7

image
这样就ok啦!

image
或者必须取消贪婪

image

综合实战

源字符串

image
可提取1,2,3,4

image
以下为完美解决规则

image

3 深度优先和广度优先原理

爬虫的基本原理，一个网站的url设计是分层的，树形结构，能够让我们爬取网站的时候更加有策略。在设计网站url时候是不会有环路的，但是在真实网站url链接的结构中，是有环路的。比如，从首页到达某个页面，这个页面上会有返回首页的链接。如果一直进入这个死循环，那么其他页面就爬取不到内容了。所以需要用到网页的去重。伯乐在线网站的文章爬取其中获取到的文章url是不会重复的，就不需要去重。但大多数文章都需要去重。

树形结构的URL设计

image

image

scrapy默认使用深度优先实现的，深度优先使用递归实现的，广度优先是采用队列来实现的

深度优先

image
广度优先

image

4 爬虫去重策略

将访问过的url保存到数据库中获取url时查询一下是否爬过了.虽然数据库中有缓存,但是每次都查询效率很低.
将url保存到set中只需要O(1)的代价就可以查询到url，但是内存占用会越来越大假设有1亿条url，那么就需要1亿 x 2byte x 50字符/1024/1024/1024=8G
url经过 md5等方法后保存到set中将url压缩到固定长度而且不重复， scrapy实际上就是应用这种方法
用bitmap方法将访问过的url通过hash函数映射到某一位，对内存压缩更大，缺点是冲突比较高
bloomfilter方法对bitmap进行改进多重hash函数降低冲突可能性。即减少内存，又减少冲突。

5 字符串编码

字符串编码，写文件以及网络传输过程中，调用某些函数，经常碰到提示编码错误.

计算机只能处理数字,文本转换为数字才能处理. 计算机中8个bit作为一个字节，所以一个字节能表示最大的数字就是255

计算机是美国人发明的一个字节可以表示所有字符了,所以ASCII(一个字节)编码就成为美国人的标准编码

但是ASCII处理中文明显是不够的中文不止255个汉字，所以中国制定了 GB2312编码，用两个字节表示一个汉字. GB2312还把ASCII包含进去了，同理，日文，韩文等等上百个国家为了解决这个问题就都发展了一套字节的编码，标准就越来越多，如果出现多种语言混合显示就一定会出现乱码.

于是 unicode出现了,将所有语言统一到一套编码里

看一下ASCII和unicode编码:

字母A用ASCII编码十进制是65，二进制 0100 0001

汉字"中" 已近超出ASCII编码的范围，用unicode编码是20013二进制是01001110 00101101

A用unicode编码只需要前面补0二进制是 00000000 0100 0001

乱码问题解决了，但是如果内容全是英文，unicode编码比ASCII编码需要多一倍的存储空间，传输也会变慢

所以此时出现了可变长的编码utf-8 把英文：1字节，汉字3字节，特别生僻的变成4-6字节，如果传输大量的英文，utf8作用就很明显。Unicode编码虽然占用空间但是因为占用空间大小等额，在内存中处理会简单一些。

关于Mac(Linux同理)下编码格式问题

image

以下为 Python2 操作环境!!!

py字符串在内存中全是用Unicode进行编码的

在Mac下实际上默认是utf8编码

image

在调用encode之前,必须把前面的变量转化为Unicode编码.

image

原本是utf8编码的不能直接编码成utf8,因为Python中使用encode方法,前面的变量必须都是Unicode编码的

image

所以每次执行encode前必须先decode成Unicode编码

image

正因为Python2存在编解码问题,所以老项目都需要一个文件头

image

Python3则不存在此问题,内部全部使用Unicode编码!!!

以下为 Python3 操作环境!!!

image

参考

正则表达

最后编辑于：2019.03.21 17:29:46

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345

Python分布式爬虫(三) - 爬虫基础知识

0 相关源码

1 技术选型 爬虫能做什么

1.1 scrapy VS requests + beautifulsoup

1.2 网页分类

常见类型的服务

1.3 爬虫能做什么

2 正则表达式

2.1 为何需要

2.2 作用

2.3 常用字符的用法

2.4 coding 演示

? : 非贪婪匹配模式

限定出现次数

| : 表示或关系

[]

\s

\w

汉字编码

d D

综合实战

3 深度优先和广度优先原理

4 爬虫去重策略

5 字符串编码

以下为 Python2 操作环境!!!

以下为 Python3 操作环境!!!

参考

推荐阅读更多精彩内容

1 技术选型爬虫能做什么