python分布式爬虫：爬虫基础知识

技术选型

scrapy vs requests + beautifulsoup

1，requests和beautifulsoup都是库，scrapy是框架
2，scrapy框架中可以加入requests和beautifulsoup
3，scrapy基于twisted（异步I/O），性能是最大的优势
4，scrapy方便扩展，提供了很多内置的功能
5，scrapy内置的css和xpath selector非常方便，beautifulsoup最大的缺点就是慢（对HTML进行分析）

网页分类

常见类型的服务
1，静态网页（静态博客）
2，动态网页
3，webservice（restapi）

爬虫能做什么

爬虫作用
1，搜索引擎--百度，google，垂直领域搜索引擎
2，推荐引擎--今日头条
3，机器学习的数据样本
4，数据分析（如金融数据分析），舆情分析等。

正则表达式

目录：
1，特殊字符

^ $ * ? + {2} {2,} {2,5} |
[] [^] [a-z] .
\s \S \w \W
[\u4E00-\u9FA5] () \d

2，正则表达式的简单应用及python示例
栗子1：

import  re

line = "bobby123"
regex_str = "^b.*"
if re.match(regex_str,line):
    print("yes")

栗子二：

import  re

line = "boooooooobby123"
regex_str = ".*?(b.*?b).*"
mathch_obj = re.match(regex_str,line)
if mathch_obj:
    print(mathch_obj.group(1))

当没有加？的时候是贪婪匹配（从最后开始匹配），加了之后是非贪婪模式（从前面开始匹配）。

注意： [ ] 里面的特殊字符不再有特殊含义，[ * ]就是匹配 *

栗子三：

import  re

line = "你 好"
regex_str = "(你\s好)"
mathch_obj = re.match(regex_str,line)
if mathch_obj:
    print(mathch_obj.group(1))

栗子四：

import  re

line = "你好s"
regex_str = "([\u4E00-\u9FA5]+)"
mathch_obj = re.match(regex_str,line)
if mathch_obj:
    print(mathch_obj.group(1))

使用[\u4E00-\u9FA5]可以匹配连续的中文
我们看下一个字符串中除了中文还有其它字符的时候，我们想提取大学前面和大学

import  re

line = "study in 南京大学"
regex_str = ".*?([\u4E00-\u9FA5]+大学)"
mathch_obj = re.match(regex_str,line)
if mathch_obj:
    print(mathch_obj.group(1))

深度优先和广度优先

目录：
1，网站的树结构
2，深度优先算法和实现
3，广度优先算法和实现

网站url的结构图：伯乐在线

Paste_Image.png

网站设计是分层的，多级域名的。

网站url链接的结构图

Paste_Image.png

为了防止循环爬取，对已经爬取过的链接新建一个list存放。在爬取之前，我们进行一次判断，如果没有爬取过，才爬取。

深度优先图：

Paste_Image.png

深度优先：每次爬取到无链接可爬取为止，然后向上层返回查找。
广度优先：每次爬取当前页面可访问的所有兄弟节点。（分层）
1，深度优先输出A，B，D，E，I，C，F，G，H（递归实现）
2，广度优先输出A，B，C，D，E，F，G，H，I（队列实现）

深度优先过程：

In [1]: def depth_tree(tree_node):
   ...:     if tree_node is not None:
   ...:         print(tree_node._data)
   ...:         if tree_node._left is not None:
   ...:             return depth_tree(tree_node._left)
   ...:         if tree.node._right is not None:
   ...:             return depth_tree(tree_node._right)
   ...:

注意：递归太深会导致栈溢出

广度优先过程：

In [4]: def level_queue(root):
   ...:     """利用队列实现树的广度优先遍历"""
   ...:     if root is None:
   ...:         return
   ...:     my_queue = []
   ...:     node = root
   ...:     my_queue.append(node)
   ...:     while my_queue:
   ...:         node = my_queue.pop(0)
   ...:         print (node.elem)
   ...:         if node.lchild is not None:
   ...:             my_queue.append(node.lchild)
   ...:         if node.rchild is not None:
   ...:             my_queue.append(node.rchild)
   ...:

爬虫去重策略

1，将访问过的url保存到数据库中
（每次拿到一个新的url都会去数据库查询是否被爬取过，效率低）
2，将访问过的url保存到内存set中，只需要O(1)的代价就可以查询url
假设有一亿个url，占用内存：
1000000002byte50个字符/1024/1024/1024 = 9G
3，url经过md5等方法哈希后保存到set
经过编码之后，可以对数据压缩
4，用bitmap方法，将访问过的url通过hash函数映射到某一位
将url映射到byte的位上，但是具有高冲突
5，bloomfilter方法对bitmap进行改进，多重hash函数降低冲突

字符串编码

image.png

utf8编码在保存和网络传输的时候，使用的空间较小。
而unicode编码在编程的时候，因为字节统一，便于编程。

因此文件文件保存的时候，我们保存为utf-8的格式，读取到内存的时候，我们转化为Unicode编码。当由内存保存至文件的时候，我们再将编码改为utf-8的编码格式。

Paste_Image.png

获取系统默认编码

In [1]: import sys

In [2]: sys.getdefaultencoding
Out[2]: <function sys.getdefaultencoding>

In [3]: sys.getdefaultencoding()
Out[3]: 'utf-8'

想要encode之前要保证字符串是Unicode格式。

最后编辑于：2017.12.07 01:41:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345

python分布式爬虫：爬虫基础知识

技术选型

网页分类

爬虫能做什么

正则表达式

深度优先和广度优先

爬虫去重策略

字符串编码

推荐阅读更多精彩内容