多年开发工程师做的爬虫笔记，抓紧时间速度收藏！

平时有个习惯，会把自己的笔记写在有道云里面，现在做个整理。会长期更新，因为我是BUG制造机。

解析

xpath提取所有节点文本

我左青龙，右白虎，

下玄武。

老牛在当中，龙头在胸口。

使用xpath的string(.)

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from scrapy.selector import Selector

text = '

我左青龙，右白虎，

下玄武。

老牛在当中，龙头在胸口。

s = Selector(text=text)

data = s.xpath('//div[@id="test3"]')

info = data.xpath('string(.)').extract()[0]

print(info)

# output: 我左青龙，右白虎，上朱雀，下玄武。老牛在当中，龙头在胸口。

如何解决详情页面元素改变

这个问题是这样产生的，在很多PC站，比如链家，这个页面有这些字段A，但是下个页面这个字段A没了，取而代之的是字段B，在xpath定位时就失效了。这个问题很常见，大体思路是这样的。

创建一个包含所有字段的dict: data = {}.fromkeys(('url', 'price', 'address'))

然后根据网页中是否有字段来取值，例如，有’url’就取对应的value，没有则为空

这样就可以完美解决匹配不全问题

Scrapy 相关

文件编写

逻辑文件和解析部分分开写，匹配文件目录是utils/parse/，爬虫文件目录是spiders/

Scrapy 中文乱码

在 setting 文件中设置：FEED_EXPORT_ENCODING = 'utf-8'

Scrapy 使用Mongo

pipelines.py

首先我们要从settings文件中读取数据的地址、端口、数据库名称。

拿到数据库的基本信息后进行连接。

将数据写入数据库（update制定唯一键）

关闭数据库

注意：只有打开和关闭是只执行一次，而写入操作会根据具体的写入次数而定。

Redis 无需关闭

import pymongo

class MongoDBPipeline(object):

"""

1、连接数据库操作

"""

def __init__(self,mongourl,mongoport,mongodb):

'''

初始化mongodb数据的url、端口号、数据库名称

:param mongourl:

:param mongoport:

:param mongodb:

'''

self.mongourl = mongourl

self.mongoport = mongoport

self.mongodb = mongodb

@classmethod

def from_crawler(cls,crawler):

"""

1、读取settings里面的mongodb数据的url、port、DB。

:param crawler:

:return:

"""

return cls(

mongourl = crawler.settings.get("MONGO_URL"),

mongoport = crawler.settings.get("MONGO_PORT"),

mongodb = crawler.settings.get("MONGO_DB")

)

def open_spider(self,spider):

'''

1、连接mongodb数据

:param spider:

:return:

'''

self.client = pymongo.MongoClient(self.mongourl,self.mongoport)

self.db = self.client[self.mongodb]

def process_item(self,item,spider):

'''

1、将数据写入数据库

:param item:

:param spider:

:return:

'''

name = item.__class__.__name__

# self.db[name].insert(dict(item))

self.db['user'].update({'url_token':item['url_token']},{'$set':item},True)

return item

def close_spider(self,spider):

'''

1、关闭数据库连接

:param spider:

:return:

'''

self.client.close()

scrapy图片下载

import scrapy

from scrapy.pipelines.images import ImagesPipeline

from scrapy.exceptions import DropItem

class MyImagesPipeline(ImagesPipeline):

def get_media_requests(self, item, info):

for image_url in item['image_urls']:

yield scrapy.Request(image_url)

def item_completed(self, results, item, info):

image_paths = [x['path'] for ok, x in results if ok]

if not image_paths:

raise DropItem("Item contains no images")

item['image_paths'] = image_paths

return item

scrapy 暂停爬虫

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

scrapy_redis 分布式

使用队列与去重即可完成分布式需求，需要注意的是 Redis 格式，默认采用的是 list，可以在 settings.py 文件中设置 REDIS_START_URLS_AS_SET = True，使用 Redis的 set类型（去重种子链接）

安装

超时问题

自定义超时时间

sudo pip3 --default-timeout=100 install -U scrapy

或者使用其他源

sudo pip3 install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

权限问题

安装某模块时，报错：PermissionError: [WinError 5] 拒绝访问。: 'c:\program files\python35\Lib\sit e-packages\lxml'

最简单方法：pip install --user lxml

Pycharm 相关

.gitignore 文件

安装插件： Preferences > Plugins > Browse repositories... > Search for ".ignore" > Install Plugin

然后就可以很方便的添加到 .gitignore

显示函数

点击 Show Members，查看目录，会显示相应的类和函数

激活码

http://idea.liyang.io

http://xidea.online

数据

Mongo导出命令

λ mongoexport -d test -c set --type=csv -f name,age -o set.csv

λ mongoexport -h 10.10.10.11 -d test -c test --type=csv -f url,id,title -o data.csv

其他

requirements.txt 文件

小提示：使用 pigar 可以一键生成 requirements.txt 文件

Installation：pip install pigar

Usage：pigar

好了，今天先写这点，以后再补上。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

多年开发工程师做的爬虫笔记，抓紧时间速度收藏！

推荐阅读更多精彩内容