爬虫小记（一）--- 爬取简书专题

引

在简书中有很多主题频道，里面有大量优秀的文章，我想收集这些文章用于提取对我有用的东西；

无疑爬虫是一个好的选择，我选用了python的一个爬虫库scrapy，它的官方文档就是很好的教程：http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

准备工作

scrapy安装

pip install Scrapy

我遇到的问题是，编译时候stdarg.h找不到；于是查看报问题的头文件目录，把stdarg.h拷贝进去就OK了，这个花了我好长时间。。。

因为scrapy依赖于twisted，所以有人安装scrapy可能会提示缺少twisted，介绍如下：

从https://pypi.python.org/pypi/Twisted/#downloads下载离线文件，然后执行一下安装。

tar jxvf Twisted-xxx.tar.bz2

cd Twisted-xxx

python setup.py install

mysql

抓取到的数据默认是用json存储，因为不同类型的数据混合存储，解析和查询过于繁琐，所以我选择数据库；至于没有用mongodb，是因为我机子上本来就装有mysql，而且自己学习研究用不到mongodb的一些优点。

mysql数据库是分服务器(server)，客户端(workbench)，python的接口链接器(mysql-connector）；这些都可以从官方找到，参见 https://dev.mysql.com/downloads/

connector可以直接用pip安装，这里有个好处就是不用额外操心环境变量的事儿。

pip install mysql-connector

对于connector的使用，参见官方说明文档：

https://dev.mysql.com/doc/connector-python/en/

一个简单的框架

创建一个scrapy工程

scrapy startproject HelloScrapy

启动一个工程

scrapy crawl demo

还可以用shell启动，这个好处是你可以介入每一个执行命令

scrapy shell 'https://www.jianshu.com/u/4a4eb4feee62'

需要注意的是，网站一般会有反爬虫机制，抓取会返回403错误，所以记得把user-agent改了：

settings.py

USER_AGENT = 'HelloWoWo'

开启爬虫

你需要在spider目录下建立一个scrapy.Spider的子类，定义它的名称（name, 就是启动工程时指定的名称），允许的域名(allowed_domains)，起始的爬取链接(start_urls)；

然后定义parse函数，它的参数response就是响应内容，你可以从中解析要获取的内容和新的链接；解析的方式可以通过xpath和css，这里用xpath；然后可以通过yield，把解析到的对象推送到存储流程中，如果你想爬虫系统继续爬取新的链接，也可以通过yield来进入下一步爬取中。

from HelloScrapy.items import HelloscrapyItem

class DemoScrapy(scrapy.Spider):

name = 'demo'

allowed_domains = ['jianshu.com']

start_urls = [

'https://www.jianshu.com/u/4a4eb4feee62',

'https://www.jianshu.com/u/d2a08403ea7f',

]

def parse(self, response):

user_sel = response.xpath('//body/div/div/div/div/div/ul/li/div/p/text()')

item = HelloscrapyItem()

item['text_num'] = int(user_sel[0].extract())

item['favor_num'] = int(user_sel[1].extract())

yield item

Item

上面代码中的item就是用于描述抓取到的数据结构，它们每个属性都用scrapy.Field()表示。

import scrapy

class HelloscrapyItem(scrapy.Item):

# define the fields for your item here like:

name = scrapy.Field()

text_num = scrapy.Field()

favor_num = scrapy.Field()

Pipeline

它负责整个存储的过程，可以存储在json文件中，也可以通过数据库。

但是首先，你需要在settings.py中声明你的pipeline（默认有的，打开注释然后修改下）:

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

'HelloScrapy.pipelines.MySqlPipeline': 300,

}

如果使用最简单的json方式，可以定义如下：

其中open_spider，close_spider如名字一样，分别会在启动spider和结束spider时调用，所以这里分别定义了文件的打开和关闭；

而process_item就是对每个item的存储处理，这里将item进行json化，保存在预定义的文件中。

import json

class HelloscrapyPipeline(object):

def open_spider(self, spider):

self.file = open('./items.txt', 'w')

def close_spider(self, spider):

self.file.close()

def process_item(self, item, spider):

line = json.dumps(dict(item))

self.file.write(line)

return item

我这边使用的是mysql，介绍如下。

mysql

首先定义一个mysql的封装类，支持打开和关闭一个数据库，创建一个表，插入一条数据。

import mysql.connector

from mysql.connector import errorcode

from settings import *

class MySqlDb(object):

def __init__(self, db_name):

self.db_name = db_name

self.cnx = None

self.cursor = None

pass

def open(self):

self.cnx = mysql.connector.connect(user=MYSQL_USER_NAME, password=MYSQL_PASS_WORD)

self.cursor = self.cnx.cursor()

self.__ensureDb(self.cnx, self.cursor, self.db_name)

pass

def close(self):

if self.cursor:

self.cursor.close()

if self.cnx:

self.cnx.close()

pass

def createTable(self, tbl_ddl):

if self.cnx and self.cursor:

self.__ensureDb(self.cnx, self.cursor, self.db_name)

self.__ensureTable(self.cursor, tbl_ddl)

pass

def insert(self, sql, values):

if self.cnx and self.cursor:

try:

self.cursor.execute(sql, values)

self.cnx.commit()

except:

pass

pass

def __ensureDb(self, cnx, cursor, db_name):

try:

cnx.database = db_name

except mysql.connector.Error as err:

if err.errno == errorcode.ER_BAD_DB_ERROR:

try:

cursor.execute("CREATE DATABASE {} DEFAULT CHARACTER SET 'utf8'".format(db_name))

except mysql.connector.Error as create_err:

print("Failed creating database: {}".format(create_err))

exit(1)

cnx.database = db_name

else:

print err

exit(1)

def __ensureTable(self, cursor, tbl_ddl):

try:

cursor.execute(tbl_ddl)

except mysql.connector.Error as err:

if err.errno == errorcode.ER_TABLE_EXISTS_ERROR:

pass

else:

print err.msg

else:

pass

然后抽象一个item的基类：

该类的insertToDb定义了插入的过程，由每个子类提供创建表和插入数据的sql语句。

import scrapy

class BaseItem(scrapy.Item):

def insertToDb(self, mysqldb):

table_sql = self.getTableSql()

insert_sql = self.getInsertSql()

if table_sql and insert_sql:

mysqldb.createTable(table_sql)

mysqldb.insert(insert_sql, dict(self))

else:

print 'Empty!!!!!!!!!!!!!!!!!!!!!!!'

pass

def getTableSql(self):

return None

def getInsertSql(self):

return None

它的一个子类示意：

import scrapy

from item_base import *

class ArticleItem(BaseItem):

item_type = scrapy.Field()

title = scrapy.Field()

author = scrapy.Field()

author_link = scrapy.Field()

content = scrapy.Field()

def getTableSql(self):

return "CREATE TABLE `article` (" \

" `title` varchar(256) NOT NULL," \

" `author` varchar(128) NOT NULL," \

" `author_link` varchar(1024) NOT NULL," \

" `content` TEXT(40960) NOT NULL," \

" PRIMARY KEY (`title`)" \

") ENGINE=InnoDB"

def getInsertSql(self):

return "INSERT INTO article " \

"(title, author, author_link, content) " \

"VALUES (%(title)s, %(author)s, %(author_link)s, %(content)s)"

这样，爬取到的内容记录在不同类型的item中，最后又通过item的insertToDb过程，插入到mysql中。

可以通过workbench直接查看：

爬取技巧

上面的基本元素都有了，我们继续看下爬取过程中的一些小问题。

首先是怎么使用xpath解析网页元素。

xpath返回的是selector，对应网页中的dom结构，比如我们用chrome调试器看下网页的结构：

当鼠标放置一个地方，真实网页中会显示对应的选中区域的，所以你可以对照左边一层层找到它所对应的html结构，比如"//body/div/div/div"。

获取属性方法使用@，如@href

xpath('div/div/span/@data-shared-at')

使用@class提取节点

response.xpath('//body/div[@class="note"]')

抓取html内容

content = article_sel.xpath("div[@class='show-content']/div[@class='show-content-free']/*").extract()

content = ''.join(content)

抓取文本

content = article_sel.xpath("div[@class='show-content']/div[@class='show-content-free']//text()").extract()

content = ''.join(content)

其次是怎么让爬虫延伸。

当你抓取到一个感兴趣的链接后，比如当前正在爬取的是某个人的简书主页，网页中有很多文章链接，你想继续爬取的话，就可以yield出去：

"""

url: 要继续爬取的链接

callback: 爬取后的响应处理

"""

yield scrapy.Request(url=link, callback=self.parse)

但是一般看到的链接是相对地址，所以你要先做一个处理：

from urlparse import urljoin

link = urljoin('http://www.jianshu.com', link)

我们也看到，上面的self.parse方法被用在很多网页请求中，但是这些网页的格式可能是不一样的，那么你需要做一个分类：

cur_url = response.url

if cur_url.startswith('https://www.jianshu.com/u'):

pass

elif cur_url.startswith('https://www.jianshu.com/p'):

pass

最后讲一下怎么去抓动态网页。

你可以分析下简书某个专题的网页格式，它的内容列表一般是10条，但是你往下滑动的时候它又会增多；当爬取这个专题网页的时候，你只能解析最开始的10条，怎么办呢？

打开调试器，选择network/XHR，当你在左边的网页中不停往上滑动的时候，就会不断出现右边新的链接，有没有发现什么？

这些网页都是有规律的，xxx?order_by=added_at&page=xx，其中order_by就是这个专题的Tab目录，added_at表示最新添加的，而page就是第几个页。

如果你遍历所有的page页，不就把这些动态网页抓取到了吗？不过有个坏消息，就是page页有上限，目前是200，不要告诉是我说的。。。

代码工程

代码我上传到了github上，其中HelloScrapy/db/settings.py中的变量是无效的，需要配置为有效的mysql用户名和密码。

https://github.com/callmejacob/spider

严重声明：

本文涉及的方法和代码都只用于学习和研究，严禁转载和用于商业目的，否则后果自负！

最后编辑于：2018.09.13 19:27:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,761评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,953评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,998评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,248评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,130评论 4赞 356
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,145评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,550评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,236评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,510评论 1赞 291
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,601评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,376评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,247评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,613评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,911评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,191评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,532评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,739评论 2赞 335

爬虫小记（一）--- 爬取简书专题

引

准备工作

mysql

一个简单的框架

代码工程

推荐阅读更多精彩内容