Scrapy爬取B站小姐姐入门教程，结果万万没想到！

scrapy是由Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。

它的作用有下:

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。

Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。

scrapy框架的传送门：https://scrapy.org

scrapy框架运行原理

Scrapy Engine（引擎）：负者Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据转递等。

Scheduler(调度器) ：它负责接受引擊发送过来的Request请求,并按照一定的方式进行整理排列，入队,当引擎需要时，交还给引擎。

Downloader (下载器)：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎) ，由引擎交给Spider来处理。

Spider (爬虫) ：它负责处理所有Responses，从中分析提取数据，获取Item字段需要的数据,并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。

Item Pipeline(管道) ：它负责处理Spider 中获取到的Item ，并进行进行后期处理(详细分析、过滤、存储等)的地方。

Downloader Middlewares (下载中间件) : 你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares (Spider中间件) : 你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests )

不知道大家是否还记得，在我们平时写爬虫的时候一般都是划分三个函数。

# 获取网页信息

defget_html():

pass

# 解析网页

defparse_html():

pass

# 保存数据

defsave_data():

pass

这三个函数基本上没有说谁调用谁的这种说法，最后只能通过主函数来将这些函数调用起来。

很显然，我们的scrapy框架也正是这样的原理，只不过它是把这三部分的功能保存在不同的文件之中，通过scrapy引擎来调用它们。

当我们使用scrapy写好代码并运行的时候就会出现如下的对话。

引擎：兄弟萌，辣么无聊，爬虫搞起来啊！

Spider：好啊，老哥，早就想搞了，今天就爬xxx网站好不好？

引擎：没有问题，入口URL发过来！

Spider：呐，入口的URL是：https://www.xxx.com

引擎：调度器老弟，我这有requests请求你帮我排序入队一下吧。

调度器：引擎老哥，这是我处理好的requests

引擎：下载器老弟，你按照下载中间件的设置帮我下载一下这个requests请求

下载器：可以了，这是下载好的内容。（如果失败：sorry，这个requests下载失败了，然后引擎告诉调度器，这个requests下载失败了，你记录一下，我们待会儿再下载）

引擎：爬虫老弟，这是下载好的东西，下载器已经按照下载中间件处理过了，你自己处理一下吧。

Spider：引擎老哥，我的数据已经处理完毕了，这里有两个结果，这个是我需要跟进的URL，还有这个是我获取到的item数据。

引擎：管道老弟，我这有个item，你帮我处理一下。

引擎：调度器老弟，这是需要跟进的URL你帮我处理一下。（然后从第四步开始循环，直到获取完全部信息）

制作 Scrapy 爬虫一共需要4步：

新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目

明确目标（编写items.py）：明确你想要抓取的目标

制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页

存储内容（pipelines.py）：设计管道存储爬取内容

辣么今天我们就以B站小姐姐为例,带大家亲自体验一下scrapy的强大之处!

首先我们来看看scrapy的常用命令:

scrapy startproject 项目名称# 创建一个爬虫项目或工程

scrapy genspider 爬虫名域名# 在项目下创建一个爬虫spider类

scrapy runspider 爬虫文件#运行一个爬虫spider类

scrapy list# 查看当前项目有多少个爬虫

scrapy crawl 爬虫名称# 通过名称指定运行爬取信息

scrapy shell url/文件名# 使用shell进入scrapy交互环境

1.第一步我们创建一个scrapy工程, 进入到你指定的目录下,使用命令:

scrapy startproject 项目名称 # 创建一个爬虫项目或工程

此时可以看到该目录下多了一个叫BliBli的文件夹.

2.当我们创建完项目之后，它会有提示，那么我们就按照它的提示继续操作。

You can start your first spiderwith:

cd BliBli

scrapy genspider example example.com

当你按照上面的操作，之后你就会发现，在spiders文件夹下就会出现spider_bl.py这个文件。这个就是我们的爬虫文件。

后面的https://search.bilibili.com/ 就是我们要爬取的目标网站

BliBli

|—— BliBli

||—— __init__.py

||—— __pycache__.

||—— items.py# Item定义，定义抓取的数据结构

||—— middlewares.py# 定义Spider和Dowmloader和Middlewares中间件实现

||—— pipelines.py# 它定义Item Pipeline的实现，即定义数据管道

||—— settings.py# 它定义项目的全局配置

||__ spiders# 其中包含一个个Spider的实现，每个Spider都有一个文件

|—— __init__.py

|—— spider_bl.py # 爬虫实现

|—— __pycache__

|—— scrapy.cfg# scrapy部署时的配置文件，定义了配置文件的路径、部署相关的信息内容。

3.接下来我们打开B站搜索 '小姐姐'如下,作为入门级crapy教程.我们今天的任务很简单,爬取视频链接,标题还有up主即可.

4.设置item模板,定义我们要获取的信息. 就跟java中定义的model类一样.

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

importscrapy

classBlibliItem(scrapy.Item):

# define the fields for your item here like:

title = scrapy.Field()# 视频标题

url = scrapy.Field()# 视频链接

author = scrapy.Field()# 视频up主

5. 然后我们在我们创建的spider_bl.py文件中写我们爬虫函数的具体实现.

importscrapy

fromBliBli.itemsimportBlibliItem

classSpiderBlSpider(scrapy.Spider):

name ='spider_bl'

allowed_domains = ['https://search.bilibili.com']

start_urls = ['https://search.bilibili.com/all?keyword=%E5%B0%8F%E5%A7%90%E5%A7%90&from_source=web_search']

# 定义爬虫方法

defparse(self, response):

# 实例化item对象

item = BlibliItem()

lis = response.xpath('//*[@id="all-list"]/div[1]/div[2]/ul/li')

foritemsinlis:

item['title'] = items.xpath('./a/@title').get()

item['url'] = items.xpath('./a/@href').get()

item['author'] = items.xpath('./div/div[3]/span[4]/a/text()').get()

yielditem

6.我们现在pipeline中打印一下,没问题我们再将其保存到本地.

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

# useful for handling different item types with a single interface

fromitemadapterimportItemAdapter

importjson

classBlibliPipeline:

defprocess_item(self, item, spider):

print(item['title'])

print(item['url'])

print(item['author'])

# 保存文件到本地

withopen('./BliBli.json','a+', encoding='utf-8')asf:

lines = json.dumps(dict(item), ensure_ascii=False) +'\n'

f.write(lines)

returnitem

7. settings.py找到以下字段，取消字段的注释。

# Obey robots.txt rules

ROBOTSTXT_OBEY =False

# Override the default request headers:

DEFAULT_REQUEST_HEADERS = {

"User-Agent": str(UserAgent().random),

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'

}

# Configure item pipelines

# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

'BliBli.pipelines.BlibliPipeline':300,

}

使用如下命令运行程序:

scrapycrawl spider_bl

可以看到产生了一个json文件.

打开文件可以看到已经成功的获取到了我们想要的数据.

那么多页数据如何获取呢? 下期分解~

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

Scrapy爬取B站小姐姐入门教程，结果万万没想到！

推荐阅读更多精彩内容