Scrapy自动爬取商品数据爬虫

创建爬虫项目

首先确保在Python环境下安装好Scrapy。具体过程可以参考我之前的文章
Python环境下Scrapy爬虫框架安装
进入windows的cmd或mac终端在某文件目录(这里为craw文件夹)下创建爬虫项目bookpjt,并进入该项目文件夹
scrapy startproject bookpjt
cd bookpjt

项目修改

这里我们选择爬取当当网python书籍商品的书名,价格,链接,评论数等数据。
进入项目文件目录下,找到并修改items.py文件,未修改前该文件如下:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class BookpjtItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass

修改类BookpjtItem如下:

class BookpjtItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
#定义好name用来存储商品名
    name=scrapy.Field()
#定义好price用来存储商品价格
    price=scrapy.Field()
#定义好link用来存储商品链接
    link=scrapy.Field()
#定义好comnum用来存储商品评论数
    comnum=scrapy.Field()

修改pipelines.py文件,我们要将爬取到的数据存储在.json文件中,注意修改输出的.json文件路径为你自己电脑的路径。

# -*- coding: utf-8 -*-
import codecs
import json

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html


class AutopjtPipeline(object):
    def __init__(self):
#此时存储到的文件是getdata.json,注意这里将路径修改为你自己要保存文件的路径!
        self.file = codecs.open("D:/python/.../getdata.json", "wb", encoding="utf-8")
    def process_item(self, item, spider):
#每一页中包含多个商品信息,所以可以通过循环,每一次处理一个商品
#其中len(item["name"])为当前页中商品的总数,依次遍历
        for j in range(0,len(item["name"])):
#将当前页的第j个商品的名称赋值给变量name
            name=item["name"][j]
            price=item["price"][j]
            comnum=item["comnum"][j]
            link=item["link"][j]
#将当前页下第j个商品的name、price、comnum、link等信息处理一下
#重新组合成一个字典
            books={"name":name,"price":price,"comnum":comnum,"link":link}
            #将组合后的当前页中第j个商品的数据写入json文件
            i=json.dumps(dict(books), ensure_ascii=False)
            line = i + '\n'
            self.file.write(line)
#返回item
        return item
    def close_spider(self,spider):
        self.file.close()

接下来修改setting.py文件,首先开启pipelines,取消这三行的注释即可。

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'bookpjt.pipelines.BookpjtPipeline': 300,
}

因为一些网站可能会有反爬虫机制,会屏蔽你的Cookie,这里作Cookie反屏蔽处理

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

有时爬虫会因为未遵守robots.txt规则而不能运行,这里将robots.txt规则设为False,当然保证你的爬取行为合理合法。

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

以上修改均可以在setting.py文件中。

创建爬虫文件

回到cmd或者终端,在该项目目录下以basic爬虫模板创建爬虫文件

scrapy genspider -t basic myspd dangdang.com

在当当网中搜索python,分析当当网python书籍商品网址,可发现index后即为商品页数,可以多翻几页试试,第一页也许会和后面的页网址不一样,但是后面页网址的结构也可以打开第一页。

http://search.dangdang.com/?key=python&act=input&show=big&page_index=1#J_tab
http://search.dangdang.com/?key=python&act=input&show=big&page_index=2#J_tab
······

分析网页源代码,提取书名,价格,链接,评论数的XPath表达式,如"//a[@class='pic']/@title"为class属性为pic的a标签中的title属性对应的值。
编写myspd.py文件

# -*- coding: utf-8 -*-
import scrapy
from bookpjt.items import BookpjtItem
from scrapy.http import Request


class MyspdSpider(scrapy.Spider):
    name = "myspd"
    allowed_domains = ["dangdang.com"]
    start_urls = ['http://search.dangdang.com/?key=python&act=input&show=big&page_index=1#J_tab']

    def parse(self, response):
        item=BookpjtItem()
#通过各Xpath表达式分别提取商品的名称、价格、链接、评论数等信息
        item["name"]=response.xpath("//a[@class='pic']/@title").extract()
        item["price"]=response.xpath("//span[@class='price_n']/text()").extract()
        item["link"]=response.xpath("//a[@class='pic']/@href").extract()
        item["comnum"]=response.xpath("//a[@name='itemlist-review']/text()").extract()
#提取完后返回item
        yield item
#接下来很关键,通过循环自动爬取20页的数据
        for i in range(1,21):
#通过上面总结的网址格式构造要爬取的网址
            url="http://search.dangdang.com/?key=python&act=input&show=big&page_index="+str(i)+"#J_tab"
#通过yield返回Request,并指定要爬取的网址和回调函数
#实现自动爬取
            yield Request(url, callback=self.parse)

调试运行爬虫

返回项目目录下,在cmd或终端调试运行爬虫

scrapy crawl myspd --nolog


在你之前保存的目录下查看getdata.json文件,可以看到很快爬虫便爬取了近1000多本书的数据信息。若没有文件或者文件内容为空,校对以上步骤看看哪里出错了。
结果输出

本文是快速成功实现了一个爬虫,同理,可以对其他网站或者其他商品通过Scrapy爬虫爬取你所需的数据信息。做法是分析网址源码,改动一下数据结构和正则表达式,具体内容可以百度搜索研究学习XPath表达式部分。
获取到数据后就可以进一步的进行数据分析或可视化,玩起这份自己获取到的数据啦_。具体内容以后玩到也会分享展示出来的。
项目代码已上传至我的github|ChocoYvan,可以fork下来参考。
欢迎参观我的博客|巧不巧克力,一起交流学习哈O(∩_∩)O

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容