创建爬虫项目
首先确保在Python环境下安装好Scrapy。具体过程可以参考我之前的文章
Python环境下Scrapy爬虫框架安装
进入windows的cmd或mac终端在某文件目录(这里为craw文件夹)下创建爬虫项目bookpjt,并进入该项目文件夹
scrapy startproject bookpjt
cd bookpjt
项目修改
这里我们选择爬取当当网python书籍商品的书名,价格,链接,评论数等数据。
进入项目文件目录下,找到并修改items.py文件,未修改前该文件如下:
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class BookpjtItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
pass
修改类BookpjtItem如下:
class BookpjtItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
#定义好name用来存储商品名
name=scrapy.Field()
#定义好price用来存储商品价格
price=scrapy.Field()
#定义好link用来存储商品链接
link=scrapy.Field()
#定义好comnum用来存储商品评论数
comnum=scrapy.Field()
修改pipelines.py文件,我们要将爬取到的数据存储在.json文件中,注意修改输出的.json文件路径为你自己电脑的路径。
# -*- coding: utf-8 -*-
import codecs
import json
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
class AutopjtPipeline(object):
def __init__(self):
#此时存储到的文件是getdata.json,注意这里将路径修改为你自己要保存文件的路径!
self.file = codecs.open("D:/python/.../getdata.json", "wb", encoding="utf-8")
def process_item(self, item, spider):
#每一页中包含多个商品信息,所以可以通过循环,每一次处理一个商品
#其中len(item["name"])为当前页中商品的总数,依次遍历
for j in range(0,len(item["name"])):
#将当前页的第j个商品的名称赋值给变量name
name=item["name"][j]
price=item["price"][j]
comnum=item["comnum"][j]
link=item["link"][j]
#将当前页下第j个商品的name、price、comnum、link等信息处理一下
#重新组合成一个字典
books={"name":name,"price":price,"comnum":comnum,"link":link}
#将组合后的当前页中第j个商品的数据写入json文件
i=json.dumps(dict(books), ensure_ascii=False)
line = i + '\n'
self.file.write(line)
#返回item
return item
def close_spider(self,spider):
self.file.close()
接下来修改setting.py文件,首先开启pipelines,取消这三行的注释即可。
# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
'bookpjt.pipelines.BookpjtPipeline': 300,
}
因为一些网站可能会有反爬虫机制,会屏蔽你的Cookie,这里作Cookie反屏蔽处理
# Disable cookies (enabled by default)
COOKIES_ENABLED = False
有时爬虫会因为未遵守robots.txt规则而不能运行,这里将robots.txt规则设为False,当然保证你的爬取行为合理合法。
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
以上修改均可以在setting.py文件中。
创建爬虫文件
回到cmd或者终端,在该项目目录下以basic爬虫模板创建爬虫文件
scrapy genspider -t basic myspd dangdang.com
在当当网中搜索python,分析当当网python书籍商品网址,可发现index后即为商品页数,可以多翻几页试试,第一页也许会和后面的页网址不一样,但是后面页网址的结构也可以打开第一页。
http://search.dangdang.com/?key=python&act=input&show=big&page_index=1#J_tab
http://search.dangdang.com/?key=python&act=input&show=big&page_index=2#J_tab
······
分析网页源代码,提取书名,价格,链接,评论数的XPath表达式,如"//a[@class='pic']/@title"为class属性为pic的a标签中的title属性对应的值。
编写myspd.py文件
# -*- coding: utf-8 -*-
import scrapy
from bookpjt.items import BookpjtItem
from scrapy.http import Request
class MyspdSpider(scrapy.Spider):
name = "myspd"
allowed_domains = ["dangdang.com"]
start_urls = ['http://search.dangdang.com/?key=python&act=input&show=big&page_index=1#J_tab']
def parse(self, response):
item=BookpjtItem()
#通过各Xpath表达式分别提取商品的名称、价格、链接、评论数等信息
item["name"]=response.xpath("//a[@class='pic']/@title").extract()
item["price"]=response.xpath("//span[@class='price_n']/text()").extract()
item["link"]=response.xpath("//a[@class='pic']/@href").extract()
item["comnum"]=response.xpath("//a[@name='itemlist-review']/text()").extract()
#提取完后返回item
yield item
#接下来很关键,通过循环自动爬取20页的数据
for i in range(1,21):
#通过上面总结的网址格式构造要爬取的网址
url="http://search.dangdang.com/?key=python&act=input&show=big&page_index="+str(i)+"#J_tab"
#通过yield返回Request,并指定要爬取的网址和回调函数
#实现自动爬取
yield Request(url, callback=self.parse)
调试运行爬虫
返回项目目录下,在cmd或终端调试运行爬虫
scrapy crawl myspd --nolog
在你之前保存的目录下查看getdata.json文件,可以看到很快爬虫便爬取了近1000多本书的数据信息。若没有文件或者文件内容为空,校对以上步骤看看哪里出错了。
本文是快速成功实现了一个爬虫,同理,可以对其他网站或者其他商品通过Scrapy爬虫爬取你所需的数据信息。做法是分析网址源码,改动一下数据结构和正则表达式,具体内容可以百度搜索研究学习XPath表达式部分。
获取到数据后就可以进一步的进行数据分析或可视化,玩起这份自己获取到的数据啦_。具体内容以后玩到也会分享展示出来的。
项目代码已上传至我的github|ChocoYvan,可以fork下来参考。
欢迎参观我的博客|巧不巧克力,一起交流学习哈O(∩_∩)O