第一步:
需求: 爬取https://www.gushiwen.cn/default_1.aspx中的 诗词的 标题 作者 朝代 内容,以及实现全部翻页并保存,以下保存为两种方式,第一种为csv格式,第二种为txt格式。
第二步:
新建爬虫框架,在pycharm,Terminal中
cd D:\myproject\20210530
scrapy startproject gsw
第三步:
新建爬虫文件
cd gsw
scrapy genspider gs gushiwen.cn
第四步
- 分析网页结构:
每页古诗文都在class="left"的div标签里,每首古诗文都在@class="sons"的div标签里,那么通过scrapy使用xpath来清洗所需的数据,tags = response.xpath('//div[@class="left"]/div[@class="sons"]')得到每页10首古诗文。通过遍历,得到每首古诗文 - 网页页面分析
https://www.gushiwen.cn/default_1.aspx
https://www.gushiwen.cn/default_2.aspx
https://www.gushiwen.cn/default_3.aspx
分别代表第一页,第二页,第三页以此类推 - 网页为静态网页
第五步
settings.py设置
- ROBOTSTXT_OBEY = False
- DOWNLOAD_DELAY = 1
- DEFAULT_REQUEST_HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8',
'Accept-Language': 'en', - LOG_LEVEL = 'WARNING'
- ITEM_PIPELINES = {
'gsw.pipelines.GswPipeline': 300,
}
第六步
items.py
封装字段,在items.py文件中对字段进行定义并封装,如果未定义那么爬虫 主程序无法调用。
import scrapy
class GswItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
author = scrapy.Field()
dynasty = scrapy.Field()
content= scrapy.Field()
pass
第七步
爬虫主程序调用items.py中的GswItem(scrapy.Item)类 <class 'gsw.items.GswItem'>
调用方法,右键点击新建工程gsw- Mark Directory as Sources Root设置为当前文件夹
调用GswItem(scrapy.Item)类:from gsw.items import GswItem
实例化类(有两种方法,随便一种都可以)
第一种:
item = GswItem(title = title,author = author,dynasty = dynasty,content = content)
第二种:
item = GswItem
item['title'] = title
item['author'] = author
item['dynasty'] = dynasty
item['content'] = content
第八步
爬虫主程序
gs.py
- 数据清洗,使用到get()获取一条数据字符串,getall()获得多条数据,形成列表
for tag in tags:
title = tag.xpath('./div[@class="cont"]/p/a/b/text()').get()
source = tag.xpath('.//p[@class="source"]/a/text()').getall()
try:
author = source[0]
dynasty = source[1]
contents = tag.xpath('.//div[@class="contson"]/text()').getall()
content =''.join(contents).strip()
- 列表转字符串方法: ' '.join()
- 字符串转列表方法:.split()
- 当爬取的范围不一样的时候(域名不一样的时候) 有最大的就给个最大的 allowed_domains = ['gushiwen.org','gushiwen.cn'] 可以加多个 多个数据之间不要出现空格
allowed_domains = ['gushiwen.cn','gushiwen.org']
- 如何处理 列表为空的数据 第一个可以做非空判断 例如豆瓣 第二个可以通过 try语句进行处理
第九步 翻页处理:
翻页处理是在爬虫主程序是处理,由于它特别重要,所以另起一步。
翻页总结有两种方式:
1、首先定位(xpath)到翻页所在元素@href网页地址
url_tag = response.xpath('//a[@id="amore"]/@href').get()
如果网页地址不全,可以用next_url = response.urljoin(url_tag)
进行补全。并调用yield scrapy.Request(next_url,callback = self.parse)把下一页用回调函数方法返回上述self.parse()进行调用.
#第一种翻页方式
# url_tag = response.xpath('//a[@id="amore"]/@href').get()
# if url_tag:
# next_url = response.urljoin(url_tag)
# yield scrapy.Request(next_url,callback=self.parse)
2、第二种方法,利用列表推导式,然后对列表进行遍历方法
urls =['https://www.gushiwen.cn/default_{}.aspx'.format(str(x+1)) for x in range(1,5)]
for url in urls:
yield scrapy.Request(url,callback=self.parse)
#第二种翻页方式
urls =['https://www.gushiwen.cn/default_{}.aspx'.format(str(x+1)) for x in range(1,5)]
for url in urls:
yield scrapy.Request(url,callback=self.parse)
综合第七至第九步gs.py完整代码如下:
import scrapy
from gsw.items import GswItem
class GsSpider(scrapy.Spider):
name = 'gs'
allowed_domains = ['gushiwen.cn','gushiwen.org']
start_urls = ['https://www.gushiwen.cn/default_1.aspx']
def parse(self, response):
tags = response.xpath('//div[@class="left"]/div[@class="sons"]')
for tag in tags:
title = tag.xpath('./div[@class="cont"]/p/a/b/text()').get()
source = tag.xpath('.//p[@class="source"]/a/text()').getall()
try:
author = source[0]
dynasty = source[1]
contents = tag.xpath('.//div[@class="contson"]/text()').getall()
content =''.join(contents).strip()
item = GswItem(title = title,author = author,dynasty = dynasty,content = content)
yield item
except:
print('')
#第一种翻页方式
# url_tag = response.xpath('//a[@id="amore"]/@href').get()
# if url_tag:
# next_url = response.urljoin(url_tag)
# yield scrapy.Request(next_url,callback=self.parse)
#第二种翻页方式
urls =['https://www.gushiwen.cn/default_{}.aspx'.format(str(x+1)) for x in range(1,5)]
for url in urls:
yield scrapy.Request(url,callback=self.parse)
第十步 数据保存
yield 它是一个迭代器,是将爬虫主程序的item对象(注意:在pipline文件当中 注意Item的对象 加入你引用了item文件 那么这个item不是一个dict对象 反之则是一个字典对象)传递至pipline文件中进行数据保存
- 项目管道pipline文件中def open_spider(self,spider):和 def close_spider(self,spider):相当于init()方法,是自动运行。但书写不能错误,否则会报错
- 在csv方法中,无法直接writer.writerows(item),因为对象无法直接写入,所以需要用append()方法,lst.append(item)写入
- lst和header全局变量,可以在class GswPipeline:上方直接定义,也可以在类中创建构造函数进行定义。
- pipline csv保存
import csv
class GswPipeline:
def open_spider(self,spider):
print('程序开始运行')
def __init__(self):
self.headers = ['title','author','dynasty','content']
self.lst =[]
def WriterDate(self,lst):
with open('古诗文.csv','w',encoding='utf-8',newline='')as f:
writer = csv.DictWriter(f,self.headers)
writer.writeheader()
writer.writerows(lst)
def process_item(self, item, spider):
self.lst.append(item)
self.WriterDate(self.lst)
return item
def close_spider(self,spider):
print('程序运行结束')
- 文件写入txt,因为item是一个json对象,所以需要将它转化成字符串,才能被txt文件写入。
item_json =json.dumps(dict(item),ensure_ascii=False) - pipline txt保存
class WsyjectPipeline:
def open_spider(self,spider):
self.fp = open('gsw.txt','w',encoding='utf-8')
def process_item(self, item, spider):
item_json =json.dumps(dict(item),ensure_ascii=False)
self.fp.write(item_json +'\n')
return item
def close_spider(self,spider):
self.fp.close()