Scrapy采集任务0523

标签: 信息检索


一、采集任务

1.任务描述

采集四川大学公共管理学院128位教师信息(结合教师详情页信息)
整体思路:先抓取导航页教师信息,然后跳转到详情页,获取补充信息。

2.数据来源

http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18&page_1=&page_1_page=1

二、网页结构分析

1.导航页

可抓取教师姓名、教师职称、教师所在系、教师邮箱信息、教师url(指向详情页)
分页的实现可以通过两种方式实现:
1.观察网页url规律(http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18&page_1_page=
2.直接获取下一页的链接(这里采用第二种方式)

2.详情页

根据导航页的教师url跳转到详情页,可进一步抓取教师简介、教师研究成果、教师获奖、教师人才培养、教师科研项目信息

三、数据采集

1. 创建一个Scrapy项目

scrapy startproject teacher
1.PNG

2.定义提取的Item

class TeacherItem(scrapy.Item):
    # 教师名字
    teacher_name = scrapy.Field()
    # 教师职称
    teacher_zhicheng = scrapy.Field()
    # 教师院系
    teacher_department = scrapy.Field()
    # 教师邮箱
    teacher_email = scrapy.Field()
    # 教师简介
    teacher_description = scrapy.Field()
    # 教师研究成果
    teacher_finding = scrapy.Field()
    # 教师获奖
    teacher_award = scrapy.Field()
    # 教师科研项目
    teacher_program = scrapy.Field()
    # 教师人才培养
    teacher_education = scrapy.Field()
    # 教师详细信息地址
    teacher_url = scrapy.Field()
    pass

3. 编写爬取网站的 spider 并提取 Item

3.1编写初始spider

tips:分析网页结构,使用递归、循环,抓取一级网页128位教师信息

import scrapy
from teacher.items import TeacherItem
class TeacherSpider(scrapy.Spider):
    name = "teacher"
    start_urls = []
    for pn in range(1,17):
        url='http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18&page_1=&page_1_page='+ str(pn)
        start_urls.append(url)
    def  parse(self, response):
        for teacher in response.xpath('//div[@class="r fr"]'):
            yield {
                'teacher_name': teacher.xpath('h3[@class="mb10"]/text()').extract_first(),
                'teacher_zhicheng': teacher.xpath('p[@class="color_main f14"]/text()').extract_first(),
                'teacher_department': teacher.xpath('//div[@class="desc"]/p[1]/text()').extract_first(),
                'teacher_email': teacher.xpath('//div[@class="desc"]/p[last()]/text()').extract_first(),
            }

3.2爬取并存储教师信息

scrapy crawl teacher -o teacher1.json
2.PNG

3.PNG

4.修改spider

tips:将相对链接转换成绝对链接,使用urljoin方法;获取div标签下所用文本信息,使用//方式;传递参数,可采用meta。

import scrapy
import hashlib

from scrapy.selector import Selector
from teacher.items import TeacherItem


class TeacherSpider(scrapy.Spider):
  name="teacher"
  start_urls=[
    'http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18&page_1_page=1',
  ]

  def parse(self,response):
    for teacher in response.xpath("//ul[@class='teachers_ul mt20 cf']/li"):
      item=TeacherItem()
      item['teacher_name']=teacher.xpath("div[@class='r fr']/h3/text()").extract_first()
      item['teacher_zhicheng']=teacher.xpath("div[@class='r fr']/p/text()").extract_first()
      item['teacher_email']=teacher.xpath("div[@class='r fr']/div[@class='desc']/p[2]/text()").extract_first()
      item['teacher_department']=teacher.xpath("div[@class='r fr']/div[@class='desc']/p[1]/text()").extract_first()
      href=teacher.xpath("div[@class='l fl']/a/@href").extract_first()
      yield scrapy.Request(response.urljoin(href), meta={'item': item}, callback=self.parse_teacher_info)

    next_page=response.xpath("//div[@class='pager cf tc pt10 pb10 mobile_dn']/li[last()-1]/a/@href").extract_first()
    last_page=response.xpath("//div[@class='pager cf tc pt10 pb10 mobile_dn']/li[last()]/a/@href").extract_first()
    if last_page:
        next_page="http://ggglxy.scu.edu.cn/"+next_page
        yield scrapy.http.Request(next_page,callback=self.parse)

  def parse_teacher_info(self,response):
    item=response.meta['item']
    item['teacher_description'] = response.xpath("//div[@class='desc']/text()").extract()
    item['teacher_finding'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[2]//text()').extract())
    item['teacher_award'] = "".join (response.xpath('/html/body/div[3]/div[2]/div/div[3]//text()').extract())
    item['teacher_program'] ="".join (response.xpath('/html/body/div[3]/div[2]/div/div[4]//text()').extract())
    item['teacher_education'] = "".join (response.xpath('/html/body/div[3]/div[2]/div/div[5]//text()').extract())
    yield item```
###5.抓取并存储最终教师信息。
可保存为json,xml等格式,为阅读方便,这里采用csv格式。

scrapy crawl teacher2 -o teacher.json
scrapy crawl teacher2 -o teacher.xml

![image.png](http://upload-images.jianshu.io/upload_images/5778083-8903e0b6a042290a.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
![image.png](http://upload-images.jianshu.io/upload_images/5778083-ebfc5e7bc2603749.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)


##问题小结
##1 meta的使用
为避免数据的重复爬取和保证数据一一对应,这里采用meta方法。首先:获取导航页的信息,并且通过保存到meta中,利用request将保存的值(整个实例)全部传到详情页,然后,在详情页中直接调用,并输出
##2 图片爬取
现阶段思考了爬取图片,需要import hashlib,思路大概是先获取所有图片地址,然后存储所有图片本地地址和图片名(暂未实现)
##3 选择器的使用
from scrapy.selector import Selector(在官方文档中出现,不确定是否默认支持,测试了发现应该是默认支持的,这句话可以不写)
##4 大文本多个段落的文字合并
直接用"".join(response.xpath('路径//text()').extract())方法
##5 csv导出
直接生成CSV文件后,先使用记事本打开,另存成ANSI编码,可解决Excel打开乱码的问题


阅读材料:
[scrapy官方文档](http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容