爬虫----scrapy基础

1.scrapy概述

使用Python开发的主要进行数据采集的一个应用程序框架,核心使用它来进行爬虫程序的快速开发,底层使用了twisted异步模块,所以在进行数据采集下载时效率非常高!

2.安装

    pip install scrapy
    或者
    easy_install scrapy

    PS:在windows上运行项目会出现问题,
    #如果出现类似于WinError这样的的问题,请安装下面的模块
    # 安装pypiwin32模块,用于scrapy模块可能调用win底层C库进行函数操作
    pip install pypiwin32

3.创建项目

scrapy startproject <spider_name>

创建好的项目文件结构如下:

|-- myspider/ 项目根目录
  |-- scrapy.cfg 项目配置文件 [cfg: config]
  |-- myspider/ 爬虫模块->爬虫程序开发都在这个模块中
    |-- spiders/ 爬虫程序所在的目录
    |-- items.py 采集的数据->定义封装模型类的模块
    |-- pipelines.py 采集的数据->采集完成之后进行数据验证、存储的模块
    |-- middlewares.py 中间件定义的模块
    |-- settings.py 项目设置模块

4.爬虫开发

    1. 明确自己爬取网页获取的信息定义item类型,封装字段。
      items.py文件
        import scrapy
    
        class ZhilianItem(scrapy.Item):
            # 定义属性字段
            job = scrapy.Field()
            company = scrapy.Field()
            salary = scrapy.Field()
    
    1. 开发具体爬虫代码
    • 执行命令自动创建爬虫文件
      scrapy genspider zhilain "zhilian.cn"
      将创建一个名为zhilian的爬虫,并指定爬取域的范围:"zhilian.cn"

    • 在spiders文件夹里手动新建爬虫文件 zhilain.py

    代码:

      import scrapy
    
      class ZhilianSpider(scrapy.Spider):
          #修改设置,设置符合自己需求
          name = "zhilain"
          allowed_domains = ["zhilian.cn"]
          start_urls = (
              'http://www.itcast.cn/',
          )
    
          def parse(self, response):
              pass
    

    在spiders/zhilianspider.py模块中定义ZhilianSpider类型
    继承自scrapy.Spider
    类型中的属性:name属性~爬虫名称,用于在命令行启动爬虫时调用
    类型中的属性:start_urls属性~采集数据的初始url地址[列表、元组]
    类型中的属性:allowed_domains属性~采集数据的网站域名限制
    类型中的方法:parse(self, response)采集完数据之后自动执行的函数

    1. 数据处理
      parse(self, response)函数自动获取爬取的数据,通过自己编写筛选获取具体需要的数据部分。
      代码:
        #先引入之前写好的item模块的封装类型函数
        from .. import items
    
        #在parse(self, response)函数里处理得到response,
        #通过xpath、css等技术筛选得到具体数据
            job_items = []
                # 将得到的数据封装成item对象
                item = items.ZhilianItem()
                item['job'] = job
                item['company'] = company
                item['salary'] = salary
                #将数据添加保存在列表里
                job_items.append(item)
            
            #这样直接保存在列表,不经过pipeline
            return job_items
            #不推荐这样,一般用管道存储在数据库里
    
  • 用命令直接将数据保存成文件

  • json格式,默认为Unicode编码
    scrapy crawl zhilian -o zhilian.json
  • json lines格式,默认为Unicode编码
    scrapy crawl zhilian -o zhilian.jsonl
  • csv 逗号表达式,可用Excel打开
    scrapy crawl zhilian -o zhilian.csv
  • xml格式
    scrapy crawl zhilian -o zhilian.xml

注意:
Python2.x默认编码环境是ASCII,当和取回的数据编码格式不一致时,可能会造成乱码;

    # 可以指定保存内容的编码格式,一般情况下,添加:
    import sys
    reload(sys)
    sys.setdefaultencoding("utf-8")

    # 这三行代码是Python2.x里解决中文编码的万能钥匙,  
    # Python3学乖了,默认编码是Unicode了...
  • 数据库存储
    不在使用 job_items = [] 存储数据
    直接将获取封装的数据item交给pipelines
       #将原来的添加到列表替换
       job_items.append(item)   #删除这个换为yield
       yield item
    

当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。
pipelines.py文件

    # 导入数据库引擎对象
    from sqlalchemy import create_engine
    # 导入会话构建对象
    from sqlalchemy.orm import sessionmaker
    # 替换mysqldb模块
    import pymysql
    pymysql.install_as_MySQLdb()

    class MyspiderPipeline(object):
        def process_item(self, item, spider):
            return item
    #自定义的Pipeline处理模块
    class ZhilianPipeline(object):
        '''
        处理智联招聘数据的pipeline,负责最终的数据验证和数据存储
        '''
        def __init__(self):
            #初始化对象数据:可以用于初始化资源
                #如:打开文件、打开数据库连接等等操作
            self.engine = create_engine("mysql://数据库连接?charset=utf8")
            Session = sessionmaker(bind=self.engine)
            self.session = Session()

        def open_spider(self, spider):
            #爬虫开启时需要调用的函数,经常用于数据初始化
            pass

        def close_spider(self, spider):
            '''
            爬虫程序关闭时自动调用的函数
            经常用于做一些资源回收的工作,如:关闭和数据库的会话连接
            '''
             # 提交数据,断开连接
            self.session.commit()
            self.session.close()

        def process_item(self, item, spider):
            '''
            该函数会在爬虫采集并封装好Item对象时自动调用
            函数中针对item数据进行验证和存储
            '''
            print ">>>>>>>>>zhilian pipelines invoking......."
            # 定义sql语句
            sql = "insert into job(job, company, salary) values('%s', '%s', '%s')"\
                % (item['job'], item['company'], item['salary'])
            # 执行sql语句
            self.session.execute(sql)

settings.py文件

    #更改初始设置,将我们自己定义的添加到设置里
    ITEM_PIPELINES = {
        #'mySpider.pipelines.SomePipeline': 300,
        "mySpider.pipelines.ZhilianPipeline":300,
    }

只需启动爬虫 scrapy crawl zhilain 即可在数据库查看获取数据。

样图:

1.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容