scrapy爬虫登陆后爬取

直接上代码例子：

import scrapy
import requests
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.http import Request, FormRequest, HtmlResponse
from spiderman.items import SpidermanItem

class ItjuziWebSpider(CrawlSpider):
    name = "itjuziweb"
    allowed_domains = ["itjuzi.com"]

    start_urls =["https://www.itjuzi.com/user/login"]

    rules = (
        Rule(LinkExtractor(allow=('http://www.itjuzi.com/company\?page=\d+', ))),

        Rule(LinkExtractor(allow=('http://www.itjuzi.com/company/\d+', )), callback='parse_item'),
    )

    def __init__(self, *a, **kw):
        super(ItjuziWebSpider, self).__init__(*a, **kw)

        self.cookie = ''
        self.resp = requests.Session()
        self.request_headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko",
            "Referer": "https://www.itjuzi.com",
        }

        self.post_headers = {
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
            "Accept-Encoding": "gzip, deflate",
            "Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6",
            "Cache-Control": "no-cache",
            "Connection": "keep-alive",
            "Content-Type": "application/x-www-form-urlencoded",
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
            "Referer": "https://www.itjuzi.com/",
        }



    def parse_start_url(self, response):
        # 登陆成功后, 会调用after_login回调函数
        print('Preparing login')
        url = 'https://www.itjuzi.com/user/login'
        post_data = {
              'identity':'linzikristy@qq.com',
              'password':'a761177953z',
              'remember':'1',
              'page':'',
              'url':'',
          }
        r = self.resp.post(url, headers=self.post_headers, data=post_data)
        cookie_dict = {}
        for x in r.cookies:
            cookie_dict[x.name] = x.value
        self.cookie = cookie_dict

        # self.after_login()
        yield Request('http://www.itjuzi.com/company?page=1',headers=self.post_headers, cookies=self.cookie)


    def parse_item(self, response):
        self.log('Hi, this is an item page! %s' % response.url)

        item = SpidermanItem()
        item['item_id'] = response.xpath("//*[@id='modal_myinc']/div/div/div[2]/div/form/input/@value").extract()[0]
        item['item_name'] = response.xpath("//input[contains(@name,'com_name')]/@value").extract()[0]
        item_logo = response.xpath("//div[contains(@class,'rowhead')]/div[contains(@class,'pic')]/img/@src").extract()
        if item_logo is None:
            item['item_logo'] = ''
        else:
            item['item_logo'] = ','.join(item_logo)
        item['item_brief'] = response.xpath("//meta[@name='Description']/@content").extract()[0]
        item_area = response.xpath("//div[contains(@class,'tagset dbi c-gray-aset')]/a/span/text()").extract()
        if item_area is None:
            item['item_area'] = ''
        else:
            item['item_area'] = ','.join(item_area)
        item_CEO = response.xpath("//a[contains(@class,'title')]//span[contains(@class,'c')][1]/text()").extract()
        if item_CEO is None:
            item['item_CEO'] = ''
        else:
            item['item_CEO'] = ','.join(item_CEO)
        item_round = response.xpath("//span[contains(@class,'t-small c-green')]/text()").extract()
        if item_round is None:
            item['item_round'] = ''
        else:
            item['item_round'] = ','.join(item_round).strip(',').strip('\n').strip('\t').strip('\n').strip('(').strip(')');

        item_website = response.xpath("//input[contains(@name,'com_url')]/@value").extract()
        if item_website is None:
            item['item_website'] = ''
        else:
            item['item_website'] = ','.join(item_website).strip(',')

        item['item_from'] = 'IT桔子'
        item['item_phone'] = ''
        item['item_email'] = ''
        item_weixin = response.xpath("//li[@class='wx-text']/a/text()").extract()
        if item_weixin is None:
            item['item_weixin'] = ''
        else:
            item['item_weixin'] = ','.join(item_weixin).strip(',').strip(' ')

        item_weibo = response.xpath("//div[@class='link-line']/a[1]/@href").extract()
        if item_weibo is None:
            item['item_weibo'] = ''
        else:
            item['item_weibo'] = ','.join(item_weibo).strip(',').strip(' ')

        item['item_from_website'] = response.url
        item_address = response.xpath("//span[contains(@class,'loca c-gray-aset')]/a/text()").extract()
        if item_address is None:
            item['item_address'] = ''
        else:
            item['item_address'] = ','.join(item_address).strip(',').strip(' ')
        return item

最后编辑于：2017.12.09 01:28:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345

scrapy爬虫登陆后爬取

推荐阅读更多精彩内容