基于scrapy框架的关于58同城招聘网站信息的爬取(一)

起因：学校项目实训，要求我们爬取招聘网站信息并对其进行分析，在此我和大家分享一下关于我爬取58同城招聘网站信息的过程和结果~

前期准备步骤：

1.搭建环境：首先把scrapy需要的环境搭建好，再次我就不赘述了，这个去百度，有很多的教程，可能有些不够全面不够准确，反正多看看，先把环境搭建好，我是在windows7下进行的安装。

2.环境搭建好后，学习scrapy框架的结构以及运行流程，具体网上也有很多介绍，我也不赘述了，提一点百度百科的解释，scrapy:Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

这个关于scrapy的中文的网站点击打开链接，大家可以学习学习，这项目，我也就学习了前面的几点知识。

代码编写过程：

1.在cmd中新建一个新项目。

scrapy startproject tc (58同城的缩写，项目名称)

2.对于该项目的items类进行编写：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class TcItem(scrapy.Item):

# define the fields for your item here like:

name = scrapy.Field() #招聘职位名称

Cpname = scrapy.Field() #公司名称

pay = scrapy.Field() #薪资待遇

edu = scrapy.Field() #学历要求

num = scrapy.Field() #招聘人数

year = scrapy.Field() #工作年限

FL = scrapy.Field() #福利待遇

以上是我给想爬取的数据定义的属性

3.在spiders中新建了一个tc_spider.py,一下是tc_spider.py的代码:

# -*- coding: utf-8 -*-

import scrapy

from tc.items import TcItem

from scrapy.selector import HtmlXPathSelector,Selector

from scrapy.http import Request

class TcSpider(scrapy.Spider):

name='tc'

allowed_domains=['jn.58.com']

start_urls=[

"http://jn.58.com/tech/pn1/?utm_source=market&spm=b-31580022738699-me-f-824.bdpz_biaoti&PGTID=0d303655-0010-915b-ca53-cb17de8b2ef6&ClickID=3"

]

theurl="http://jn.58.com/tech/pn"

theurl2="/?utm_source=market&spm=b-31580022738699-me-f-824.bdpz_biaoti&PGTID=0d303655-0010-915b-ca53-cb17de8b2ef6&ClickID=3"

for i in range(75):

n=i+2

the_url=theurl+str(n)+theurl2

start_urls.append(the_url)

def start_request(self,response):

sel = Selector(response)

sites = sel.xpath("//*[@id='infolist']/dl")

#items = []

for site in sites:

#item = DmozItem()

#item['namee'] = site.xpath('dt/a/text()').extract()

href = site.xpath('dt/a/@href').extract()

self.start_urls.append(href)

#item['company'] = site.xpath('dd/a/@title').extract()

#if site!= " " :

# items.append(item)

for url in self.start_urls:

yield self.make_requests_from_url()

def parse_item(self, response):

items2 = []

item=TcItem()

item['name']=response.xpath("//*[@class='headConLeft']/h1/text()").extract()

item['Cpname']=response.xpath("//*[@class='company']/a/text()").extract()

item['pay']=response.xpath(("//*[@class='salaNum']/strong/text()")).extract()

item['edu']=response.xpath("//*[@class='xq']/ul/li[1]/div[2]/text()").extract()

item['num']=response.xpath("//*[@class='xq']/ul/li[2]/div[1]/text()").extract()

item['year']=response.xpath("//*[@class='xq']/ul/li[2]/div[2]/text()").extract()

item['FL']=response.xpath("//*[@class='cbSum']/span/text()").extract()

dec=item['num']

items2.append(item)

return items2

def parse(self, response):

sel = HtmlXPathSelector(response)

href = sel.select("//*[@id='infolist']/dl/dt/a/@href").extract()

for he in href:

yield Request (he,callback=self.parse_item)

# 翻页

# next_page=response.xpath("//*[@class='nextMsg']/a/@href")

# if next_page:

# url=response.urljoin(next_page[0].extract())

# yield scrapy.Request(url,self.parse)

这段代码大体四个部分：①定义爬取的网站以及范围②每个属性的xpath的编写③对于每个职位的链接爬取的循环（能实现进去爬取静态的信息）④连续爬取，网页的循环

最后编辑于：2017.12.03 08:48:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

基于scrapy框架的关于58同城招聘网站信息的爬取(一)

推荐阅读更多精彩内容