从拉勾网分析数据挖掘岗位

这篇博文的灵感来自于EdvardHua，因为看到该大牛作者用R进行分析数据挖掘岗位的相关信息。但是作为对R不是很熟悉的人来说，理解起来甚是困难，同时我也对其数据集进行进一步的优化，使得该灵感可以更加完美的运用在Python之中，其实这篇博文也说明现在的数据挖掘岗位的两种主流语言，一个是R语言另外一个则是Python。

接下来我们就用以Python的角度进行数据挖掘岗位的分析，在这里我主要使用了使用了pycharm IDE。而且使用的库主要为pandas，matplotlib以及seaborn，文件打开器EmEditor(一个超大文本极速打开的神器)
言归正传，首先我们先对原数据集名为“position_after_cleaning”文件进行处理。因为这个CSV文件把所有的内容都写入到一行之中了。这个对调用pandas进行处理有点不方便，所以我首先拿它开刀。将其按照Title以一种标准的格式存入到CSV文件中。

原始数据集.png

接下来我们便通过Python对原始数据集进行处理从而得到我们想要的数据格式，代码如下所示：

# -*- coding: UTF-8 -*-
import pandas as pd
filename = 'C:/Users/john/Desktop/JobRequirementAnalysis-master/cache/position_after_cleaning.csv'
outputfile = 'C:/Users/john/Desktop/JobRequirementAnalysis-master/cache/position_final.csv'
# data = pd.read_csv(filename,encoding='utf8',header=None)
# print(data)
content = []
data = open(filename, encoding='utf8')
for i in data.readlines():
    i = i.strip().split(' ')
    content.append(i)
final = {}
positionId = []
city = []
industyField = []
companyShortName = []
companySize = []
financeStage = []
education = []
workYear = []
positionName = []
salary = []
requirement = []
for content_one_by_one in content:
    positionId.append(content_one_by_one[0].replace('"', ''))
    city.append(content_one_by_one[1].replace('"', ''))
    industyField.append(content_one_by_one[2].replace('"', ''))
    companyShortName.append(content_one_by_one[3].replace('"', ''))
    companySize.append(content_one_by_one[4].replace('"', ''))
    financeStage.append(content_one_by_one[5].replace('"', ''))
    education.append(content_one_by_one[6].replace('"', ''))
    workYear.append(content_one_by_one[7].replace('"', ''))
    positionName.append(content_one_by_one[8].replace('"', ''))
    salary.append(content_one_by_one[9].replace('"', ''))
    requirement.append(content_one_by_one[10].replace('"', ''))
final = {'positionId': positionId, 'city': city, 'industyField': industyField, 'companyShortName': companyShortName,
         'companySize': companySize, 'financeStage': financeStage, 'education': education, 'workYear': workYear,
         'positionName': positionName, 'salary': salary, 'requirement': requirement}
frame = pd.DataFrame(final)
frame.to_csv(outputfile,encoding='utf8')

以上便是处理流程，但是由于本人水平有限，没有想好如何进行代码精简。所以我们在这里才看到如此之多的代码重复。还希望有大神可以帮助解决这一问题。

处理之后数据集.png

这样再进行观察我们的数据是不是感觉舒爽了许多。（PS：典型的强迫症患者）接下来我们就可以很愉快的进行文本分析操作了。首先我拿到这样的数据集，最想要做的事情就是知道哪个城市拥有的数据挖掘岗位最多。。毕竟我们如果知道北京数据挖掘岗位最多，我们不能还任性的跑到西藏去找工作吧。这就有点随心所欲，我骄傲的感觉了吧。
处理流程是这样的：首先我需要先统计在'city'这一列中共有多少个不同的城市，并且每个城市出现了多少次。每一次的出现都代表了该城市都有一个职位，出现多少次就代表有多少职位在等待（我的Job在未来的某个地方等着我，永远在等待），然后绘制出来直方图更形象的展示出来。

# -*- coding: UTF-8 -*-
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import chardet
import sys
sns.set_style('whitegrid',{'font.sans-serif':['simhei','Arial']})
filename = 'C:/Users/john/Desktop/JobRequirementAnalysis-master/cache/position_final.csv'
data = pd.read_csv(filename)
# print(data['city'].unique())
# print(data[data['city']=='北京'].shape[0])
city_name = data['city'].unique()
city_job_count = []
for name in city_name:
    city_job_count.append(data[data['city'] == name].shape[0])
print(city_name)
print(city_job_count)
city_info = dict(zip(city_name, city_job_count))
# print(city_info)
frame = pd.DataFrame([city_info])
plt.figure(figsize=(10,10))
sns.barplot(city_name,city_job_count)
plt.show()

输出台显示如下所示：

城市数与其职位统计.png

图表显示如下：

各城市职位统计.png

通过分析可知北京，上海，深圳，广州，杭州是数据挖掘岗位的集中地。这很符合实际情况。这也表明如果我们想找到理想的工作也只能去这些地方喽。
但是知道这些公司的分布之后我们同样需要知道这些公司的水平如何，因为如果一个小卖部招收数据挖掘岗位你也去吗？！！！
话又说回来了。如何评判一个公司好不好。在这里主要通过其公司规模大小来评判。譬如该公司是上市公司。。那总不能差到哪去吧。

company_financeStage_name=data['financeStage'].unique()
company_financeStage_count=[]
for name in company_financeStage_name:
    company_financeStage_count.append(data[data['financeStage']==name].shape[0])
plt.figure(figsize=(10,10))
# sns.barplot(company_financeStage_name,company_financeStage_count)
# plt.show()
# print(company_financeStage_name)
# sns.factorplot(x='city',kind='count',data=data,col='financeStage')
sns.barplot(company_financeStage_name,company_financeStage_count)
plt.show()

然后我们得到这样一张图表：

公司类型.png

通过分析可知，数据挖掘专业的技术含量还是很高的。因为可以明显看到上市公司对数据挖掘岗位的需求量明显更大。在得到该图表之后我们再对工资分布做一下分析。

company_financeStage_name=data['financeStage'].unique()
company_financeStage_count=[]
for name in company_financeStage_name:
    company_financeStage_count.append(data[data['financeStage']==name].shape[0])
plt.figure(figsize=(20,20))
sns.factorplot(x='financeStage',kind='count',data=data,col='salary',col_wrap=2,legend=True)
plt.show()

最终我们得到这样一张图：

薪水分布图.png

通过这张图可以得知：
1.上市公司薪水一般在21—30K
2.成熟型公司薪水一般在26-30K
简单的说,数据挖掘岗位的福利待遇还是相当好的。但是这个并不能反映出学历对其的影响，接下来我们来看一下学历是否对薪水有影响。

学历对薪水的影响.png

从图表中我们可以看出，工作3-5年无论在哪个阶段薪水都比较高，同时我们也可以看不出应届毕业生现在在社会上的尴尬地位。现在已经不再是大学生养尊处优的阶段了。我们需要摆正自己的心态。以更好的态度去迎接自己的工作生涯。
接下来，我们就来看看各种类型的公司都需要哪些人才，譬如是迎接毕业生呢？还是已经拥有工作经历了呢？

公司需要人才分布图.png

哎！哎！哎！其实我是不情愿看到这个结论的。。。。。。因为我们可以发现无论在哪个类型的公司其所需要的很大一部分都是拥有工作经历的。。。而作为还在读研究生的我来说，没有工作经验好忧伤，，一股淡淡的蛋疼袭来。。。突然间我就开始担心自己的未来工作生涯了。。。。但是无论如何，还是得要天天充满激情的生活！！！这才是正确的生活态度
当然我本来还想对招聘内容做一下分析，但是看到这样的实验结果图已经脑子没有心情做事情了，还有一方面的原因是自己现在在NLP方向还需要进一步的思考，这样我才可以流畅的书写下来。未来的一天我会专门的对这个数据集进行文本分析。当然看到数据挖掘方面如此高的薪资水平，更加坚定了我要继续这方面的努力。愿诸位安好。
当然代码我会在接下来的时间整理好放到我的github

最后编辑于：2017.12.06 03:48:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

从拉勾网分析数据挖掘岗位

推荐阅读更多精彩内容