这篇博文的灵感来自于EdvardHua,因为看到该大牛作者用R进行分析数据挖掘岗位的相关信息。但是作为对R不是很熟悉的人来说,理解起来甚是困难,同时我也对其数据集进行进一步的优化,使得该灵感可以更加完美的运用在Python之中,其实这篇博文也说明现在的数据挖掘岗位的两种主流语言,一个是R语言另外一个则是Python。
接下来我们就用以Python的角度进行数据挖掘岗位的分析,在这里我主要使用了使用了pycharm IDE。而且使用的库主要为pandas,matplotlib以及seaborn,文件打开器EmEditor(一个超大文本极速打开的神器)
言归正传,首先我们先对原数据集名为“position_after_cleaning”文件进行处理。因为这个CSV文件把所有的内容都写入到一行之中了。这个对调用pandas进行处理有点不方便,所以我首先拿它开刀。将其按照Title以一种标准的格式存入到CSV文件中。
接下来我们便通过Python对原始数据集进行处理从而得到我们想要的数据格式,代码如下所示:
# -*- coding: UTF-8 -*-
import pandas as pd
filename = 'C:/Users/john/Desktop/JobRequirementAnalysis-master/cache/position_after_cleaning.csv'
outputfile = 'C:/Users/john/Desktop/JobRequirementAnalysis-master/cache/position_final.csv'
# data = pd.read_csv(filename,encoding='utf8',header=None)
# print(data)
content = []
data = open(filename, encoding='utf8')
for i in data.readlines():
i = i.strip().split(' ')
content.append(i)
final = {}
positionId = []
city = []
industyField = []
companyShortName = []
companySize = []
financeStage = []
education = []
workYear = []
positionName = []
salary = []
requirement = []
for content_one_by_one in content:
positionId.append(content_one_by_one[0].replace('"', ''))
city.append(content_one_by_one[1].replace('"', ''))
industyField.append(content_one_by_one[2].replace('"', ''))
companyShortName.append(content_one_by_one[3].replace('"', ''))
companySize.append(content_one_by_one[4].replace('"', ''))
financeStage.append(content_one_by_one[5].replace('"', ''))
education.append(content_one_by_one[6].replace('"', ''))
workYear.append(content_one_by_one[7].replace('"', ''))
positionName.append(content_one_by_one[8].replace('"', ''))
salary.append(content_one_by_one[9].replace('"', ''))
requirement.append(content_one_by_one[10].replace('"', ''))
final = {'positionId': positionId, 'city': city, 'industyField': industyField, 'companyShortName': companyShortName,
'companySize': companySize, 'financeStage': financeStage, 'education': education, 'workYear': workYear,
'positionName': positionName, 'salary': salary, 'requirement': requirement}
frame = pd.DataFrame(final)
frame.to_csv(outputfile,encoding='utf8')
以上便是处理流程,但是由于本人水平有限,没有想好如何进行代码精简。所以我们在这里才看到如此之多的代码重复。还希望有大神可以帮助解决这一问题。
这样再进行观察我们的数据是不是感觉舒爽了许多。(PS:典型的强迫症患者)接下来我们就可以很愉快的进行文本分析操作了。首先我拿到这样的数据集,最想要做的事情就是知道哪个城市拥有的数据挖掘岗位最多。。毕竟我们如果知道北京数据挖掘岗位最多,我们不能还任性的跑到西藏去找工作吧。这就有点随心所欲,我骄傲的感觉了吧。
处理流程是这样的:首先我需要先统计在'city'这一列中共有多少个不同的城市,并且每个城市出现了多少次。每一次的出现都代表了该城市都有一个职位,出现多少次就代表有多少职位在等待(我的Job在未来的某个地方等着我,永远在等待),然后绘制出来直方图更形象的展示出来。
# -*- coding: UTF-8 -*-
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import chardet
import sys
sns.set_style('whitegrid',{'font.sans-serif':['simhei','Arial']})
filename = 'C:/Users/john/Desktop/JobRequirementAnalysis-master/cache/position_final.csv'
data = pd.read_csv(filename)
# print(data['city'].unique())
# print(data[data['city']=='北京'].shape[0])
city_name = data['city'].unique()
city_job_count = []
for name in city_name:
city_job_count.append(data[data['city'] == name].shape[0])
print(city_name)
print(city_job_count)
city_info = dict(zip(city_name, city_job_count))
# print(city_info)
frame = pd.DataFrame([city_info])
plt.figure(figsize=(10,10))
sns.barplot(city_name,city_job_count)
plt.show()
输出台显示如下所示:
图表显示如下:
通过分析可知北京,上海,深圳,广州,杭州是数据挖掘岗位的集中地。这很符合实际情况。这也表明如果我们想找到理想的工作也只能去这些地方喽。
但是知道这些公司的分布之后我们同样需要知道这些公司的水平如何,因为如果一个小卖部招收数据挖掘岗位你也去吗?!!!
话又说回来了。如何评判一个公司好不好。在这里主要通过其公司规模大小来评判。譬如该公司是上市公司。。那总不能差到哪去吧。
company_financeStage_name=data['financeStage'].unique()
company_financeStage_count=[]
for name in company_financeStage_name:
company_financeStage_count.append(data[data['financeStage']==name].shape[0])
plt.figure(figsize=(10,10))
# sns.barplot(company_financeStage_name,company_financeStage_count)
# plt.show()
# print(company_financeStage_name)
# sns.factorplot(x='city',kind='count',data=data,col='financeStage')
sns.barplot(company_financeStage_name,company_financeStage_count)
plt.show()
然后我们得到这样一张图表:
通过分析可知,数据挖掘专业的技术含量还是很高的。因为可以明显看到上市公司对数据挖掘岗位的需求量明显更大。在得到该图表之后我们再对工资分布做一下分析。
company_financeStage_name=data['financeStage'].unique()
company_financeStage_count=[]
for name in company_financeStage_name:
company_financeStage_count.append(data[data['financeStage']==name].shape[0])
plt.figure(figsize=(20,20))
sns.factorplot(x='financeStage',kind='count',data=data,col='salary',col_wrap=2,legend=True)
plt.show()
最终我们得到这样一张图:
通过这张图可以得知:
1.上市公司薪水一般在21—30K
2.成熟型公司薪水一般在26-30K
简单的说,数据挖掘岗位的福利待遇还是相当好的。但是这个并不能反映出学历对其的影响,接下来我们来看一下学历是否对薪水有影响。
从图表中我们可以看出,工作3-5年无论在哪个阶段薪水都比较高,同时我们也可以看不出应届毕业生现在在社会上的尴尬地位。现在已经不再是大学生养尊处优的阶段了。我们需要摆正自己的心态。以更好的态度去迎接自己的工作生涯。
接下来,我们就来看看各种类型的公司都需要哪些人才,譬如是迎接毕业生呢?还是已经拥有工作经历了呢?
哎!哎!哎!其实我是不情愿看到这个结论的。。。。。。因为我们可以发现无论在哪个类型的公司其所需要的很大一部分都是拥有工作经历的。。。而作为还在读研究生的我来说,没有工作经验好忧伤,,一股淡淡的蛋疼袭来。。。突然间我就开始担心自己的未来工作生涯了。。。。但是无论如何,还是得要天天充满激情的生活!!!这才是正确的生活态度
当然我本来还想对招聘内容做一下分析,但是看到这样的实验结果图已经脑子没有心情做事情了,还有一方面的原因是自己现在在NLP方向还需要进一步的思考,这样我才可以流畅的书写下来。未来的一天我会专门的对这个数据集进行文本分析。当然看到数据挖掘方面如此高的薪资水平,更加坚定了我要继续这方面的努力。愿诸位安好。
当然代码我会在接下来的时间整理好放到我的github