基于拉勾网的成都市数据科学职位分析报告

本文通过查询相关资料,明确了市场上数据科学的相关职位,继而确定了搜索职位为:数据分析师、算法工程师、数据挖掘、数据运营、数据产品经理、大数据工程师等。通过分析求职者的需求,确定了爬虫的关键词为工作经验、学历要求、公司发展阶段、公司规模、薪资待遇、岗位职责、任职要求等。采用Python软件对拉钩网的数据进行了爬取,接着将爬取的数据进行去重等清洗工作,得到可供直接分析的数据;最后通过Python和Excel等工具对数据进行分析和探索,最终得到该分析报告,以期为求职者提供高价值的参考。

1 总体指标分析

1.1学历要求

学历要求包括本科、硕士、博士、大专和不限这五类,考虑到数据行业的入门门槛较高的特点,大专以下学历能够从事相关工作属于小概率事件,因此将不限归于大专这一档。最终分析得出招聘单位对求职者的学历要求情况如下图:


图1 学历要求分布图

由图1可见,招聘岗位要求学历为本科的占比最高,达到3/4;其次为大专,占比近20%;而要求求职者为硕士及以上学历的企业占比较低,仅为6%。对原始数据进一步分析发现:学历要求为硕士及以上的职位则主要集中在算法工程师、数据挖掘等对数学要求比较高的岗位。

1.2工作经验

原始数据中存在“不限”和“1年以下”两类工作经验,从含义上讲,“不限”显然是对招聘单位对求职者的经验不作要求,因此将两者合并为 “一年以下”工作经验。最终分析得出招聘单位对求职者的工作经验要求情况如下图:


图2 工作经验分布图

由图2可知,1)要求求职者具备3-5年工作经验的岗位最多,占比达到46%;2)要求工作经验达为1-3年和5-10年的岗位分居2、3位,占比分别为28%和13%;3)对于具备1年以下工作经验的岗位也达到12.5%。可见,求职市场对具备一定工作经验,能够独立胜任工作或者具备带团队工作的人才非常需要,而对1年以下工作经验的需求,也表明该行业对人才具有一定的缺口。

1.3薪资分布

由于网站上同一岗位的薪资并不是一个确定值,而是一个范围值,为了便于进行数学上的分析,取薪资范围的上限与下限的均值作为该岗位的薪资待遇情况,同时将所得的薪资分为[0k,5k)、[5k,10k)、10k,15k)、[15k,20k)、[20k,+∞)这五个档位。最终分析得出招聘单位对求职者提供的薪资情况如下图:


图3 薪资情况分布图

由图3可知,平均月薪位于[10k,15k)范围的占比最大,超过30%;而平均月薪位于[15k,20k)范围内以及[5k,10k)范围内的占比也超过0%;值得注意的是月薪在[20k,+∞)范围内占比也达到了17%;而[0k,5k)的占比极少。
从领取的薪水与工作能力相关的角度来看,招聘岗位除了需要对业务熟练的有经验员工,也非常渴望能够带领团队的骨干型人才(薪水对应着[20k,+∞)范围)。

1.4企业规模

通过对原始数据的企业规模分析,得出招聘单位的企业规模情况如下图:


图4 企业规模分布图

从公司规模来看,职工人数在150-550人数的公司数量最多,达到220家,而15人到500人范围内的公司占比超过80%,可见招聘企业主要以中小型企业为主。

1.5企业发展阶段

通过分析原始数据的企业发展阶段,得出招聘单位的企业发展规模情况如下图:


图5 企业发展阶段分布图

从公司发展阶段来看,成长型企业和初创型企业的占比接近90%,而成熟型企业数量只占10%,可见新型企业是数据科学相关职位招聘主力军。


图6 所属行业分布图

1.6所属行业

很多企业的所属行业包含多个,并且很多行业指代不清(比如移动互联网行业),应对方式如下:1)包含多个行业的情况,认为第一个行业是其主要行业,取第一行业为其所属行业;2)对于第一个行业指代不明的情况(例如“移动互联网”),采用第二行业为其行业所属。通过分析得出招聘单位所属行业情况如下图示:


图6 所属行业分布

可见,数据相关职位需求最大的行业是电子商务、数据服务、金融等三个行业,其占比超过50%,同时需求量最大的前四个行业占比达到60%。

1.7结论

通过对拉勾网成都市数据相关岗位的分析,可以得出:
1)本科和大专学历能够满足市场上绝大多数岗位要求,要求学历为本科和大专的占比分别为70%和20%;
2)招聘岗位比较看重求职者工作经验:要求求职者具备3-5年和1-3年工作经验的岗位达到85%;但是对1年以下工作经验的人员也有一定需求,占比达到12.5%;
3)总体薪资待遇偏高:主要集中在[5k,10k)、[10k,15k)、[15k,20k)这三个区间范围内,占比达到80%;而[20k,+∞)范围的占比也能达到17.6%;
4)招聘企业主要以中小企业为主,员工人数为15-500人的公司占比达到80%;
5)绝大多数公司为成长型和初创型企业,占比达到90%:
6)从企业所处行业来看,电子商务、数据服务、金融是需求量最大的行业,占比超过50%。

2 数据探索

求职者比较关心职位要求的工作经验、学历要求和薪资待遇方面的问题,那么从统计学的角度来看,企业发展阶段和公司规模与这些因素是否具备相关性?如果具备,具体是怎样的关系?

2.1 相关性检验

很多情况下,采用参数检验的方法进行统计量的推断,但是本课题下,由于信息太少等原因,无法对总体分布形态做简单假定,因此此处采用非参数检验的方法进行相关性探讨;同时,考虑到我们分析变量为多项分类型变量,因此考虑采用卡方检验的方式进行相关性检验,其目的是通过对样本的分析,推断其总体分布是否与理论分布相吻合,从而判断两个或多个变量之间的关联性。
其基本判断过程如下:
1)假设:H0,理论次数与实际次数相符,即是卡方值χ2为0;
显著水平确定:设定该犯错误概率(即显著水平)为0.05;
计算期望值:
根据样本,采用极大似然估计计算出两两变量的期望值,并通过双向表的形式列出,双向表内部表格直接列出。
检验计算:
计算出两类变量的自由度n,并计算自由度为n,显著水平为0.05条件下的临界卡方值;通过双向表列出样本的实际次数f0。
计算卡方值:


卡方值计算公式

并比较,计算卡方值与临界卡方值,如果卡方值小于临界值,则表明这两类变量具备统计学意义上的相关性。此时可进行进一步的规律分析。

2.2 企业发展阶段探索

本节讨论企业发展阶段与学历要求、工作经验和薪资待遇等因素间的相关性,并提炼出基本规律,以指导求职者。

2.2.1 学历要求探索

1)相关性检验:

假设:H0:理论次数与实际次数相符,即是卡方值χ2为0;
显著水平确定:按照惯例,设定该犯错误概率(即显著水平)为0.05;
计算期望值:
期望值采用极大似然估计进行计算,最后达到如下期望值fe:


表1 不同类型企业学历需求期望值

检验计算:
本问题中企业的发展阶段分为三类,而工作经验分为四类,所以自由度为6;样本实际次数f0如下图所示:

表2 不同类型企业学历要求实际值

计算卡方值:



通过查表知道,自由度为6,显著水平为0.05的临界卡方值为12.59,显然计算卡方值小于临界卡方值,所以其公司发展阶段与工作经验具备统计学意义上的相关性。

2)学历要求规律分析

图7 学历要求需求量分布

图8 学历要求需求比例分布

由图7知,成长型企业招聘总人数是所以类型企业中最多,同时不同学历的需求量也是最大;由图8可知,1)不同发展阶段企业对本科学历和大专学历的要求均非常高;总占比超过90%;且随着企业的不断发展,对本科学历需求比例递增,大专学历需求比例递减;2)初创型企业和成长型企业对硕士及博士学位有一定需求,而成熟型企业需求极少;

2.2.2工作经验探索

通过卡方检验,企业发展阶段与薪资待遇具有统计学意义上的关联性。因此对其进行如下分析:


图9 工作经验需求量分布

图10 工作经验需求比例分布

由图9知,无论是对总人数的需求还是对不同经验人员的需求,成长型企业的需求量均是最多,初创型企业需求量其次;
由图10知:1)不同阶段企业对3-5年工作经验的需求比例最大,其次是1-3年工作经验,但是对两者的需求比例之和无差异,占比均为75%;2)成长型企业对3-5年工作经验人员需求比例很大,是1-3年工作经验需求比例的2倍,远超其他发展阶段企业;3)不同阶段企业对1年以下和5-10工作经验人员的需求比例相对稳定,并无大的差异。

2.2.3 薪资探索

通过卡方检验,企业发展阶段与薪资待遇具有统计学意义上的相关性。因此对其进行如下分析:


图11 薪资待遇的需求量分布图

图12 薪资待遇的需求比例分布图

由图11知,无论从总需求量还是从各个经验阶段的需求量看,呈现规律:成长型>初创型>成熟型。由图12可知,1)初创型企业对[10k,15k)范围内的需求比例最高,为其他各个范围需求量的1.7倍余;2)成长型企业对[5k,20k)范围人才的需求比例最大,且呈现规律:[10k,15k) > [15k,20k) >[5k,10k);3)成熟型企业对各个薪资待遇范围的人才需求相对均衡;4)横向对比来看,成长型企业对[20k,+∞)范围的高端人才和[0k,5k)入门级别人员的需求比例明显少于其他阶段企业。

2.2.4 结论

1)本科和大专学历可以应付绝大多数的职位需求;
2)对工作经验小于1年的求职者的需求比例超过12%,因此依然有机会;
3)无论是在求职市场上的需求总人数,还是对不同学历、工作经验和薪资情况的需求人数来说,招聘数量均呈现如下规律:成长型企业>初创型企业>成熟型企业,因此选择进入企业的优先级别如下:成长型企业>初创型企业>成熟型企业。
4)从稀缺表明价值越大的角度来看,企业对不同类型人才的需求比例越高,表明该类人才在该企业越稀缺,因而其发展空间也会相对更大。基于此,得到更进一步的择业建议:
a.本科学历更应该去成熟型企业,大专学历更应该去初创型企业,硕士及以上学历者应该选择初创或成长型企业。
b.对于3-5年工作经验人员,应优先选择成长性企业;对于1-3年工作经验优先选择初创型企业;其余工作经验人员按照3)中方法进行选择;
c.薪资要求在[10k,15k)和[20k,+∞)范围的求职者,应优先选择初创型企业,而薪资要求在[15k,20k)范围的求职者,应优先考虑成长型企业和成熟型企业,其余薪资要求求职者按照3)中方法进行选择;

2.3公司规模探索

2.3.1 学历要求探索

通过卡方检验,公司规模与学历之间具备数学统计意义上的相关性。现对其进行进一步分析,结果如下图示:


图13 不同层次学历需求量

从图13知,1)企业规模在15-500人范围内时,随着规模的扩大,其招聘人数不断增加,其中本科学历人数增多明显,大专学历需求人数基本不变;2)150-500人规模的企业对硕士学历的需求大于其他规模企业,但是需求量依然很少;3)500人以上规模企业对人才需求较少。


图14 不同层次学历需求比例

从图14来看,1)随着公司规模的扩大,对本科学历的需求比例逐渐增加,对大专学历的需求比例逐渐降低,其中,500-2000人规模的企业,本科需求比例最高,超过85%,大专需求比例最低,仅为8.5%;2)除少于15人规模的企业外,其余规模企业对本科及大专学历的需求超过90%,而对硕士及以上学历的需求极少,为6%左右;

2.3.2 工作经验探索

通过卡方检验,公司规模与工作经验具备统计学意义上的相关性。现对工作经验做如下分析:


图15 不同层次工作经验需求量

由图15可知,1)企业规模小于500人时,随着企业规模的增大,其人员总需求量及不同工作经验人员的需求量均不断增加,其中150-500人规模的企业对人才的需求最大;2)不同规模企业对3-5年工作经验的求职者需求最为旺盛,其次是1-3年工作经验的求职者;3)500人以上的企业对人才需求量相对较少。


图16 不同层次工作经验需求比例

由图16知,1)规模小于500人的企业,对5-10年及1年以下工作经验人员的需求比例相对稳定,为25%;而对1-5年范围工作经验人员需求比例维持在75%;2)规模小于500人的企业,随着规模的扩大,对3-5年工作经验需求比例不断增加,对1-3年工作经验需求比例不断降低,150-500人规模的企业对3-5年工作经验的需求比例是1-3年工作经验的2.5倍;3)500-2000人规模企业对1年以下工作经验的需求比例极少;4)2000人以上规模企业对大专学历的需求最少,而对5-10年工作经验人员的需求最高。

2.3.3 薪资探索

通过卡方检验,公司发展规模与薪资待遇存在统计学意义上的相关性。进一步分析,得到如下结果:


图17 不同薪资的需求量

由图17知,1)15到500人规模的企业,随着企业规模的增大,对人才需求量也越大,而500人以上企业对人才的需求相对较小;2)各类企业对薪资待遇位于[5k, 20k)范围的职位需求量最大,而大于20k的高端人才,需求量相对较小;


图18 不同薪资的需求比例

由图18知,1)规模大于15人的企业,对薪资待遇位于[5k, 20k)范围的职位需求最大,占比接近80%;2)15-50人规模的企业对[10k, 15k)范围的需求旺盛,占比超过40%,超过其他薪资范围比例的2倍;3)各类企业对高端人才的需求比较稳定,其占比为15%~20%;4)人数少于15人的企业,虽然总的需求数量较少,对[10k, +∞)范围内的人才需求比较旺盛,其占比超过80%,为所有企业之最。

2.3.4 结论

1)无论是在求职市场上的需求总人数,还是对不同学历、工作经验和薪资情况的需求人数来说,招聘数量均呈现如下规律:150-500人企业>50-150人企业>15-50人企业>500-2000人企业>2000人以上企业,若不考虑其他因素的情况下,求职者在选择企业时,其选择的优先级别应按照上述顺序;
2)随着企业规模的增大,对本科学历的需求比例不断增大,并且在15-500人范围内,企业规模越大,需求人数越多,因此,本科学历求职者的最优选择是150-500人规模的企业。虽然15-50人和50-150规模企业对本科学历的需求人数远多于500人以上规模企业,但是由于企业规模较小,处于发展初期,其抗风险能力可能较差,此时的选择需要求职者自行平衡风险和发展前景;
3)企业规模越大,对大专学历求职者的需求人数并没有发生明显变化,其需求比例反而下降,因此,对于大专学历求职者而言,选择规模较小的企业进行历练可能是一个比较好的选择;
4)对3-5年工作经验的求职者来说,由于不同规模企业的需求量和需求比例均是最高的,考虑上企业的平台和抗风险能力,最优选择是150-500人规模企业;
5)对于1-3年工作经验求职者,虽然随着企业规模的增加,其需求量有轻微增加,但是其需求的比例总体上是减少的,因此对于该类求职者而言,选择规模较小的企业进行历练或许是一个不错的选择。
6)对于5-10年工作经验求职者更多的应该考虑企业的发展空间,由于2000人以上企业对该类型人才的需求比例最大,因此2000人以上企业对于其是个不错的选择。
7)薪资期望在5k-20k范围的求职者,无论是需求量还是需求比例均是较高,因此求职时因更多的考虑发展空间,选择需求比例较高的规模企业或许是一个更好的选择。

2.4 企业规模与发展阶段探索

通过卡方检验发现,公司规模与公司发展阶段之间并不存在统计学意义上的相关性;

3 词云探索

通过以上分析,我们了解了成都市大数据行业的总体描述。但对于求职者而言,需要进一步了解企业招聘相关行业的岗位职责和任职要求。由于上述分析涉及到多个职位,这些职位招聘的岗位职责和任职要求并不相同,因此下文选取一个岗位(数据分析师)进行解读。

3.1 岗位职责词云分析

考虑到句子最核心的部分是名词和动词,前者表示了所要描述的对象,后者表示了对描述对象(名词)所要采取的行动,因此分别对岗位职责描述语句中的动词和名词进行词云分析。
主要过程如下:根据岗位职责的描述,通过抽取样本的方式进行自定义字典设计;通过Python jieba对爬取的岗位职责语句进行分词处理;在excel中进行分词的清洗;最后通过Python WordCloud 生成词云。最后得出的词云如下:


图19 名词词云展示

图20 动词词云展示

3.1.1 词云解读

1)名词出现频次较高的词语可以分为以下几类:(1)数据分析、数据挖掘、建模等,与分析方式相关的词语;(2)分析报告、报表、报告等,与展示方式相关的词汇;(3)策略、数据支持、商业价值、趋势等,与分析目的相关的词汇;(4)Spark、Hadoop等,与需求软件相关的词汇;
2)动词词云中出现频次较高的词语则包括:结合、理解、应用、参与、跟踪、优化、发现、管理等。

3.1.2 结论分析

我们可以有一个数据分析岗位的初略认识:结合对业务本身的理解,通过相关软件,对采集的数据进行分析和挖掘,采用报表、分析报告等形式,以达到发现运营和管理过程中的不足,挖掘出发现趋势,并给相关部门的决策行为提供数据支持。

3.2 任职要求词云分析

采用3.1中的分析思路和分析流程,得出任职要求的全部词性词云和名词词云:


图21 全部词性词云

图22 名词词云

3.2.1词云解读

1)词云中出现频次较高的词云分为:(1)相关专业、工作经验”、经验等,与经验、专业相关的词语;(2)数学、统计学等,与数学相关的词语;(3)SQL、Python、软件、Hadoop、Excel等,与软件相关的词汇;(4)熟悉、熟练使用、优先、能力、等其他词汇。

3.2.2结论解析

可以得出任职要求的初略结论:相关岗位普遍重视求职者的工作经验、相关专业等背景;要求求职者具备良好的数学基础和熟练的软件使用能力;良好的数据敏感性,较强的沟通能力、逻辑分析能力和学习能力等软技能能够帮你增分不少;相关职位表现出对某些特长的偏好,但是这需要不同岗位不同企业具体分析。

4 结束语

上文给出了成都市大数据相关岗位的整体情况描述和求职建议,但是求职者需要注意的是:
本文的思维角度是站在一个整体的角度去分析,得出的是一些共性的特点和总体趋势;而求职者面临的是具体的岗位和具体的公司,这些具体岗位和企业在共性的基础上,更多的是体现个性,因此本文实际上只是求职者思考的起点(了解职位的共性和趋势),还需要更多的去思考如何利用好该分析报告体现的共性和趋势,并根据自己的实际情况做好具体的选择。
从这一点出发,数据分析也是一样,得出的数据分析报告并不是分析问题的终点,而应该是起点,还需要去探索实际问题的个性,才能比较好的解决问题。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345

推荐阅读更多精彩内容