项目简介
自学数据分析的相关技能有一段时间,到现在也算学到不少内容,接下来打算慢慢找工作。在这之前打算将之前学的东西,练习一遍,慢慢增加熟悉度。本项主要打算复习,urllib、numpy、pandas和matplotlib的几个库。
既然想要从事数据分析这个岗位,那自然首先需要对这个岗位有所了解。最直接、最真实的方式就是从企业那里获得需求讯息,这样才最能够指导自己的学习方向和简历准备。本次项目即是要利用爬虫爬取拉勾网上数据分析这一岗位的信息,然后进行一些探索和分析,以数据分析来了解‘数据分析’。
数据来源
本项目通过获取拉勾网的1800个数据岗位的招聘信息,利用urllib模块通过指定的URL抓取网页内容。之所以选择拉勾网作为本项目的数据源,主要是因为相对于其他招聘网站,拉勾网上的岗位信息非常完整、整洁,极少存在信息的缺漏,并且几乎所有展现出来的信息都是非常规范化的,极大的减少了前期数据清理和数据整理的工作。数据的具体采集方法在《Python urllib爬取拉勾网职位信息》中。
项目目的
项目主要是希望通过实际的数据,来解答一些关于数据分析岗位方面的疑惑。具体来说,针对以下几个问题:
1.数据分析岗位的需求的地域性分布?
2.数据分析师主要集中在哪些行业?
3.整个群体中数据分析师的薪酬分布情况?
4.不同城市的数据分析师薪酬分布情况?
5.该岗位对工作经验要求是怎样的?
6.工作经验对薪酬影响如何?
7.从用人单位的角度,数据分析师,需要哪些技能?
技术与工具
本项目主要分为两大部分,第一部分是数据爬取,采用的是Python的urllib库为基础,将采集的数据已csv格式保存,采用pandas库的保存方法。第二部分是数据分析,以 Python 编程语言为基础。数据分析部分主要使用 pandas 作为数据整理和统计分析的工具,matplotlib 用于图形的可视化,seaborn 库包用于图形美化。
数据分析
一、地域性分布
在拉勾网上,全国有37个城市的企业有数据分析师的人才需求,其中将近一半需求产生在北京市,需求量全国第一。排在前5的分别是:北京、上海、深圳、杭州、广州。
数据分析这一职业大量集中在北上广深四大一线城市,以及杭州这个互联网和电子商务企业的聚集地。北京市巨大的需求比重令我稍感意外,不过,考虑到拉勾网是一个偏重互联网相关行业的招聘平台,而我国大量互联网企业在北京聚集,这个结果倒也算合理。
总而言之,可以得出一个清晰的结论:数据分析这一岗位,有大量的工作机会集中在北上广深以及杭州,期待往这个方向发展的同学还是要到这些城市去多多尝试。当然,从另一个方面说,这些城市也都集中了大量的各行业人才,竞争压力想必也是很大的。
二、行业需求分布
在拉勾网上,主要有19个行业有数据分析师人才方面的需求,主要集中在移动互联网行业和金融行业。
数据收集和数据存储技术的快速进步,互联网企业能够积累大量的用户数据,因此会有大量的数据分析需求;金融行业一直存在数据分析的需求。数据分析岗位已经逐渐向各行各业渗透,移动互联网、金融、数据服务等行业,会存在大量的数据分析人才需求。
三、薪酬分布
3.1 总体薪酬分布
如同大多数其他工作一样,数据分析师的薪酬也是一个右偏分布。
大多数人的收入集中在5k-30k每月,只有少数人能够获得更高的薪酬,但有极少数人薪酬极高,让人充满期待。需要说明的是,拉勾网上的薪酬值是一个区间值,并且相互之间互有重叠,为了便于分析,我取区间的中值作为代表值进行的分析。因此,实际的薪酬分布情况可能会比图中的情况更好一些。总是有人能够拿到薪酬的上限。
综合来看,数据分析师的薪酬收入整体还是可观的,从这方面说,选择这个职业还是不错的。
3.2 不同城市薪酬分布
忽略掉那些人才需求量比较小的城市,我重点关注排名前六的城市。
从图上看,这六大城市的薪酬分布情况总体来说都比较集中,这和我们前面看到的全国的薪酬总体情况分布是一致的。北京市薪酬分布中位数大约在18k,居全国首位。其次是上海、深圳、杭州,约15k,之后是广州和成都。
深圳会出现极少数人薪酬极高,给人不少惊喜。从待遇上看,数据分析师留在北京发展是个不错的选择。
四、经验需求分布
4.1 总体经验需求分布
不出所料的,工作经验的需求分布近似于正态分布。
工作1-3年经验的熟手需求量最大,其次是3-5年工作经验的资深分析师。工作经验不足1年的新人,市场需求量比较少。另外,工作经验要5-10年的需求量非常稀少,而10年以上的更是凤毛麟角。
从这个分布我们大致可以猜测出:
数据分析是个年轻的职业方向,大量的工作经验需求集中在5年以内;对于数据分析师来说,5年是个瓶颈期,如果在5年之内没有转型或者质的提升,大概以后的竞争压力会比较大。
4.2 不同经验需求分布
毫无疑问的,随着经验的提升,数据分析师的薪酬也在不断提高。
五、职业技能关键词
对关键词按照200+职位需求出现的频次进行排序,去除无效的关键词,选取频次出现超过5次的关键词。目前筛选的方式只是选取英文关键词。
对于数据分析师这一岗位,企业需求频率最高的技能并不是 Python 语言和R语言等如今非常时髦的数据分析语言,而是传统的结构化查询语言SQL和表格神器Excel。这一点需要各位小伙伴注意,要想从事数据分析师岗位,SQL和Excel看起来是必备技能。
分析结论
通过上面的分析,我们可以得到的结论有这些:
1.数据分析这一岗位,有大量的工作机会集中在北上广深以及杭州。
2.大多数据分析师的收入集中在5k-30k每月,只有少数人能够获得更高的薪酬,但有极少数人薪酬极高,让人充满期待。
3.从待遇上看,数据分析师留在北京发展是个不错的选择,其次是深圳、上海、杭州。
4.数据分析是个年轻的职业方向,大量的工作经验需求集中在5年内。
5.对于数据分析师来说,5年似乎是个瓶颈期,如果在5年之内没有转型或者质的提升,大概以后的竞争压力会比较大。
6.随着经验的提升,数据分析师的薪酬也在不断提高,10年以上工作经验的人,能获得相当丰厚的薪酬。
7.数据分析师需求频率排在前列的技能有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等,其中SQL和Excel简直可以说是必备技能。