今天学习了秦路大师的Excel实战分析的文章,本文是自己学习过程的总结,分享给大家。
首先,了解一下什么是数据分析。 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析简化的过程分为五个步骤:明确目的,观察数据,清洗数据,分析过程,得出结论。 做数据分析的工具有很多,Excel是最基础的数据分析工具,虽然基础,但是功能强大,本文中使用的工具是mac版excel。使用的数据是秦璐文章中提供的数据。
一、明确目的
数据分析首先要知道自己的目的,为什么要分析,想要得出什么结论。一切数据分析都是以业务为核心目的,而不是以数据为目的。
有了目标之后才能开始分析数据。目标不需要很大,可以很简单,比如例如客户每季度付费的平均值等。因为有了平均值可以想数字比预期是高了还是低了,原因在哪里,数据靠谱吗?为了找出原因还需要哪些数据。 本文用的数据是五千多条数据分析师的岗位数据。分析之前我们可以先定一个目标,想让这个数据反馈给自己什么结果。比如:它的工资是什么范围,它需要哪些能力,大部分公司在哪些地方等。有了目标和方向后,后续则是将目标拆解为实际过程。
二、观察数据
拿到数据后先观察数据。
先看一下有哪些列, city:城市, companyFullName:公司全名, companyId:公司ID,positionName:职位名称, positionLables:职位标签, salary:薪水, workYear:工作年限要求等等....... 首先看一下哪些字段我们可以先不管,把这些数据我们先隐藏,尽量不删除数据,而是隐藏,保证原始的完整性。
三、数据清洗和转换
1.数据有无缺失值
数据的缺失值很大程度上影响分析结果。如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。本次使用的数据虽然有部分缺失,但是比例不大,所以不影响分析。
2.数据是否一致化
一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司,差别就在一个市字,主观上肯定会认为是同一家公司,但是对机器和程序依旧会把它们认成两家。会影响计数、数据透视的结果。
3.数据是否有脏数据
脏数据是分析过程中很讨厌的环节。例如乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。 那我们看表格中有没有重复数据。首先找到该数据中可以唯一标示每行的列,然后对该列做重复项删除操做。
4.数据标准结构
数据标准结构,就是将特殊结构的数据进行转换和规整。 表格中,公司所在商圈就是以数组形式保存。我们得将这类格式拆分开来。 薪水的话用了几K表示,但这是文本,并不能直接用于计算。而且是一个范围,后续得按照最高薪水和最低薪水拆成两列。
5.数据清洗
上面提到数据需要先进行清洗才能继续分析。我们可以新建Sheet,方便和原始数据区分开来。
首先我们来清洗薪水,将salary拆成最高薪水和最低薪水。
先用 =FIND("k",P2,1)。查找第一个K(最低薪酬)出现的位置。我们知道第一个k出现的位置,此时=LEFT(P2,FIND("k",P2,1))得到的结果就是 7K,要去除掉k,FIND("k",P2,1)再减去1即可。
最高薪水也是同样的思路,但不能使用k,因为第二个薪水位置不固定。需要利用find查找"-"位置,然后截取 从"-" 到最后第二个位置的字符串。=MID(P2,FIND("-",P2,1)+1,LEN(P2)-FIND("-",P2,1)-1)
我们检查一下有没有错误,利用筛选功能快速定位。发现有错误,看一下原因,然后把错误解决掉。
然后我们来清洗商圈信息。因为数据格式比较标准,所以直接用分列即可。多余的符号直接替换。大家需要注意,分列会覆盖掉右列单元格,所以记得复制到最后一列再分。
四、分析过程
接下来清洗positionName,然后分析。数据中有很多非数据分析师职位,所以我们需要排除掉明显不是数据分析师的岗位。单独针对positionName用数据透视表。统计各名称出现的次数。
然后用find和数组函数结合 =IF(COUNT(FIND({"数据分析","数据运营","分析师"},N2)),"1","0"),就得到了包含这三个关键字的职位。1为包含,0不包含。将1过滤出来,这就是需要分析的最终数据。
还可以用透视表分析哪些城市的数据分析岗位比较多,工作几年的应聘者更吃香。分析过程主要使用数据透视表进行多维度分析。
五、得出结论
最后根据分析出来的结果,然后得出自己想要的结论。