Excel数据简单分析

今天学习了秦路大师的Excel实战分析的文章，本文是自己学习过程的总结，分享给大家。

首先，了解一下什么是数据分析。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据分析简化的过程分为五个步骤：明确目的，观察数据，清洗数据，分析过程，得出结论。做数据分析的工具有很多，Excel是最基础的数据分析工具，虽然基础，但是功能强大，本文中使用的工具是mac版excel。使用的数据是秦璐文章中提供的数据。

一、明确目的

数据分析首先要知道自己的目的，为什么要分析，想要得出什么结论。一切数据分析都是以业务为核心目的，而不是以数据为目的。

有了目标之后才能开始分析数据。目标不需要很大，可以很简单，比如例如客户每季度付费的平均值等。因为有了平均值可以想数字比预期是高了还是低了，原因在哪里，数据靠谱吗？为了找出原因还需要哪些数据。本文用的数据是五千多条数据分析师的岗位数据。分析之前我们可以先定一个目标，想让这个数据反馈给自己什么结果。比如：它的工资是什么范围，它需要哪些能力，大部分公司在哪些地方等。有了目标和方向后，后续则是将目标拆解为实际过程。

二、观察数据

拿到数据后先观察数据。

先看一下有哪些列， city：城市， companyFullName：公司全名， companyId：公司ID，positionName：职位名称， positionLables：职位标签， salary：薪水， workYear：工作年限要求等等....... 首先看一下哪些字段我们可以先不管，把这些数据我们先隐藏，尽量不删除数据，而是隐藏，保证原始的完整性。

三、数据清洗和转换

1.数据有无缺失值

数据的缺失值很大程度上影响分析结果。如果某一字段缺失数据较多（超过50%），分析过程中要考虑是否删除该字段，因为缺失过多就没有业务意义了。本次使用的数据虽然有部分缺失，但是比例不大，所以不影响分析。

2.数据是否一致化

一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司，差别就在一个市字，主观上肯定会认为是同一家公司，但是对机器和程序依旧会把它们认成两家。会影响计数、数据透视的结果。

3.数据是否有脏数据

脏数据是分析过程中很讨厌的环节。例如乱码，错位，重复值，未匹配数据，加密数据等。能影响到分析的都算脏数据，没有一致化也可以算。那我们看表格中有没有重复数据。首先找到该数据中可以唯一标示每行的列，然后对该列做重复项删除操做。

4.数据标准结构

数据标准结构，就是将特殊结构的数据进行转换和规整。表格中，公司所在商圈就是以数组形式保存。我们得将这类格式拆分开来。薪水的话用了几K表示，但这是文本，并不能直接用于计算。而且是一个范围，后续得按照最高薪水和最低薪水拆成两列。

5.数据清洗

上面提到数据需要先进行清洗才能继续分析。我们可以新建Sheet，方便和原始数据区分开来。

首先我们来清洗薪水，将salary拆成最高薪水和最低薪水。

先用 =FIND("k",P2,1)。查找第一个K（最低薪酬）出现的位置。我们知道第一个k出现的位置，此时=LEFT(P2,FIND("k",P2,1))得到的结果就是 7K，要去除掉k，FIND("k",P2,1)再减去1即可。

最高薪水也是同样的思路，但不能使用k，因为第二个薪水位置不固定。需要利用find查找"-"位置,然后截取从"-" 到最后第二个位置的字符串。=MID(P2,FIND("-",P2,1)+1,LEN(P2)-FIND("-",P2,1)-1)

我们检查一下有没有错误，利用筛选功能快速定位。发现有错误，看一下原因，然后把错误解决掉。

然后我们来清洗商圈信息。因为数据格式比较标准，所以直接用分列即可。多余的符号直接替换。大家需要注意，分列会覆盖掉右列单元格，所以记得复制到最后一列再分。

四、分析过程

接下来清洗positionName，然后分析。数据中有很多非数据分析师职位，所以我们需要排除掉明显不是数据分析师的岗位。单独针对positionName用数据透视表。统计各名称出现的次数。

然后用find和数组函数结合 =IF(COUNT(FIND({"数据分析","数据运营","分析师"},N2)),"1","0")，就得到了包含这三个关键字的职位。1为包含，0不包含。将1过滤出来，这就是需要分析的最终数据。

还可以用透视表分析哪些城市的数据分析岗位比较多，工作几年的应聘者更吃香。分析过程主要使用数据透视表进行多维度分析。

五、得出结论

最后根据分析出来的结果，然后得出自己想要的结论。