Excel数据简单分析

    今天学习了秦路大师的Excel实战分析的文章,本文是自己学习过程的总结,分享给大家。

     首先,了解一下什么是数据分析。 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

     数据分析简化的过程分为五个步骤:明确目的,观察数据,清洗数据,分析过程,得出结论。 做数据分析的工具有很多,Excel是最基础的数据分析工具,虽然基础,但是功能强大,本文中使用的工具是mac版excel。使用的数据是秦璐文章中提供的数据。

    一、明确目的 

     数据分析首先要知道自己的目的,为什么要分析,想要得出什么结论。一切数据分析都是以业务为核心目的,而不是以数据为目的。 

     有了目标之后才能开始分析数据。目标不需要很大,可以很简单,比如例如客户每季度付费的平均值等。因为有了平均值可以想数字比预期是高了还是低了,原因在哪里,数据靠谱吗?为了找出原因还需要哪些数据。 本文用的数据是五千多条数据分析师的岗位数据。分析之前我们可以先定一个目标,想让这个数据反馈给自己什么结果。比如:它的工资是什么范围,它需要哪些能力,大部分公司在哪些地方等。有了目标和方向后,后续则是将目标拆解为实际过程。

    二、观察数据 

     拿到数据后先观察数据。 

     先看一下有哪些列, city:城市, companyFullName:公司全名, companyId:公司ID,positionName:职位名称, positionLables:职位标签, salary:薪水, workYear:工作年限要求等等.......     首先看一下哪些字段我们可以先不管,把这些数据我们先隐藏,尽量不删除数据,而是隐藏,保证原始的完整性。

    三、数据清洗和转换 

     1.数据有无缺失值

    数据的缺失值很大程度上影响分析结果。如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。本次使用的数据虽然有部分缺失,但是比例不大,所以不影响分析。


     2.数据是否一致化

     一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司,差别就在一个市字,主观上肯定会认为是同一家公司,但是对机器和程序依旧会把它们认成两家。会影响计数、数据透视的结果。 

     3.数据是否有脏数据

    脏数据是分析过程中很讨厌的环节。例如乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。 那我们看表格中有没有重复数据。首先找到该数据中可以唯一标示每行的列,然后对该列做重复项删除操做。 


     4.数据标准结构

    数据标准结构,就是将特殊结构的数据进行转换和规整。 表格中,公司所在商圈就是以数组形式保存。我们得将这类格式拆分开来。 薪水的话用了几K表示,但这是文本,并不能直接用于计算。而且是一个范围,后续得按照最高薪水和最低薪水拆成两列。 


     5.数据清洗 

    上面提到数据需要先进行清洗才能继续分析。我们可以新建Sheet,方便和原始数据区分开来。

    首先我们来清洗薪水,将salary拆成最高薪水和最低薪水。

    先用 =FIND("k",P2,1)。查找第一个K(最低薪酬)出现的位置。我们知道第一个k出现的位置,此时=LEFT(P2,FIND("k",P2,1))得到的结果就是 7K,要去除掉k,FIND("k",P2,1)再减去1即可。

    最高薪水也是同样的思路,但不能使用k,因为第二个薪水位置不固定。需要利用find查找"-"位置,然后截取 从"-" 到最后第二个位置的字符串。=MID(P2,FIND("-",P2,1)+1,LEN(P2)-FIND("-",P2,1)-1)


    我们检查一下有没有错误,利用筛选功能快速定位。发现有错误,看一下原因,然后把错误解决掉。


    然后我们来清洗商圈信息。因为数据格式比较标准,所以直接用分列即可。多余的符号直接替换。大家需要注意,分列会覆盖掉右列单元格,所以记得复制到最后一列再分。



   四、分析过程

    接下来清洗positionName,然后分析。数据中有很多非数据分析师职位,所以我们需要排除掉明显不是数据分析师的岗位。单独针对positionName用数据透视表。统计各名称出现的次数。


    然后用find和数组函数结合 =IF(COUNT(FIND({"数据分析","数据运营","分析师"},N2)),"1","0"),就得到了包含这三个关键字的职位。1为包含,0不包含。将1过滤出来,这就是需要分析的最终数据。

    还可以用透视表分析哪些城市的数据分析岗位比较多,工作几年的应聘者更吃香。分析过程主要使用数据透视表进行多维度分析。

五、得出结论

    最后根据分析出来的结果,然后得出自己想要的结论。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342