Excel从入门到表格分析(一)

Excel从入门到表格分析(一)

Excel电子表格

在分析数据之前,我们首先要对数据进行预处理,比如:清洗、提取、整合。清洗是指对数据的缺失值、异常值进行处理;提取是指将不需要的字段进行删除;整合是指存在另外一种或几种数据维度在当前表当中不存在,需要从其他数据源整合到当前数据表。Excel电子表格可以帮助我们实现这些功能。得益于技术的发展,Excel电子表格不但可以进行基础的增删改查,而且可以创建可视化图表、透视表、自动化报表,支持打印、数据自动填充等自动化功能。在Excel表格的顶端有一些功能栏目:File (文件), Home(开始), Insert(插入), PageLayout(页面布局), Formulas(公式), Data(数据), Review(审阅), View(视图)。以下表格概括了他们的功能:

栏目 功能
文件 主要涉及到文件保存、打开、分享、导出为pdf等功能
开始 调整文本样式、比如字体的大小颜色,数据的格式,表格的颜色格式,以及基础的增删操作等
插入 引入现有数据之外的媒介,比如透视表、图片、各个类型的图表、批注等
页面布局 打印时的布局调整,比如整体的主题颜色,字体大小,页面边距,横向纵向等
公式 提供了所有的计算公式,并且按照处理的数据对象进行了分类,比如最常用的文本函数,查找引用函数,以及数据函数等。也可以定义自有的公式进行引用。
数据 主要用于引入数据源,格式可以是网页、文本、数据库等。还可以对数据进行一些预处理工作,比如筛选、删除重复项,对基础统计指标的一些计算等。
审阅 提供了用于多人协作的批注功能,以及权限设置功能,文件保护等。
视图 提供便于阅读习惯的一些功能,比如单页或者多页报表样式,缩放大小。如果数据量很多,可以使用冻结行列数据固定数据维度,方便操作。如果重复操作比较多,可以通过录制宏的方式将多个操作记录为一个快捷键,然后使用。

Excel常用功能

Excel的功能十分强大。对于数据预处理,我们可以使用Excel的文本函数,重复数据的处理,拆分列数据,和数据排序与筛选等功能。在进行数据查找和计算(统计和分析)时,我们可以使用:

  • 数学函数: SUM, AVERAGE
  • 逻辑函数:OR, NOT
  • 条件聚合函数:COUNTIF, SUMIF
  • LOOKUP引用函数

当然,Excel可以创建可视化图表,比如数据透视表(Pivot Table),各种统计图表来进行数据可视化。

文本函数

文本函数是对文本进行提取、查找、转换、更新的函数。比如,我想讲字符1的列表和字符2的列表进行合并:

字符1 字符2
A1 B1
A2 B2
A3 B3
A4 B4
A5 B5
A6 B6
A7 B7
A8 B8

这时,我们需要使用文本合并类函数,比如CONCATENATE

如果我们想提取一列中的部分文字,可以使用MID函数。MID函数的用法是MID(text, start_num, num_chars)。这里,text是需要提取的单元格,start_num指从哪一位开始提取(start_num>=1),num_chars表示一共提取多少位。

比如,有这样一列:

image

我们的需求是去掉工作经验一栏中的“经验”二字,并且保留其余的文字。不难发现,“经验”二字全部为前两个字。所以我们可以使用MID函数对这一列除去“经验”的文字进行提取。首先编写第二行的文本提取:=MID(F2,3,6),表示提取F2的内容,从第3位开始提取,提取的总长度为6。然后再用自动补全(将鼠标移动至G2单元格右下角,出现+号指针,并且双击右下角),将整个G列填充,结果如下图:
[图片上传失败...(image-8848b4-1609657966384)]
如果我们想将一列中的指定字符替换成想要的字符,可以使用SUBSTITUTE函数。SUBSTITUTE函数的用法是SUBSTITUTE(text, old_text, new_text, instance_num),这里,text是要被替换的单元格,old_text是将要被替换的指定字符串,new_text是想要替换的目标字符串,instance_num是指被替换字符串如果出现多次,替换第几个出现的字符串,如果为空,则默认全部替换。

比如,有这样一列:

image

我们的需求是将此列中所有内容为1的单元格替换为“本科及以上”。所以,我们可以使用SUBSTITUTE函数,对于文本替换列,我们输入=SUBSTITUTE(H2,1,"本科及以上"),并且使用自动填充,即可得到结果:
image

如果我们想验证某一列中是否存在指定字符串(数据验证),可以使用FIND函数。FIND函数的用法是FIND(find_text, within_text, start_num),这里,find_text是指要查找的字符串,within_text是要在其中搜索的字符串单元格,start_num是指开始搜索的位置,如果忽略,start_num默认为1。

比如有这样一列:

image

我们的需求是判断此列中是否存在“数据分析”这一关键字。所以,我们首先使用FIND函数,对于数据验证列,我们输入=FIND("数据分析",J2,1),并且使用自动填充,可以得到结果:
image.png

我们可以看到,由于有一些类别中并非存在“数据分析”关键字,所以结果中会有错误#VALUE!。对于这样的情况,我们可以进一步使用ISNUMBER函数来同一格式。如果单元格内容为数字,ISNUMBER函数返回TRUE,否则返回FALSE。在FIND函数外再嵌套ISNUMBER函数,我们可以得到结果:

image.png

其实,掌握了函数的使用方法,我们可以根据具体需求使用不同种类的函数。微软官方也提供了全部函数的使用指南:https://support.microsoft.com/zh-cn/office/excel-%E5%87%BD%E6%95%B0%EF%BC%88%E6%8C%89%E5%AD%97%E6%AF%8D%E9%A1%BA%E5%BA%8F%EF%BC%89-b3944572-255d-4efb-bb96-c6d90033e188

数学函数

前文中提到的三个函数都是对文本数据进行处理(查找、提取、替换),所以会使用文本函数进行处理。文本函数更多的是对文本进行清洗、格式化。对于数值型数据,我们可以使用数学函数,进行一定的统计计算。我们大致可以将数学函数分为几类:
| 类型 | 关键字 |
| :---: | :----: | :----: |
| 基本换算 | SQRT(平方根), POWER(幂运算)|
| 基础统计 | SUM(求和),AVERAGE(平均值)|
| 类型转换 | INT (求整),EVEN(求最近的偶数)|
这些计算都是基本的数值运算,下面的例子展示了他们的用法:

image

运算的结果是:
image

需要留意的是,数学函数的输入参数既可以是手动输入的数值数据(非单元格数据),也可以是单元格数据。比如,统计求和函数SUM()可以统计一列单元格的总和:
image.png

在之前的章节中,我们提到了集中趋势指标和离散趋势指标。我们可以利用数学函数来计算以下工资表的各种指标:


image

计算结果如下:


image.png

处理重复数据

在真实的资料分析工作中,数据的预处理是指数据的清洗、格式化、去重、排序和基础计算。这一步很可能会占据整个分析工作50%以上的时间。为什么数据预处理如此地重要呢?是因为如果数据预处理没有做好,比如存在一些缺失值、异常值,那么最后的数据分析结果的准确性会直接受到影响,从而造成错误的统计结果和结论。之前的章节已经介绍了如何处理缺失值和异常值。对于缺失值、异常值可以进行删除或者填充平均值的方法进行处理。那么对于重复数据,应该如何处理呢?

首先我们需要定位重复数据。EXCEL已经提供了定位重复数据的功能。在开始菜单中找到条件格式,选择突出显示单元格规则中的重复值,重复的数据就会被高亮:


image

image

但是,条件格式在查找多列的重复数据时并不好用,因为它会将很多并非每列都重复的单元格也标红,比如以下例子:


image.png

那么对于涉及多列的重复值筛选操作应该如何完成呢?比如我们现在有这样一张招聘数据表:
image.png

显然,后三行和第三行到第五行是重复的。我们首先选择想要清除重复数据的区域,然后在数据菜单栏中找到删除重复项,之后会弹出一个删除重复项的列表选择,我们可以针对每一列进行重复值筛选。
image

最后会显示删除了几个重复项:


image

(未完待续)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容