作为OFFICE软件里的顶梁柱,EXCEL是小白不得不首先拿出来说的一款工具。对于现在从事数据分析的人来说,电脑里面没有SPSS、PYTHON、SAS等大多数数据分析工具是有可能的。但是不可否认的是,你的电脑里面绝对会有EXCEL存在!
在百科里,EXCEL的描述是它有直观的界面、出色的计算功能和图表工具,它已经成为最流行的计算机数据处理软件。毫不夸张的说,只要是涉及到计算机处理的工作,都离不开EXCEL来帮忙处理数据。
在了解数据分析以前,我们可能只是用EXCEL表格记录日常数据,在深入的分析方面做的不是特别多,甚至有的同学可能连数据分析的模块在哪里都不知道,更不用说利用EXCEL进行数据分析了。
EXCEL数据分析模块介绍
今天我们来大致了解一下EXCEL如何进行数据分析以及它又能做哪些分析(以EXCEL2013为例)。
上面这个图就是EXCEL的界面,在工具栏中有一项名称叫数据,我们需要用到的数据分析功能就这这个模块里面。
进入到数据模块以后,我们会发现在界面的最右边会有一个分析窗口,上面分别有数据分析以及规划求解,不过在最初安装好EXCEL的时候这个地方是空白的,这个时候就需要我们将这个模块从EXCEL的系统里面加载出来。
点击文件再点击选项就会出现上面这个界面,我们在这个界面里面选择加载项,然后点击下方的转到(前面的管理要选中EXCEL加载项),然后我们就能够看到下面这张图:
这个图就是我们用EXCEL做数据分析的时候可以用到的几个选项,一般我们选择分析工具库以及规划求解就行(这是两个独立的工具,当然如果有会VBA编程的同学也是需要把分析工具库-VBA添加上)。
在我们完成添加以后,我们的EXCEL界面里就会出现数据分析分模块了,我们这个时候就可以利用这个模块对我们EXCEL里面的数据进行分析了。
当我们点击数据分析模块里面的数据分析选项时,我们会看到很多基本的数据分析方法:
在这个数据分析选择器里面出现的都是我们能够利用EXCEL进行分析的方法,基本上能够满足我们对数据的基本分析,这里面就有我们上篇文章说到的描述统计、相关系数、方差分析以及回归分析等,后文我会给大家举几个例子看看这些分析都能够给我带来什么。
在数据分析下面就是规划求解(如果选择添加了的话),它在生产管理里面使用比较多,比如我们我们需要做营销组合的分析以及生产采购方面的计划分析会用到,它可通过更改其他单元格来确定某个单元格的最大值或最小值,我们在设定好我们需要的规则以后就可以直接算出我们所需要的最优解。它的界面如下图所示:
下面我们就通过一个回归分析的小例子来看一下如何通过EXCEL来进行数据分析。
回归分析
回归分析是一个涉及面比较广的数据分析方法,它指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在大数据方面,它是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。回归分析有很多种,它按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,也可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,又可分为线性回归分析和非线性回归分析。话不多说,我们从一个简单回归分析中就能让大家了解到它独有的特点:
上面这个表展示的是7个地区不同的人均GDP和人均消费水平,现在我们想从这两个数据里面看看这两个数之间的关系是什么,我们就可以利用回归分析得出我们的结论。
首先在数据分析这个加载项里点击数据分析并选择回归就会出现上面这个图,我们在这个题目里把人均GDP作自变量,人均消费水平作因变量,选择置信度为95%(一般我们都会默认置信度为95%),在下面我们勾选残差以及残差图(上一篇文章我们说过在回归分析中可能会出现像自相关、多重共线这类问题,可以通过残差来做判断是否有这样的情况出现)。在我们点击确定以后我们就会得到EXCEL输出的回归分析结果,如下图所示:
在这个结果里我们可以看到,R Square的值是97%,也就是说这个模型是比较好的,能够解释大概97%的变异量,并且我们一般还会看调整后的R方,也就是Adjusted R Square,在这个结果里达到了96%,R方的取值在(0,1)之间,越接近1说明拟合程度越好。
在看完第一个图以后我们接着会看第二个图,也就是方差分析表,在这里面一共有五个数,分别是df(自由度)、SS(样本数据平方和)、MS(样本数据平均平方和)、F(F统计量的值)、SignificanceF(P值)。从表中我们可以看出,模型结果的P值是远远小于显著性水平0.05的,说明两个变量之间存在显著性差异。
从最后一个图里我们就可以得出我们所计算出来的回归方程,在这个里面的t值和P值也都能够直接看到,最后我们得出回归方程它的表达式为:
Y=0.271253X+1007.866
到这里我们可以说我们这个分析就做完了吗?别忘了在分析之前我们还选择了输出残差以及残差图:
从这个结果我们可以看出,随着X值的增大,Y值呈现的是不规律的一个分部情况,说明这个模型不存在比如说自相关以及多重共线这类问题(由于本例样本量较小,仅作为参考)。
直到这里,这个回归分析才算全部完成。我们可以通过它了解变量之间是否有显著性差异,我们甚至还可以通过这个模型去预测(比如销量和销售额之间的关系)。在以后的文章里会有专题进行讲解。
小结
通过这样一个小例子,大家是不是能够发现用EXCEL做数据分析其实是比较好玩儿的一件事情。当然,由于篇幅的关系,今天就不再举过多的例子了,以后小白会慢慢把各个数据分析工具里面的分析方法一个一个介绍给大家。
最后再多说一句,EXCEL还有一个很强大的版块就是它的函数,我们可以用EXCEL内置的函数解决绝大多数我们在处理数据时遇到的问题。
PS:小白这里有一个关于EXCEL的各种函数详细介绍以及使用方法的干货,大家如果感兴趣可以在后台回复:EXCEL函数大集合。小白会在晚些时候把这个分享给大家。
每天五分钟,轻松积累数据分析知识
讨论QQ群:514581193,微信公众号搜索:小白数据营
数据干货,各种福利,不定期发放