当我们需要从大量数据中寻找变量之间的关系时,不妨尝试一下散点图。
散点图主要用于描述变量之间是否存在相关性,以及这种相关性是线性还是非线性。在对于离群值的观察上,也是一个好的选择。
本文主要介绍几种散点图/气泡图的绘制方法,以及简要讲解一下其原理。
数据源 为tableau自带示范数据-世界发展指标 。
一、散点图
假如我们描述人均医疗费用和新生儿死亡率之间的关系
1、将人均医疗费用拖入列,新生儿死亡率拖入行。这时工作表如下
请思考这里为什么只有一个点? 原因是 tableau默认将这两个度量进行了汇总。而我们想看的是这两个变量之间的关系。
2、分别点击行、列功能区的字段,右键转化为维度。 这时一个散点图就初见雏形了。散点图的本质是将每一条数据在笛卡尔坐标系中按照x-y点的形式展现在图中,你可以理解为,点的个数即为你当前上下文的行数。
我们可以看到,新生儿死亡率和人均医疗费用成明显的反比例关系,人均医疗费用越高,这和认知是符合的。
3、我们可以进一步分析世界不同大洲的新生儿死亡率和人均医疗费用。
将区域拖入标记功能区-颜色。
这里可以明显看到不同区域的数据差异。
二、气泡图
一般意义上,气泡图和散点图的区别在于,散点图是用于展示两个变量的关系,而气泡图可以通过气泡的大小来展示第三个变量 。
1、在散点图的基础上,我们将出生率拖到标记功能区-行,右键转为维度。
2、为了便于展示重叠数据,标记功能区选择图形-圆,颜色-左键不透明度调低,边界打开。
我们可以看到,每一个气泡就有了三个变量的信息,分别是X,Y轴上的人均医疗费用和新生儿死亡率,以及大小所代表的出生率。
三、结合工具提示
实际上,tableau,无论是气泡图还是散点图,都可以展示远超自身限制数量的信息。
结合上图,假如我们想看每一个点所代表的国家名、医疗费用占比、男性预期寿命等信息,我们可以将这些字段拖入标记功能区-工具提示。
这时我们将鼠标挪到每一个点上都可以看到对应的信息。这样能更便于我们观察离群点。
四、散点图添加趋势线
既然散点图是主要用于描述变量间关系的图表,有时候我们想将这种关系描绘出来。如图
实现步骤:
1、右键图表空白处-趋势线-显示趋势线。
2、如果你的图表有多个分类,会显示多条趋势线,如果只想显示一条总体趋势线,右键点击编辑趋势线。根据你的图形趋势选择对应的模型类型,本文模型类型选择-幂 。选项去掉区域、年份即可。
这时鼠标右键挪到趋势线上,可以看到此模型的数学表达式。
你可以简单理解为,
R方 量化变量之间的关系强弱,0-1之间,R^2越大,变量之间越强相关。
p值可以决定拟合方程的可靠程度。p<0.05代表模型可用。
需要强调的是,散点图可以让我们发现不同变量间存在一定的关系,但是这时的关系是否真实,需要进一步验证。啤酒与尿布的故事在很大程度上只是一种巧合。
如果本文对你有所帮助,欢迎点赞关注转发!
公众号 Tableau入门