在学习tableau的初期,我想大多数同学,一方面惊叹于tableau能做出绚丽的图表,而另外一个方面,也几乎都是在猜测tableau会做出什么样子的结果。换句话说,有的时候,你不知道如何复制上一次的成功。
我最的感受呢,就是做出一张好看的图,就小心翼翼的保存,因为下次再想做很可能就无法重现,整个人是悲剧的。
工作中,你可能还会经常遇到这种情况,往往是想要通过tableau实现已经存在的某种图表(无论是excel的样例,还是别处的样图)比如下图:
此处应该有知乎体:
“使用tableau制作excel的图表是一种什么体验?”
但是毕竟,tableau和excel的实现基础是有区别,以至于经过会被黑说
excel很容易做出,为什么tableau这么复杂,MDZZ!究其原因,数据结构的不规整、字段设置和使用方式不正确,都是导致做图遇到障碍的原因。而这些都是所谓的基础知识。所以,掌握好基本的技能,是很重要的,其实也是节省时间的。
来归纳一下吐槽有哪些:
为什么, 我每次做的图无法重现?
为什么,我的数据好好的,到tableau中不能识别?
为什么,excel轻松就做出的图,tableau这么弱智,就是做不出?
为什么,看了一些教程,看似简单,用我自己的数据就实现不了?
呐,本文不是来回答这几个问题,我说了,基础很重要,这篇文章谈的是,理清楚最最最基本的维度和度量在此基础上进行扩展。(因为我发现很多人急急忙忙的在研究“数据预测”,然而基本的数据结构还未搞懂)
问题来了,怎么才能最舒服的推进文章的章节?我想,可能是通过提问的方式吧。(我也不打算拦着你去快进直接看后边的)
问题如下:
为什么会有蓝色和绿色字段?
蓝色和绿色有什么区别?
蓝色和绿色各有什么作用?
这是我们贯穿全文的问题,全文会按照如下顺序一步步推进:
第一部分,介绍维度和度量的基础
1. 来讲清楚,两种颜色软件为什么可以自动设置两种颜色
2. 来讲两种颜色对应的主要功能,分类数据和定量数据
第二部分,实际的制作视图,来体会二者的区别
1. 开始实践,两种颜色的字段放在视图的操作
2. 两种颜色放入筛选器的操作
3. 两种颜色放入标记工具的操作
好的,前戏结束,现在进入正题
第一个问题:
为什么在tableau中,字段的颜色,有的是蓝色,有的是绿色?
先来看图,如下的图是一个最典型的tableau视图,可以看到,蓝色和绿色箭头的标记
tableau中的字段的存在形式,英文叫做pill,直译为药丸,其实就是个可拖动的方块,我们可以叫做字段好了。
别着急,先不管蓝色绿色分别是什么,再来提出第二个问题:
为什么tableau可以认识并设置好,哪些是蓝,哪些是绿?
理由如下:
tableau在读入数据时,会根据该字段是否包含“分类数据”或“定量数据”来设置数据字段。也就是所谓的自动识别“蓝色”和“绿色”。
上边这句话是官方解释,那么,啥是分类数据?啥是定量数据?
再来一个官方的解释:
分类数据,比如城市名称,用户名字,就是维度
定量数据,比如销量,利润,就是度量
说人话就是:
分类数据,就是“文字”
定量数据,就是“数字”
注意!!!这么说肯定是不完备的,是错的,但是初始阶段,你就这么认为,也没问题,因为后边会讲为什么是错误的。
再来举个栗子,一个学校的成绩表,涉及的统计字段有:
性别,成绩,班级,姓名,年龄
那么:
定量数据:成绩、年龄
分类数据:性别、班级、姓名
(题外话,举一些身边的例子更能帮助理解,不要在理解阶段就拿营销数据出来,脑子会乱)
这是关于维度和度量的最初认识,现在知道了为啥会变蓝和变绿
变蓝,因为是分类数据,软件自动识别为蓝色
变绿,因为是定量数据,软件自动识别为绿色
第三个问题
为什么蓝色和绿色各有什么作用?
下面进行下一步,两种字段在视图中的区别。那么来试一下,两种字段在视图有啥区别?
二者最大的区别是,通常情况下,将数据字段拖入视图中时:
维度会创建标题
度量会建立坐标轴
请注意,是通常情况下,但不全部都是如此。
看图说话,这个是蓝色方块生成的“标题”
这个是绿色方块生成的“坐标轴”(如果你不懂什么是轴,什么是标题,我就帮不了你了)
目前为止,知道了为什么是这个颜色,以及这个颜色会有什么后果,好的,你已经学会一半了,厉害吧!下面来做个阶段性总结
作用就是,生成标题,和生成坐标轴
第四个问题
什么是连续数据?(连续的反义词是离散)
蓝色和绿色,不是一个表示度量,一个表示维度吗?
上一节说的是“通常情况下”,这里来说说非通常情况!
关于维度和度量,上边问题的说法是对的,但不完全对。也就是说:
大部分的维度是蓝色的(非连续的)
大部分是度量绿色的(连续的)
注意,是“大部分”的,并不是全部
准确答案应该是:
颜色的作用,是用来表明这个字段是离散的还是连续的
蓝色字段是离散的
绿色的字段是连续的
这样说是ok的,但是反过来说就是不对的。也就是说:
是否连续,是通过颜色判断
是否维度,不是通过颜色来看
绿色可以是维度,也可以是度量
蓝色可以是维度,也可以是度量
是不是有点晕?别急,这就来举栗子了
找一个绿色的例子:销售额,因为额度肯定都是数字,也就是定量数据,呈连续,所以就是绿色,是度量
而在实施聚合后,比如sum,就会变为蓝色的不连续
怎么记忆呢
蓝色,是大海,太广阔了,是分散的,所以是离散
绿色,是绿灯,大家都喜欢绿色,而连续的字段,也是我们所喜欢的
再具体点,什么是连续,什么是离散?
离散数据
蓝色字段是离散的,它们包含有限数量的值,例如,字段:区域,包含北/南/东和西,但没有其他的值。
连续数据
绿色领域是连续的,它们可以包含一个无限数量的值,例如,一个项目的价格可以是一个数字区间内的任何值。
注意,在离散和连续的区分中有许多灰色区域。在上面给出的例子中,一个项目的不可能存在于一个无限的可能值集合。我们只是理论上认为,价格可以在任何值,认为是一个连续变量。
第五个问题
什么是聚合数据?
如果我们想给所有的字段分各类,怎么做?
对于一个字段的完整分类,可不是仅仅有一个指标---是否连续,还有一个重要指标---聚合,先抛出这张表:
根据两个分类原则(是否连续,是否聚合),全部的字段被分在四个象限:
这一节就是要解释:
什么是聚合
什么是维度
按照上一节我们聊的,连续和离散两个因素来区分,把该表格竖着看:
对于Continuous,也就是连续,分为维度和聚合
对于Discrete,也就是离散,也是分为维度和聚合
用非连续数据(蓝色)举例
对于维度:地区
对于聚合:sum、max、rank后,切换成维度
栗子来了,比如9个数字,为集合a:
1,1,2,2,2,3,4,4,4
聚合目的,是使用一个单一数字去表征这一群数字,比如:
如果是sum,则a集合即为23
avg呢,就是2.56
max是4
min是1
第一节说过,离散字段总是为视图添加标题,而连续字段则为视图添加坐标轴。
牢记这种区别,可以帮助你清楚的了解作图的意图。
栗子来了,回到四象限图,使用销售额“”这个字段来模拟研究4个象限的4种状态:
怎么区分?别忘了第一节就说的
那么是否聚合呢?就看,是否是一个点
(这里也可能是LOD详细级别的层级不同)
第六个问题
绿色和蓝色在实际作图的时候有什么区别?
下面开始来实际操作一下这几个东西
创建Viz视图时,离散和连续的处理方式,是完全不同的。还记得的上边提到的问题么?
初学的时候,几乎都是在猜测tableau会做出什么样子的结果
而了解了这些区别后,你才能清楚的制定构建一个视图的基本组成是什么
在执行具体操作前,要先聊一下可视化的基础,也可以说是视觉通道基础。
视觉的传达目的是服务快速识别特殊数据,主要有这几种形式:(看下图主要涉及这几条)
颜色
形状
纹理
位置
长度
角度
亮度/饱和度
图片来源:http://www.cnblogs.com/zaohe/p/5740477.html
对于面积、长度、大小等,可以归纳为同一类,且纹理在快速视觉传达不是很合适,则变为:
颜色(透明度)
形状
大小(面积、长度)
那么,再来简单介绍tableau界面
行和列,用于控制您的可视化布局
筛选器,用于限制显示的数据的筛选器
标记,确定数据的视觉呈现方式
对应着下图中tableau几个操作的地方
而在tabelau中,就是标记面板的功能实现可视化操作的:
颜色
形状
大小
文本
路径
角度
按照1、2、3的顺序,先来说不同类型字段在“行”“列”中的区别:
第一节说过,主要的区别是,维度生成标题,度量生成坐标轴
先看 非连续 也就是 蓝色
然后在看绿色 连续
先来看看蓝色的(非连续)字段
一个蓝色字段-行
当你添加一个蓝色的字段,不论是行,或列,tableau在行/列出会显示该字段的head
下图蓝色框的,就是所谓的tableau head,第一节中说的标题
多个蓝色字段-行
先占坑
待补全
多个蓝色字段-列
先占坑
待补全
多个蓝色字段-行列组合
之前都是只插一个,我们来多插入几个试试,这里呢,又拖入了两个蓝色的字段。其中,两个列,一个行,最终形成如下样子的列表。
一个绿色字段-行
再来看看绿色:
当你添加一个绿色的字段,tableau在行/列出会显示该字段的坐标轴
换句话说,每个行或列会出现一个对应的轴,就是第一节说的坐标轴
多个绿色字段-行
再来近一步,我们拖入多个绿色药丸pill,放在“行”
变成这样了
多个绿色字段-列
放在列呢?
多个绿色字段-行列组合
行列组合一起呢?先推测一下,肯定是,左边和下边
先占坑
就是这样咯,这就是两个绿色连续构成的图形
例如,散点图通常是一个有两个轴,一个垂直和一个水平的视图。
用刚才了解到的信息,该视图有2个轴,那么肯定需要在行和列各有一个绿色。
更新记录:
2016-12-3 发布
<未完待续>
Peace!