通过这本书,我们可以开始理解数据可视化,探索数据的模式,并寻找数据间的关联,进而选择适合自己的数据和目的的可视化方式。如果你想深入学习数据分析或数据可视化,我建议没必要看这本书,如果你刚刚入门,希望从事数据分析或数据可视化方面工作,我建议学习学习。
这是一本入门书籍,很基础很基础,既没有告诉我们如何制作报表,也没有告诉我们数据可视化的规范,作者从几个大的方向去谈的:
1、怎么理解数据,明确了数据具有不确定性,不同背景下可具有不同的解读
2、日常生活中的那些运用到数据的案例和场景,比如人口的统计,气候变化的统计,美丽的地图的设计
3、数据可视化设计的组成,共4个部分:视觉按时、坐标系、标尺以及背景信息。可视化是一个抽象的过程,是把数据映射到几何图形和颜色上,技术很容易掌握,难的是用什么形状和颜色组合最合适?各组件多大最合适?对于可视化来说,这4个组件是原材料,视觉暗示是用户看到的主要部分,坐标系和标尺可是视图结构化,创造出空间感,背景信息则富裕了数据生命,更容易被理解。
①视觉暗示排序清单(从最精准到最不精准的排序):位置>长度>角度>方向>面积>体积>饱和度>色相;
②坐标系分为直角坐标系(最常用)、极坐标系(涉及到角度和方向时用到的比较多)、地理坐标系
③标尺有数字标尺、时间标尺、分类标尺(如条形图,水平轴一般使用分类标尺,垂直轴一般使用数字标尺)
4、讲述了数据可视化的过程(分类数据、时序数据、空间数据)
在数据可视化的过程,我们需要考虑几个问题:拥有什么数据,能得到什么数据,数据来源是什么,如何获取数据,所有变量的意义是什么,然后用这些信息来进行指导。
分类数据可视化:通常可以理解看到最大值和最小值,可以了解数据集的范围,之后,再看看各部分的分布情况,大部分数值是很高?很低?还是居中?最后,再看看结构和模式,如果一些分类有着同样或差异很大的值,那就要找出原因了。
时序数据可视化:寻找随着时间推移发生的变化,是变大了?变小了?这些变化是否重要?变化的原因是什么?是正常波动还是异常波动?
空间数据可视化:首先要了解数据的范围,然后寻找区域模式,某个国家、地区是否聚集了较高或较低的值?
5、强化数据可视化,让可视化设计更加清晰,努力建立视觉层次,对不同分类做好区分,通过图表可以让数据之间进行比较(注意:没有比较的可视化没有任何意义,没有比较的数据分析也没有任何意义),再增加合理的背景描述,可让数据更加清晰化。同时,我们要为用户设计,时刻在心。
6、最后几页作者分别介绍了可视化工具、编程工具、插图工具、数据统计工具,我汇总下:
可视化工具:Excel(没啥好说的了,作者不喜欢,但是我喜欢)、Google Spreadsheets、Tableau(公司在用的就是这个,牛逼的不行)、Many Eyes、Gephi、ImagePlot、TileMill、indiemapper、GeoCommons、ArcGIS
编程工具:R语言、JavaScript、HTML、SVG、CSS、Python、Processing、Flash、ActionScript、PHP
插图工具:Adobe Illustrator
数据统计工具:引用下作者的话“不管使用什么软件,别忘了你的目的是理解数据,如果是针对广大读者设计可视化图表,则是帮助他人理解数据”。
完结,上图