《鲜活的数据》- 阅读索引

简单概括每一节的表达核心,注重整本书的结构

第一章 用数据讲故事

1.1 不只是数字

可视化在新闻、艺术性、娱乐性、引入注目方面的例子。让数据得以被分析、传达情感等。

1.2 我们要寻求什么

关注处理数据的模式、数据间的相互关系以及异常数据。

1.3 设计

设计图表时的注意点:

  • 解释性的内容:标签、说明文字、图解等
  • 标注坐标轴
  • 正确的几何图形
  • 提供数据来源
  • 考虑需求场景

1.4 小结

以实际问题为出发点,保证数据正确性,把握图表的设计意图和受众群体。


第二章 处理数据

2.1 收集数据

介绍了几个数据来源:

  • 他人提供
  • 搜索引擎
  • 专业网站等

提供了 python 实现网页爬虫的示例。

2.2 设置数据的格式

数据的三种格式:

  • 带分隔符的文本
  • JSON
  • XML

处理数据格式的几种工具。

用代码处理数据格式的示例。

2.3 小结

如何获取数据并处理数据格式。


第三章 选择可视化工具

3.1 开箱即用的可视化工具

excel、google doc、tableau 等

3.2 编程工具

python、processing、javascript、R 等

3.3 绘图软件

Adobe Illustrator、Inkscape 等

3.4 地图绘制工具

google 地图、polymaps、R 等

3.5 衡量各种选项

按需

3.6 小结

可视化工具介绍


第四章 有关时间趋势的可视化

4.1 在时间中寻求什么

趋势性、全局和细节

4.2 时间中的离散点

柱形图:

  • 可以表现离散时间
  • 柱形高度是其体现数值的视觉线索,柱形的宽度和间隔不代表任何信息
  • 柱形图的数值轴必须从 0 开始,否则难以从视觉上比较柱形的高度
  • 示例:历年热狗大胃王比赛成绩

堆叠柱形图:

  • 柱形高度代表总数值,内部柱形高度代表子类别的数值
  • 示例:历年热狗大胃王比赛前三甲成绩

散点图:

  • 可以表示离散时间
  • 用点的位置作为数值的视觉线索,数值轴不必从 0 开始
  • 示例:网站订阅者数量

4.3 延续性数据

延续性数据源也是离散数据集,表现的是不断变化的现象。

折线图:

  • 缺陷是必须要表现两点间的稳定变化

阶梯图:

  • 适用于跃变的情况
  • 示例:美国邮费变化情况

拟合线:

  • 帮助在杂乱的数据中表现出趋势
  • 常用的有局部加权散点平滑法(LOESS)
  • 示例:历年美国失业率

4.4 小结

  • 直观体现出事物的变化趋势
  • 引导某个时间段变化的原因
  • 引导关注值得注意的部分

第五章 有关比例的可视化

不同于时间序列数据中以时间为分组依据,在比例数据中以样本空间作为分组。

5.1 在比例中寻求什么

比例的分配。

5.2 整体中的部分

既希望呈现各部分和其他部分的相对关系,又希望保持整体上的感觉。

饼图:

  • 不精确,角度不易衡量
  • 不要分成太多块
  • 颜色也可以作为视觉线索,深浅代表重点的强弱
  • 示例:用户对数据各相关领域感兴趣的情况

面包圈图:

  • 只能通过弧形的长度来衡量数值
  • 中间可以放标签或其他内容
  • 也不适合较多分类
  • 示例:用户对数据各相关领域感兴趣的情况

堆叠柱形图:

  • 多饼图与堆叠柱形图的案例:与角度相比,人们对柱形更敏感
  • 示例:奥巴马在各问题上的支持率

板块层级图(treemap):

  • 基于面积的可视化方式,通过每一个板块的尺寸大小度量
  • 适合树状结构的数据(如磁盘使用情况)
  • 示例:网站上各文章的受欢迎程度

5.3 带时间属性的比例

堆叠面积图:

  • 堆叠总高度表示某一时刻总量,内部堆叠高度表示某一时刻某一类别的数值
  • 水平轴表示时间,多个时间序列图表堆叠
  • 不适用于分类多的情况
  • 每一层的变化趋势难以识别
  • 示例:历年各年龄段人群占总人口的比例、历年消费开支的比例

时间序列图:

  • 数值轴为百分比
  • 解决了堆叠面积图难以识别每一层的变化的问题
  • 但失去了整体性和比例分布信息
  • 示例:历年各年龄段人群占总人口的比例

5.4 小结

比例分布数据主要特点在于每个单独的数值有意义,各部分相加的子集和总和也有意义,可视化需要体现出这些方面。

  • 少量数值:饼图、面包圈图
  • 多个类别的多个数值:堆叠柱形图(非多个饼图)
  • 时间信息:堆叠面积图、时间序列图

第六章 有关关系的可视化

如何通过可视化的方法挖掘出并强调这些关系

6.1 在关系中寻求什么

关联性、因果性、分布、交叠等,通过展现的图表发现关系和意义

6.2 关联性

关联性和因果性的区别,关联性可以帮助我们根据某一已知指标预测另一指标

散点图:

  • x 轴不仅可以是时间
  • (x, y) 坐标,拟合曲线
  • 正相关、负相关、不相关
  • 示例:美国各州谋杀率和入市盗窃率的关系

散点图矩阵:

  • 绘制出每一种可能的配对,以尽可能的发现关系
  • 削弱杂乱感,强调重要内容
  • 示例:7 个类型的犯罪率之间的关系

气泡图:

  • 三个维度:x、y、气泡面积
  • 示例:美国各州谋杀率和入市盗窃率的关系,加上各州人口作为第三维度

6.3 分布

茎叶图:

  • 一种古老的表示分布的图表
  • 基础性数字位于左侧(茎),相关数字依次排列在右侧(叶)
  • 示例:世界各国出生率分布图

直方图:

  • 柱形的高度表示频率,宽度表现数值轴上某个值域
  • 水平轴和垂直轴都是连续的
  • 合适的分段数量
  • 示例:世界各国出生率分布图

密度图:

  • 用曲线代替柱形,曲线下面积为 1
  • 示例:世界各国出生率分布图

6.4 对照和比较

直方图矩阵:

  • 示例:过去几十年出生率的分布变化
  • 示例:过去几年家庭电视尺寸的分布变化

系列组图:

  • 将大量小图标归于一起的技巧
  • 方便多个群组和分类之间及其内部比较
  • 示例:三部曲系列影片的评价趋势

6.5 小结

如何在多个变量中找寻关联性


第七章 发现差异

如何从全体中找出满足多种标准的集合,以及利用常识找出异常值

7.1 在差异中寻求什么

每一个变量间的差异,所有变量间的差异,相似性和背后的关联性

7.2 在多个变量间比较

先一次性观察所有数据

热点图:

  • 每一列代表该对象的一个变量
  • 每一行表示一个对象或观察角度
  • 每一个单元格根据颜色表现数值
  • 示例:NBA 球员的数据统计

脸谱图:

  • 将多个变量一次性展现在人脸的各个部位上
  • 依据人们对人的面部特征的敏感性
  • 面部:整体表现某个对象
  • 特征:头发高度、眼镜大小、嘴角曲线等表现代表的数值
  • 相似的脸 -> 相似的数据特征
  • 提供充分的图表描述
  • 示例:NBA 球员的数据统计

星图(雷达图、蜘蛛图):

  • 通过形状来表现多变量数据的特征
  • 到中心的长度代表一个变量的值
  • 链接各端点以方便表现变量之间的关系
  • 星图矩阵
  • 示例:美国各州犯罪率
  • 变体:
    • 所有数据限制在圆形上半部分
    • 南丁格尔图(极坐标区图):各扇形的长度、颜色

平行坐标图:

  • 描述群组或各变量之间的关系
  • 各个变量是一条轴,平行放置
  • 每个对象是一条线,可在多个变量间寻找共同的变化趋势
  • 示例:美国各州 SAT 得分

7.3 减少维度

多维量法,根据某些标准将对象划分为不同的群集

  • 将一个对象的各项指标转换为距离,分布到 x - y 坐标轴上
  • 相似的对象距离近,形成各个集群
  • “基于模型聚类”

7.4 寻找异常值

图表 + 常识 + 数据的上下文

7.5 小结

入手点:一次性展现所有数据,将范围缩小到令人感兴趣的点


第八章 有关空间关系的可视化

8.1 在空间中寻求什么

x、y、时间维度

8.2 具体位置

带经纬度点的地图:

  • 示例:好市多店铺在美国的分布

带有线的地图:

  • 示例:位置追踪轨迹、与世界各地连接线

带有气泡的地图:

  • 气泡的面积 -> 数值
  • 示例:全球为成年人生育率

8.3 地区

等值区域图:

  • 各个地区根据颜色标尺着色
  • 示例:美国各县的失业率
  • 示例:各国获得安全饮用水源的城市居民百分比

8.4 跨越空间和时间

加时间维度的系列组图:

  • 示例:2004 - 2006 全美各县失业率的变化

表现差额的地图:

  • 示例:2005 - 2009 全球城市人口的变化

动画地图:

  • 直观,有机展现变化
  • 示例:1962 - 2010 沃尔玛的增长情况

8.5 小结

  • 处理维度
  • 直观性、更丰富的形式
  • 处理空间数据时有很多的可能性

第九章 有目的的设计

降低理解门槛

9.1 让自己作好准备

  • 了解数据,上下文背景

9.2 让读者作好准备

  • 假设读者都是盲目的,不要假设读者可以发现所有细节
  • 解释、描述

9.3 视觉提示

  • 颜色
  • 几何形状
  • 可视化就是将数据(数字、文本、类别等)转换为视觉元素,选择合适的视觉元素

9.4 好的可视化

  • 设计图表的目的
  • 想将什么样的故事
  • 打算跟谁讲

9.5 小结

数据 + 可视化方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,932评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,554评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,894评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,442评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,347评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,899评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,325评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,980评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,196评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,163评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,085评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,826评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,389评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,501评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,753评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,171评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,616评论 2 339

推荐阅读更多精彩内容