想通过这篇分享, 总结下用过的一些数据可视化方式, 主要是想分享下图表的一些使用心得. 数据可视化其实是一门挺有深度的学问, 也看过一些书. 这里的内容还是从基本的图表解释, 从简单开始, how to see everything is very important for our BUSSINESS.
先介绍几个基本视图的使用及应用场景, 部分信息和图表参考于Data Visualization with JS
柱状图: 二维数据集, 适用于只需要比较其中一维, 利用柱子的高度表现差异, 不过只适用于小规模的数据集. 通常X轴是时间轴, 如果X轴不是时间维, 建议用颜色区分柱子, 改变用户对时间趋势的关注.
折线图:二维大数据集, 尤其是在表现和强调数据趋势时适用, 可以让用户忽略单个的数据点. 而且折线图比较适合多个相关的二维数据的比较.
饼图: 通常用于二维, 适用于反映部分与整体的关系, 饼图并不适合比较元素间的度量关系, 因为人对面积的感觉并不灵敏, 所以饼图更适合表现部分与整体的占比情况,
散点图: 适用于三维数据集,但只比较其中两维,可通过颜色区分第三维. 比如比较某个国家的医疗支出和预期寿命, 地区靠颜色区分, 只有后两个维度需要比较
气泡图: 三维或四维 散点图的变体,通过气泡大小区分第三维,通过颜色或标签区分第四维. 因为用户对面积大小敏感度低, 所以适用于不要求精确辨识第三维的场景. 其实我们可以注意到, 下面我做的这张图表现的维度虽然也只是四维, 不过通过饼图做到了对比各个地区业务分配比例的效果.
雷达图:
四维以上, 并且每个维度可以度量并排序, 雷达图对数据特征有几个要求或者说喜好: 1 数据点要少, 一般不超过六个; 2 数据有多个维度, 一般四个以上, 可以通过颜色增加一个维度的信息, 但不参与分析. 3 维度可度量和排序.
上图取自参考文档截图, 是热火首发五人的技术指标分析, 根据定义, 面积越大越重要, 所以James确实很重要:)
此外, 还有一些有意思的, 也比较有意义的展示方式, 也简单列举几个:
漏斗图:漏斗图适用于业务流程比较规范, 周期长, 环节多的流程分析, 通过漏斗各环节业务数据的比较, 能够直观地发现和说明问题所在. 通常用来运营分析改进产品设计流程, 分析商机转化等.
(矩形) 树图:一种有效的实现层次结构可视化的图表结构, 适用于表示类似文件目录结构的数据集.
热力图:以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示,它基于GIS坐标,用于显示对象的相对密度, 下图是我们的呼叫热力图.
词云:各种关键词的集合,往往以字体的大小或颜色代表对应词的频次. 是一种比较有意思的展现形式, 不过我觉得有意思的成分大于其实际意义. 有一定的视觉冲击力, 做宣传封面或者海报时见得比较多.
推荐一个在线制作词云, 很漂亮的工具, https://wordart.com/create, 下图是我用时间简史的内容做的词云, 还是很有感染力的
盒须图:
也叫箱形图, 盒式图或者箱线图. 主要用于对数据分布的显示, 如下图所示, 主要包含六个数据节点, 将一组数据从大到小排列, 分别计算出他的上边缘, 上四分位数Q3, 中位数, 下四分位数Q1, 下边缘, 还有一个异常值. 大家可以自己对应下.
关系图: 表现的是数据对象间的关系, 是聚类常用的一种方法, 建议了解下基于图论的聚类算法, 了解下什么是DAG等等, 图论也是一个特别有意思的所在. 图论分裂聚类算法的主要思想是: 构造一棵关于数据的最小生成树(minimal spanning tree,简称MST), 通过删除最小生成树的最长边来形成类.
如下图所示, 当初为了基于关系对设备进行聚类和分析, 还专门做了一个软件包.
好了, 先简单罗列这么多, 希望多开几个头, 以后有时间慢慢的展开讨论.