最近因为工作需要,对数据可视化做了一些初步的思考。笔记如下。
1.互联网公司数据部门的数据可视化工作的本质和很多互联网产品类似,最终是为了通过标准化的产品产生用户价值。一图胜千言,想让数据产生影响力,特别是在一些阅读大规模数据能力有限的管理和业务背景人员那里产生影响力,恰到好处的数据可视化可以产生事半功倍的效果。
2.技术角度而言,数据可视化大量采用对比的手段。例如,扇形统计图通常用于规模占比的比较,条形统计图用于绝对规模的比较,折线统计图用于指标趋势的比较,文氏图是对集合的交集和全集进行比较,气泡图和热力图等则是在二维坐标系或者地图坐标系里面对规模或密度展开比较,诸如此类。这些图以比较的手段,除了传递样本包含的数据本身的信息,也传递制图者所希望暗示的高级内容。
3.当数据规模增大时,样本本身传递的信息很难完整地通过可视化展示出来,这时候制图者的意图反而成为数据可视化的主要产出。这就是通常所谓的『数据会说话』和『数据会说谎』。例如,在一张散点图里面,可能读图者什么都看不出来,只要增加一条趋势线,往往就可以胜过描述散点图的千言万语。但这条趋势线应该是线性函数拟合的,还是指数函数拟合的,取决于样本本身的特征。用恰当函数拟合样本特征的趋势线,是『数据说话』的例子;用不恰当的函数拟合样本特征的趋势线,则是『数据说谎』的例子。
4.一张图能传递的信息是有限的。因此在做数据可视化的时候,需要理念先行,技术只是传递理念的工具。为了炫技而进行的数据可视化,很容易陷入空洞无物的境地,看起来包含很多东西,其实什么有效信息都没有传递出来。
5.源数据结构设计和数据可视化组件设计是规模化数据可视化的两个主要环节。源数据结构设计直接依赖于数据可视化所希望传递的理念,同时也受源数据规模和复杂程度的影响,还需要兼顾组件的形式;组件设计则是成本最小化的造轮子过程。
6.随着数据内容越来越复杂,数据可视化也逐步出现了更加丰富的形式载体,例如,信息图、基于HTML5框架的动态多媒体数据可视化等。但数据可视化的基本逻辑并没有变,只是针对更多元化的受众,采取了更复杂的技术手段而已。