第三章数据探索

[TOC]

探索数据

内容：汇总统计、可视化和联机分析处理（OLAP）
作用：数据初步探究，利于选择合适的数据预处理和数据分析技术。

汇总统计

汇总统计，summary statistics，用单个数或数的小集合捕获很大的值集的各种特征。

频率（frequence）和众数（mode）：值x的频率定义为所有对象中该属性取值为x的对象比率。众数定义为具有最高频率的值。频率和众数能反应一个属性的值的取值情况，但常常对连续变量来说无效，因为连续变量的单个值可能出现次数不过1.
百分位数：在[min,max]区间上划分百分比点，选出每个点上的数，即为p百分位数。如值区间为[0,100]的值x，$$min(x)=0=x_{0%},max(x)=100=x_{100%}$$.百分位数的条件是数据有序。
位置度量——均值和中位数：连续数据常统计均值（mean）和中位数（median），他们是值集位置的度量。均值就是平均数，中位数就是有序序列最中间的某一个值（元素数量为奇数）或中间两个值的平均值（元素数量为偶数）。受离群点、异常值影响，为此提出截断均值（trimmed mean），将有序列的P个百分位去除之后再计算均值，显然这P个百分位会对半分到高端和低端，即去掉最高的百分之0.5P，再去掉最低的百分之0.5P，剩下的数做平均。此处截断针对的值的个数，如100个实体，截断百分之10，则排序后，删除最高5个数，最低5个数。
散布度量——极差和方差：极差（range）通俗理解为取值范围，$$range(x)=max(x)-min(x)$$,显然极差是极受异常点影响的。而方差（variance）、标准差（standard deviation）通过均值计算而来，均值也是受离群点影响的，故它俩也是对离群点敏感的。$$variance(x)=s_x^{2=\frac{1}{m-1}\sum\limits_{i=1}}m(x_i-\bar{x})^2$$,而标准差s取方差开方即可。

针对上述离群点影响问题，提出了绝对平均偏差（absolute average deviation，AAD）、中位数绝对偏差（median absolute deviation，MAD）、四分位数极差（interquartile range，IQR）。

$$AAD(x)=\frac{1}{m}\sum\limits_{i=1}^m{|x_i-\bar{x}|}$$

$$MAD(x)=median({|x_1-\bar{x}|,...,|x_m-\bar{x}|})$$

$$interquartile range(x)=x_{75%}-x_{20%}$$，75%-25%的极差，消除了离群点影响
多元汇总统计：之前都是针对单个属性，若数据对象包含多个属性（多维、多元数据），数据对象的均值可用每个属性的均值表示。多元数据中，各个属性间通常不是独立的，考虑每个属性的散布可能作用不大，可以尝试分析两两属性间联合的散布情况，即协方差矩阵（covariance matrix，S），矩阵S的第ij个元素表示第i个和第j个属性的协方差。协方差矩阵给出所有的属性对之间的散布度量。

$$s_{ij}=covariance(x_i,x_j)=\frac{1}{m-1}\sum\limits_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}),x_{ki}和x_{kj}$$分别表示第k个对象的第i个和第j个属性的值。

协方差矩阵描述了数据集所有数据在各属性对上的联合散布情况，体现的是属性取值的情况，虽然矩阵元素为0表示该属性对不具有线性关系，但并不能给出关联程度，需要相关矩阵（correlation matrix）给出各属性间的相关性。

$r_{ij}=correlation(x_i,x_j)=\frac{covariance(x_i,x_j)}{s_is_j}$,$s_i$和$s_j$分别表示$x_i$和$x_j$的方差，R的对角线元素显然为1（x与x自身的相关性），其他元素在-1到1之间。

可视化

可视化的目标是形成可视化信息的人工解释和信息的意境模型。

一般概念

表示：数据到图形元素的映射。这是可视化的第一步，将数据信息映射成可视形式。
- 对象的三种表示方式：
  - 考虑单个分类属性：根据该属性值将对象聚成类。
  - 具有多个属性：将对象显示为表的一行或列，或显示为一条线。
  - 对象也常常被解释为n维空间中的点。
- 对于属性：其表示取决于属性的类型。每个分类属性可以映射到不同的位置、颜色、形状、尺寸等等。
- 难点：可视化的主要难点是确定一种技术，能表达数据的内在联系，如对象之间、属性之间的联系。
项的安排：可视化中，项的安排对图像的表达起到很大作用，如规则矩阵打乱行列之后可能很难看出其规律性。
选择：数据集很大时，图像的显示过密可能会掩盖数据的信息。因此需要适当的选取数据信息。
- 通常多属性可以选取属性子集做表达（通常是两个属性），维度不高的时候可以做属性对（双属性）矩阵观察。选取一对属性的时候采用维归约技术，如PCA。
- 数据点多的时候，可以通过样本抽查方式减少可视化的数据量。

可视化技术

可视化技术通常对于分析的数据是专用性的。

少量属性的可视化

这里主要讨论单个属性观测值的分布和两个属性值之间的关系。

茎叶图，stem and leaf plot：观测一维整形或连续数据的分布。类似与横向的直方图。
直方图，histogram：对于连续属性值，通常采用分箱。也叫条形图（bar plot），每个条形的面积正比于落在该区间的对象的个数。也可演变成相对频率直方图（relative frequency histogram），用相对频率代替值的计数。
二维直方图，two-dimensional histogram：三维图形，三个正交的轴分别表示两个属性值和对应的数据对象的计数。
盒装图，box plot：用以显示一维数值属性分布的方法，实质是表达属性所有取值区间上的10\25\50\75\90百分位数的取值，以及离群点。通过盒子中间[25,50,90]这三段两个部分能看出数据的主体分布区间。
饼图，pie chart：用于属性取值较少的分类属性，用圆的相对面积表达不同值的相对频率，相比而言，直方图更常用。
百分位数图（percentile plot）& 经验累积分布图（empirical cumlative function，CDF）：百分位图的两轴分别为百分位值和该百分值时的属性取值，再直线连接这一系列点形成折线图，能看出各百分位的属性取值。经验累积分布图表达各属性值的累积分布概率，横轴为值的取值范围，纵轴表达累计概率（[0,1]之间）。
散布图，scatter plot：使用数据对象的两个属性值作为坐标轴，每个数据作为平面上的一个点，可以大致看出两个属性之间的联系，或在给出类标号的情况下可以考察两个属性将类分开的程度。同时安排所有属性对的散布图得到一种散布图矩阵（scatter plot matrix），可对比观测出所有属性对的联系。当然散布图还可以拓展为三维散布图，根据三种属性的取值情况在空间中绘制数据对象的点。

时间空间数据可视化

等高线图，contour plot：两个属性在指定平面上，第三个属性具有连续性，如温度、海拔等，可采用等高线图。
曲面图，surface plot：通常描述数学函数或变化相对较为光滑的物理曲面。
矢量场图，vector field plot：略
低维切片：对于时间空间数据集，可用一组图对某一维度“切片”，如对时间切片，每一幅图只展现空间和其他数据信息，而时间维度变化可通过一系列图的对比变化得出。

高维数据可视化

矩阵：在用矩阵表达多维数据的时候，若给出类标号，则重新排列数据矩阵的次序是有效的。
平行坐标系，parallel coordinates：每个属性是一个坐标轴，但所有的属性不正交，而是平行的（类似于直方图的做法，但粒度和侧重不同），对象用线表示。对象每个属性的值映射到与该属性关联的坐标轴上的点，连接这些点，就是该对象的表达。属性坐标轴的次序对于结论直观性影响很大。
星型坐标和Chernoff脸：略

可视化原则

ACCENT原则，对于可视化方法的选取原则。

理解，apprehension
清晰，clarity
一致，consistency
有效，efficientcy
必要，necessity
真实，truthfulness

OLAP和多维数据分析

OLAP，联机分析处理，将数据集看做多维数组，每一行表示一个（或一类）对象，每一列是一个属性。当然可以进行合适的数据聚集等处理。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345

第三章 数据探索