第三章 数据探索

[TOC]


探索数据

  • 内容:汇总统计、可视化和联机分析处理(OLAP)
  • 作用:数据初步探究,利于选择合适的数据预处理和数据分析技术。

汇总统计

汇总统计,summary statistics,用单个数或数的小集合捕获很大的值集的各种特征。

  • 频率(frequence)众数(mode):值x的频率定义为所有对象中该属性取值为x的对象比率。众数定义为具有最高频率的值。频率和众数能反应一个属性的值的取值情况,但常常对连续变量来说无效,因为连续变量的单个值可能出现次数不过1.

  • 百分位数:在[min,max]区间上划分百分比点,选出每个点上的数,即为p百分位数。如值区间为[0,100]的值x,$$min(x)=0=x_{0%},max(x)=100=x_{100%}$$.百分位数的条件是数据有序。

  • 位置度量——均值和中位数:连续数据常统计均值(mean)和中位数(median),他们是值集位置的度量。均值就是平均数,中位数就是有序序列最中间的某一个值(元素数量为奇数)或中间两个值的平均值(元素数量为偶数)。受离群点、异常值影响,为此提出截断均值(trimmed mean),将有序列的P个百分位去除之后再计算均值,显然这P个百分位会对半分到高端和低端,即去掉最高的百分之0.5P,再去掉最低的百分之0.5P,剩下的数做平均。此处截断针对的值的个数,如100个实体,截断百分之10,则排序后,删除最高5个数,最低5个数

  • 散布度量——极差和方差:极差(range)通俗理解为取值范围,$$range(x)=max(x)-min(x)$$,显然极差是极受异常点影响的。而方差(variance)、标准差(standard deviation)通过均值计算而来,均值也是受离群点影响的,故它俩也是对离群点敏感的。$$variance(x)=s_x2=\frac{1}{m-1}\sum\limits_{i=1}m(x_i-\bar{x})^2$$,而标准差s取方差开方即可。

    针对上述离群点影响问题,提出了绝对平均偏差(absolute average deviation,AAD)、中位数绝对偏差(median absolute deviation,MAD)、四分位数极差(interquartile range,IQR)

    $$AAD(x)=\frac{1}{m}\sum\limits_{i=1}^m{|x_i-\bar{x}|}$$

    $$MAD(x)=median({|x_1-\bar{x}|,...,|x_m-\bar{x}|})$$

    $$interquartile range(x)=x_{75%}-x_{20%}$$,75%-25%的极差,消除了离群点影响

  • 多元汇总统计:之前都是针对单个属性,若数据对象包含多个属性(多维、多元数据),数据对象的均值可用每个属性的均值表示。多元数据中,各个属性间通常不是独立的,考虑每个属性的散布可能作用不大,可以尝试分析两两属性间联合的散布情况,即协方差矩阵(covariance matrix,S),矩阵S的第ij个元素表示第i个和第j个属性的协方差。协方差矩阵给出所有的属性对之间的散布度量。

    $$s_{ij}=covariance(x_i,x_j)=\frac{1}{m-1}\sum\limits_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}),x_{ki}和x_{kj}$$分别表示第k个对象的第i个和第j个属性的值。

    协方差矩阵描述了数据集所有数据在各属性对上的联合散布情况,体现的是属性取值的情况,虽然矩阵元素为0表示该属性对不具有线性关系,但并不能给出关联程度,需要相关矩阵(correlation matrix)给出各属性间的相关性。

    $r_{ij}=correlation(x_i,x_j)=\frac{covariance(x_i,x_j)}{s_is_j}$,$s_i$和$s_j$分别表示$x_i$和$x_j$的方差,R的对角线元素显然为1(x与x自身的相关性),其他元素在-1到1之间。


可视化

可视化的目标是形成可视化信息的人工解释和信息的意境模型。

一般概念

  • 表示:数据到图形元素的映射。这是可视化的第一步,将数据信息映射成可视形式。
    • 对象的三种表示方式:
      • 考虑单个分类属性:根据该属性值将对象聚成类。
      • 具有多个属性:将对象显示为表的一行或列,或显示为一条线。
      • 对象也常常被解释为n维空间中的点。
    • 对于属性:其表示取决于属性的类型。每个分类属性可以映射到不同的位置、颜色、形状、尺寸等等。
    • 难点:可视化的主要难点是确定一种技术,能表达数据的内在联系,如对象之间、属性之间的联系。
  • 项的安排:可视化中,项的安排对图像的表达起到很大作用,如规则矩阵打乱行列之后可能很难看出其规律性。
  • 选择:数据集很大时,图像的显示过密可能会掩盖数据的信息。因此需要适当的选取数据信息。
    • 通常多属性可以选取属性子集做表达(通常是两个属性),维度不高的时候可以做属性对(双属性)矩阵观察。选取一对属性的时候采用维归约技术,如PCA。
    • 数据点多的时候,可以通过样本抽查方式减少可视化的数据量。

可视化技术

可视化技术通常对于分析的数据是专用性的。

少量属性的可视化

这里主要讨论单个属性观测值的分布和两个属性值之间的关系。

  • 茎叶图,stem and leaf plot:观测一维整形或连续数据的分布。类似与横向的直方图。
  • 直方图,histogram:对于连续属性值,通常采用分箱。也叫条形图(bar plot),每个条形的面积正比于落在该区间的对象的个数。也可演变成相对频率直方图(relative frequency histogram),用相对频率代替值的计数。
  • 二维直方图,two-dimensional histogram:三维图形,三个正交的轴分别表示两个属性值和对应的数据对象的计数。
  • 盒装图,box plot:用以显示一维数值属性分布的方法,实质是表达属性所有取值区间上的10\25\50\75\90百分位数的取值,以及离群点。通过盒子中间[25,50,90]这三段两个部分能看出数据的主体分布区间。
  • 饼图,pie chart:用于属性取值较少的分类属性,用圆的相对面积表达不同值的相对频率,相比而言,直方图更常用。
  • 百分位数图(percentile plot)& 经验累积分布图(empirical cumlative function,CDF):百分位图的两轴分别为百分位值和该百分值时的属性取值,再直线连接这一系列点形成折线图,能看出各百分位的属性取值。经验累积分布图表达各属性值的累积分布概率,横轴为值的取值范围,纵轴表达累计概率([0,1]之间)。
  • 散布图,scatter plot:使用数据对象的两个属性值作为坐标轴,每个数据作为平面上的一个点,可以大致看出两个属性之间的联系,或在给出类标号的情况下可以考察两个属性将类分开的程度。同时安排所有属性对的散布图得到一种散布图矩阵(scatter plot matrix),可对比观测出所有属性对的联系。当然散布图还可以拓展为三维散布图,根据三种属性的取值情况在空间中绘制数据对象的点。

时间空间数据可视化

  • 等高线图,contour plot:两个属性在指定平面上,第三个属性具有连续性,如温度、海拔等,可采用等高线图。
  • 曲面图,surface plot:通常描述数学函数或变化相对较为光滑的物理曲面。
  • 矢量场图,vector field plot:略
  • 低维切片:对于时间空间数据集,可用一组图对某一维度“切片”,如对时间切片,每一幅图只展现空间和其他数据信息,而时间维度变化可通过一系列图的对比变化得出。

高维数据可视化

  • 矩阵:在用矩阵表达多维数据的时候,若给出类标号,则重新排列数据矩阵的次序是有效的。
  • 平行坐标系,parallel coordinates:每个属性是一个坐标轴,但所有的属性不正交,而是平行的(类似于直方图的做法,但粒度和侧重不同),对象用线表示。对象每个属性的值映射到与该属性关联的坐标轴上的点,连接这些点,就是该对象的表达。属性坐标轴的次序对于结论直观性影响很大
  • 星型坐标和Chernoff脸:略

可视化原则

ACCENT原则,对于可视化方法的选取原则。

  • 理解,apprehension
  • 清晰,clarity
  • 一致,consistency
  • 有效,efficientcy
  • 必要,necessity
  • 真实,truthfulness

OLAP和多维数据分析

OLAP,联机分析处理,将数据集看做多维数组,每一行表示一个(或一类)对象,每一列是一个属性。当然可以进行合适的数据聚集等处理。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容

  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,843评论 1 10
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,601评论 18 139
  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,869评论 6 13
  • 你不主动,我不主动,然后我们的关系就慢慢消失了,人与人之间没有谁离不开谁,只有谁不珍惜谁,一个转身,两个世界。 一...
    一只猫2阅读 123评论 0 1
  • 如果一天有32个小时, 工作也只是八个小时, 那梦里的时光就会长很多。 每天晚上, 我们都可以一起悠闲的吃个饭, ...
    苦一笑阅读 287评论 2 3