数据挖掘, 概念与技术 Chapter 2. 认识数据

几句主题外：开通了专栏，这样我就在干脆把最近整理的乱七八糟的东西都写在这里。

打开方式：先看书或者别的资料，再有选择性的看一些知识点。全文可能很枯燥，也没有一本精心编写的教科书来的丰富有趣。

快速过一遍：跳到keyword，查看有没有不大清楚的词。

keyword: average, median, mode, univariate, bivariate, nominal attribute, ordinal attribute, numeric attribute, quantile, quartile, 五数概括, boxplot, variance, standard deviation, Quantile-Quantile Diagram, Jaccard, Minkowski distance

1.统计学的常用统计概念

中位数median，理论上是所有出现数值按从小到大顺序排列后最中间的那个数

实际的定义：

当出现次数是奇数，那么中位数是确定且唯一的。

当出现次数是偶数，那么中位数是不确定且不唯一的，中位数的取值范围应该是最中间的两个数 [a, b].

众数mode，出现次数最多的那个数。这个数可能不唯一，导致函数是单峰的unimodal、双峰的bimodal、多峰的multimodal.

注意：不是说众数只有1个，函数就只有这一个极大值了，只能说明函数只有这一个最大值，即函数图像仍有可能有几处凸起。

平均数average，把该attribute的所有的出现的数值加在一起，除以该attribute所有出现数值的次数

加权平均数weighted average：平均数的广义版本，即在每个数据有不同的权重时，每项系数乘以权重，分母为所有权重之和

image

截尾均值trimmed mean: 用于处理离群点比较多的情况，砍掉最小和最大的一小部分，例如各5%，再取均值。

分位数quantile: 即按照数据分布函数，把数据等分为n块“大小”相等的区域。在大多数情况下，我们考虑四分位数(quartile)和百分位数(precentile).

四分位数极差IQR：这个度量可以在某种程度上帮助我们建立对分部情况的大致了解，包括分布是否倾斜等。

五数概括(five-number summary): 中位数Q2、四分位数Q1,Q3, 最小和最大观测值

盒图boxplot: 五数概括的直观体现

1.盒的端点一般在四分数位Q1, Q3上

2.中位数用盒內实线标记

3.盒外的虚线延伸到最小和最大观测值，但最多向上延伸到1.5倍IQR(如果小于1.5倍IQR的值没有达到1.5倍IQR,延伸到这个值就可以了).

如果有超过1.5倍IQR的值，单独标出

image

方差variance: 数据稳定性的一个观测标准，即所有值和平均值之差的平方和。

image

标准差standard deviation: 方差的平方根

分位数-分位数图(quantile-quantile diagram): 通过可视化图表观察从一个分布到另一个分布是否有漂移。

image

2.属性attribute

属性,是单个数据条目被视作数据对象的情况下，表示数据对象特征的。

在数据仓库中通常用别名维dimension来表示属性。

在机器学习中通常用特征feature来表示属性。

2-1. 标称属性nomial attribute

标称属性的值是一些符号或事物的名称，它的值不必具有有意义的序(与叙述属性区分开)。

e.g. hair_color 是一个标称属性，它的取值包括black, brown, white等。

2-2. 二元属性

二元属性是一种标称属性，只有两个类别或状态，0或1，二元属性又称布尔属性。

通常，取值0表示该属性不出现，取值1表示该属性出现。

如果两种状态同等价值且携带了相同权重，e.g. 性别男女，呢么他是对称的

如果两种状态是非对称的，其状态的结果不是同样重要的。e.g. HIV的阳性和阴性

2-3 序数属性 ordinal attribute

与标称属性的概念有所区别，叙述属性是可能的值之间有一定有意义的序(order)或秩(rank)组成的。

e.g. 职称讲师，副教授，教授...

满意度不满意->非常满意

2-4 数值属性numeric attribute

数值属性是定量的，即他是可度量的量，用整数或实数值表示。

区间标度interval-scaled，能比较数值的绝对差值(e.g.20摄氏度比10摄氏度高10摄氏度)

比率标度ratio-scaled，具有固定零点，因而可以比较比率(e.g.100美元是1美元的100倍)

2-5 属性的连续和离散

值得强调的是，离散数据并不一定是有穷的，可以是无穷多个e.g.整数集

2-6 度量数据的相似性和相异性

相似性similarity和相异性dissimilarity都称为邻近性proximity.

相异性矩阵 dissimilarity matrix：由d(i, j) 组成的下三角矩阵

其中d(i, j)为数据对象i和j的相异性度量。

对于标称数据，相似性 sim(i, j) = 1 - d(i, j)

[图片上传失败...(image-87407f-1544357430184)]

d(i, j ) = \frac{p-m}{p}

其中m是match属性的总数，p是#property

上述相异性计算式是一元属性的，接下来讨论二元属性

[图片上传失败...(image-37aa3f-1544357430184)]

d(i, j ) = \frac{r+s}{q+r+s+t}

其中，q为i, j 中都取1的属性个数，r为i中取1， j中取0的属性个数，s为i中取0j中取1的属性个数，t为i, j中都取0的属性个数

负匹配t被认为是不重要的，在计算中常常被忽略，则得到：

[图片上传失败...(image-76e119-1544357430184)]

d(i, j ) = \frac{r+s}{q+r+s}

则此时 [图片上传失败...(image-5a6938-1544357430184)]

sim(i, j) = 1-d(i, j ) = \frac{q}{q+r+s}

这个系数sim(i, j)被称为Jaccard系数

数值数据的相异性：距离

image

当p=2, 该距离又称为欧几里得距离(Euclidean Distance)，即通常我们所说的直线距离

当p=1, 该距离又称为曼哈顿距离(Manhattan Distance)，即沿着坐标轴累积的“街区”距离

在某些文献中，Minkowski Distance又称为Lp norm.

上确界距离(Lmax或切比雪夫距离Chebyshev Distance)，h->infinite时的距离,即极限距离。

假设所分析的数据包括属性age, 它在数据源组中的值（以递增序）为13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70.

(a)该数据的均值是多少？中位数是什么？

avg = 809 / 27 = 29.96

median = 25

(b)该数据的众数是什么？讨论数据的模态？

mode=25, 35（都是4个), bimodal

(c)该数据的中列数是什么？

中列数即最大值和最小值两个值的平均值，这个值在数据挖掘中很少使用，因为离群点会造成这个值很大的变动。

midrange = (70+13)/2 = 41.5

(d)你能（粗略的）找出该数据的四分位数Q1和Q3吗？

可以，我们通过第二个四分位数Q2为中位数可得，前半段的中位数大约是Q1,后半段的中位数大约是Q3,这样的估计方法实际上是不准确的。

粗略的, Q1 = 20.5

Q3 = 35

(e)五数概括

max = 70

min = 13

Q1 = 20.5

Q2(median) = 25

Q3 = 35

(f)绘制盒图

image

两个轴和标度数据略

(g)分位数图和Q-Q图有什么区别？

分位数图只涉及单个分布，可以看出对于单一属性，它的分布情况。

Q-Q图是两个分布的比较，通过比较可以看出属性A到属性B是否有漂移，这是属性间的相对关系。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345

数据挖掘, 概念与技术 Chapter 2. 认识数据

推荐阅读更多精彩内容