《Discovering Statistics Using R》笔记6-箱形图和离群值

新冠肺炎疫情期间本职工作比较忙。。。好久没更新简书了OTL

笔记说明

读《Discovering Statistics Using R》第四章 Exploring data with graphs中的4.7节箱形图 以及5.8.1节 处理离群值 做的笔记。主要是介绍箱形图和离群值。之前本系列笔记跳过了第四章的内容,因为对于用R作图我打算另开文集来写的。特意又跳回4.7节是因为按照之前笔记顺序该做如何处理离群值的内容了。

示例数据

一个生物学家怀疑音乐节会对人的健康产生影响,他找了810个音乐会观众,收集了音乐节三天他们的卫生情况,卫生情况得分0-4.我们使用该数据的未去除极端值的版本DownloadFestival.dat

# 数据导入
library(rio)
dlf <- import("data/DownloadFestiva.dat")
head(dlf)
##   ticknumb gender day1 day2 day3
## 1     2111   Male 2.64 1.35 1.61
## 2     2229 Female 0.97 1.41 0.29
## 3     2338   Male 0.84   NA   NA
## 4     2384 Female 3.03   NA   NA
## 5     2401 Female 0.88 0.08   NA
## 6     2405   Male 0.85   NA   NA

箱形图

箱形图是展示连续性变量情况很好的方法。
箱体的中间表示中位数
箱体的两端表示为下四分位数(Q1)和上四分位数(Q3)
箱体两端向外分出两条“触须”,触须长度不超过1.5倍的四分位间距(interquartile range IQR=Q3-Q1)

接下来我们使用箱形图来分性别(gender)展示示例数据中第一天卫生评分的情况(day1):

library(ggplot2)
festivalBoxplot <- ggplot(dlf, aes(gender, day1)) +
    geom_boxplot() + labs(x = "Gender", y = "Hygiene (Day 1 of Festival)")

在生成的箱形图中我们可以看到女性组里有一个明显的离群值(outlier)。

离群值

离群值(outlier)也叫异常值,简单来说就是与其他数据点明显不同的测量值。在箱形图中:
大于上四分位数+1.5倍四分位间距的值或者小于下四分位数-1.5倍四分位间距的值被定义为离群值。
大于上四分位数+3倍四分位间距的值或者小于下四分位数-3倍四分位间距的值被定义为极端离群值(extreme outliers)。
离群值对一些统计量影响很大(比如均值),因此有时需要留意。

我们对原始数据按照day1变量降序排列后可以找到那个离群值:

library(dplyr)
dlf <- dlf %>% arrange(desc(day1))
head(dlf)
##   ticknumb gender  day1 day2 day3
## 1     4158 Female 20.02 2.44   NA
## 2     4016 Female  3.69   NA   NA
## 3     3374   Male  3.58 3.35   NA
## 4     4264   Male  3.44   NA   NA
## 5     3371 Female  3.41   NA   NA
## 6     3338 Female  3.38   NA   NA

离群值的处理

发现离群值后有几种常用方法可以减少离群值对分析的影响。在应用这些方法前需要先检查一下离群值是否是数据错误录入造成。如果数据录入无误,主要有三种处理方法:

  • 剔除离群值
    当有理由认为该样本不属于目标总体时可以采用这种方式。
  • 数据转换
  • 更改测量值
    常见的具体更改方法:
    (1)用次高或次低的测量值替代
    (2)用Z分数反推出替代值。
    Z值大于3.29也是判定离群值的一种方法。据此可以反推Z值为3.29时对应测量值应该是多少:X=(Z×s)+\overline{X},用该值代替离群值
    (3)均值加或减2倍标准差,

用if_else()或ifelse()进行数据修改

有理由认为这个20.02的离群值应该是2.02由于错误录入造成的。这时应该去找原始数据进行核实。假设我们经核实确实应该是2.02,现在把它改正。
这里我使用dplyr包的if_else()进行数据修改,其用法和R自带的ifelse()基本一致:if_else(condition, true, false, missing = NULL),当condition的判断为TRUE时返回true参数的值,当condition的判断为FALSE时返回false参数的值。

dlf$day1 <- if_else(dlf$day1 == 20.02, 2.02, dlf$day1)
head(dlf)
##   ticknumb gender  day1 day2 day3
## 1     4158 Female  2.02 2.44   NA
## 2     4016 Female  3.69   NA   NA
## 3     3374   Male  3.58 3.35   NA
## 4     4264   Male  3.44   NA   NA
## 5     3371 Female  3.41   NA   NA
## 6     3338 Female  3.38   NA   NA

修改后再做一次箱形图:



从箱形图中我们可以看出数据分布的范围、中位数水平、中间50%的数据分布的范围(箱体)、最高25%的数据分布范围和最低25%的数据分布范围。通过箱形图还可以看出数据分布是否对称:如果上下触须长度相近则数据分布大致对称。另外,触须以外的点展示了离群值的情况。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343