2024-03-29基因型分布画出箱线图标注显著性

GWAS分析后，显著性的SNP，我们想把不同的分型在群体里面的表型进行可视化，现在最流行的方法是箱线图+散点图+显著性标识，类似的图片如下：

图片.png

上面A、B、C是三种基因型，比如AA、AT、TT，可以看到A分型显著低于B和C分型，B和C分型之间差异不显著。这个图包括：箱线图+散点图+显著性，非常直观，一图胜千言。

除了上面的上面的需求，我们还有其他的图可以绘制，具体汇总如下：

本节要实现下面截个图：

「单因素二水平T检验箱线图可视化」

图片.png

「单因素三水平T检验箱线图可视化」

图片.png

「单因素三水平柱形图」

图片.png

「单因素三水平折线图」

图片.png

「二因素柱形图」

图片.png

「二因素折线图」

图片.png

单因素二水平
这种试验，比如有两个品种，株高的差异，每个品种调查了10株，就构成了这样的试验数据。

「模拟数据：」

set.seed(123)
y1 = rnorm(10) + 5
y2 = rnorm(10) + 15
dd = data.frame(Group = rep(c("A","B"),each=10),y = c(y1,y2))
dd
str(dd)
dd$Group = as.factor(dd$Group)

「数据：」

> dd
   Group         y
1      A  4.439524
2      A  4.769823
3      A  6.558708
4      A  5.070508
5      A  5.129288
6      A  6.715065
7      A  5.460916
8      A  3.734939
9      A  4.313147
10     A  4.554338
11     B 16.224082
12     B 15.359814
13     B 15.400771
14     B 15.110683
15     B 14.444159
16     B 16.786913
17     B 15.497850
18     B 13.033383
19     B 15.701356
20     B 14.527209

这里，使用的是ggpubr包进行绘图：
1.1 绘制箱线图

library(ggplot2)
library(ggpubr)
ggboxplot(dd,x = "Group",y = "y")

图片.png

1.2 箱线图添加不同颜色

ggboxplot(dd,x = "Group",y = "y",color = "Group")

图片.png

1.3 箱线图添加散点图

ggboxplot(dd,x = "Group",y = "y",color = "Group",add = "jitter")

图片.png

1.4 箱线图+散点图+显著性水平
这里，默认的统计方法是非参数统计Wilcoxon，如果想用t.test，见下面操作

ggboxplot(dd,x = "Group",y = "y",color = "Group",add = "jitter") + 
  stat_compare_means()

图片.png

1.5 用t.test作为统计方法

ggboxplot(dd,x = "Group",y = "y",color = "Group",add = "jitter") + 
  stat_compare_means(method = "t.test")

图片.png

1.6 直接输出显著性

ggboxplot(dd,x = "Group",y = "y",color = "Group",add = "jitter") + 
  stat_compare_means(method = "t.test",label = "p.signif")

图片.png

单因素三水平
二个水平可以用T检验，三个水平或者多个水平的数据，如何检验呢？

「模拟数据：」

# 构建三个水平 ANOVA
set.seed(123)
y1 = rnorm(10) + 5
y2 = rnorm(10) + 15
y3 = rnorm(10) + 15

dd = data.frame(Group = rep(c("A","B","C"),each=10),y = c(y1,y2,y3))
dd
str(dd)
dd$Group = as.factor(dd$Group)

「数据如下：」

> dd
   Group         y
1      A  4.439524
2      A  4.769823
3      A  6.558708
4      A  5.070508
5      A  5.129288
6      A  6.715065
7      A  5.460916
8      A  3.734939
9      A  4.313147
10     A  4.554338
11     B 16.224082
12     B 15.359814
13     B 15.400771
14     B 15.110683
15     B 14.444159
16     B 16.786913
17     B 15.497850
18     B 13.033383
19     B 15.701356
20     B 14.527209
21     C 13.932176
22     C 14.782025
23     C 13.973996
24     C 14.271109
25     C 14.374961
26     C 13.313307
27     C 15.837787
28     C 15.153373
29     C 13.861863
30     C 16.253815

2.1 箱线图+散点图

p = ggboxplot(dd,x = "Group",y = "y",color = "Group",add = "jitter") 
p

图片.png

2.2 箱线图+散点图+显著性

p + stat_compare_means(method = "anova")

图片.png

2.3 两两之间显著性绘制

my_comparisons = list( c("A", "B"), c("A", "C"), c("B", "C") )
p + stat_compare_means(comparisons = my_comparisons,
                       # label = "p.signif",
                       method = "t.test")

图片.png

2.4 显示显著性

p + stat_compare_means(comparisons = my_comparisons,
                       label = "p.signif",
                       method = "t.test")

两因素数据
「模拟数据：」

# 两个因素的数据
set.seed(123)
y1 = rnorm(10) + 5
y2 = rnorm(10) + 8
y3 = rnorm(10) + 7
y4 = rnorm(10) + 15
y5 = rnorm(10) + 18
y6 = rnorm(10) + 17

dd = data.frame(Group1 = rep(c("A","B","C"),each=10),
                Group2 = rep(c("X","Y"),each=30),
                y = c(y1,y2,y3,y4,y5,y6))
dd
str(dd)
dd$Group1 = as.factor(dd$Group1)
dd$Group2 = as.factor(dd$Group2)
str(dd)

「数据预览：」

> dd
   Group1 Group2         y
1       A      X  4.439524
2       A      X  4.769823
3       A      X  6.558708
4       A      X  5.070508
5       A      X  5.129288
6       A      X  6.715065
7       A      X  5.460916
8       A      X  3.734939
9       A      X  4.313147
10      A      X  4.554338
11      B      X  9.224082
12      B      X  8.359814
13      B      X  8.400771
14      B      X  8.110683
15      B      X  7.444159
16      B      X  9.786913
17      B      X  8.497850
18      B      X  6.033383
19      B      X  8.701356
20      B      X  7.527209
21      C      X  5.932176
22      C      X  6.782025
23      C      X  5.973996
24      C      X  6.271109
25      C      X  6.374961
26      C      X  5.313307
27      C      X  7.837787
28      C      X  7.153373
29      C      X  5.861863
30      C      X  8.253815
31      A      Y 15.426464
32      A      Y 14.704929
33      A      Y 15.895126
34      A      Y 15.878133
35      A      Y 15.821581
36      A      Y 15.688640
37      A      Y 15.553918
38      A      Y 14.938088
39      A      Y 14.694037
40      A      Y 14.619529
41      B      Y 17.305293
42      B      Y 17.792083
43      B      Y 16.734604
44      B      Y 20.168956
45      B      Y 19.207962
46      B      Y 16.876891
47      B      Y 17.597115
48      B      Y 17.533345
49      B      Y 18.779965
50      B      Y 17.916631
51      C      Y 17.253319
52      C      Y 16.971453
53      C      Y 16.957130
54      C      Y 18.368602
55      C      Y 16.774229
56      C      Y 18.516471
57      C      Y 15.451247
58      C      Y 17.584614
59      C      Y 17.123854
60      C      Y 17.215942

3.1 绘制分组箱线图

p = ggboxplot(dd,x = "Group1",y="y",color = "Group2",
              add = "jitter")
p

图片.png

3.2 增加P值

p + stat_compare_means(aes(group = Group2),method = "t.test")

图片.png

3.3 修改为显著性结果

p + stat_compare_means(aes(group = Group2),method = "t.test",label = "p.signif")

图片.png

3.4 将分组数据分开绘制

p = ggboxplot(dd,x = "Group2",y="y",color = "Group1",
              add = "jitter",facet.by = "Group1")
p

图片.png

3.5 分组显示统计检验

p + stat_compare_means(method = "t.test")

图片.png

3.6 分组显示显著性结果

p + stat_compare_means(method = "t.test",label = "p.signif",label.y = 17)

图片.png

单因素直方图绘制

直方图+标准误，之前用ggplot2需要很长的代码，这里有更好的方案。
4.1 直方图+标准误

p = ggbarplot(dd,x = "Group1",y = "y",add = "mean_se",color = "Group1")
p

图片.png

4.2 直方图+标准误+显著性

p + stat_compare_means(method = "anova",,label.y = 15)+ 
  stat_compare_means(comparisons = my_comparisons)

图片.png

单因素折线图绘制
5.1 折线图+标准误

p = ggline(dd,x = "Group1",y = "y",add = "mean_se")
p

图片.png

5.2 折线图+标准误+显著性

p + stat_compare_means(method = "anova",,label.y = 15)+ 
  stat_compare_means(comparisons = my_comparisons)

图片.png

二因素直方图绘制
6.1 直方图+标准误

p = ggbarplot(dd,x = "Group1",y = "y",add = "mean_se",color = "Group2", position = position_dodge(0.8))
p

图片.png

6.2 直方图+标准误+显著性

p + stat_compare_means(aes(group=Group2), label = "p.signif")

图片.png

二因素折线图绘制
7.1 折线图+标准误

p = ggline(dd,x = "Group1",y = "y",add = "mean_se",color = "Group2", position = position_dodge(0.8))
p

图片.png

7.2 折线图+标准误+显著性

p + stat_compare_means(aes(group=Group2), label = "p.signif")

图片.png

代码汇总
下面代码是所有代码的汇总，里面包括生成数据，做不同类型的图。只需要将数据整理为这种格式，就可以出图了，对于初学者而言，是最简单最快捷的方法。show you the code！

# > 欢迎关注我的公众号：`育种数据分析之放飞自我`。主要分享R语言，Python，育种数据分析，生物统计，数量遗传学，混合线性模型，GWAS和GS相关的知识。

# 构建两个水平 T-test
set.seed(123)
y1 = rnorm(10) + 5
y2 = rnorm(10) + 15
dd = data.frame(Group = rep(c("A","B"),each=10),y = c(y1,y2))
dd
str(dd)
dd$Group = as.factor(dd$Group)

library(ggplot2)
library(ggpubr)
ggboxplot(dd,x = "Group",y = "y")
ggboxplot(dd,x = "Group",y = "y",color = "Group")
ggboxplot(dd,x = "Group",y = "y",color = "Group",add = "jitter")
ggboxplot(dd,x = "Group",y = "y",color = "Group",add = "jitter") + 
  stat_compare_means()

ggboxplot(dd,x = "Group",y = "y",color = "Group",add = "jitter") + 
  stat_compare_means(method = "t.test")

ggboxplot(dd,x = "Group",y = "y",color = "Group",add = "jitter") + 
  stat_compare_means(method = "t.test",label = "p.signif")




# 构建三个水平 ANOVA
set.seed(123)
y1 = rnorm(10) + 5
y2 = rnorm(10) + 15
y3 = rnorm(10) + 15

dd = data.frame(Group = rep(c("A","B","C"),each=10),y = c(y1,y2,y3))
dd
str(dd)
dd$Group = as.factor(dd$Group)

p = ggboxplot(dd,x = "Group",y = "y",color = "Group",add = "jitter") 
p
p + stat_compare_means(method = "anova")


# Perorm pairwise comparisons
# compare_means(y ~ Group,  data = dd,method = "anova")

my_comparisons = list( c("A", "B"), c("A", "C"), c("B", "C") )
p + stat_compare_means(comparisons = my_comparisons,
                       # label = "p.signif",
                       method = "t.test")

p + stat_compare_means(comparisons = my_comparisons,
                       label = "p.signif",
                       method = "t.test")

# 两个因素的数据
set.seed(123)
y1 = rnorm(10) + 5
y2 = rnorm(10) + 8
y3 = rnorm(10) + 7
y4 = rnorm(10) + 15
y5 = rnorm(10) + 18
y6 = rnorm(10) + 17

dd = data.frame(Group1 = rep(c("A","B","C"),each=10),
                Group2 = rep(c("X","Y"),each=30),
                y = c(y1,y2,y3,y4,y5,y6))
dd
str(dd)
dd$Group1 = as.factor(dd$Group1)
dd$Group2 = as.factor(dd$Group2)
str(dd)

## 分组查看
p = ggboxplot(dd,x = "Group1",y="y",color = "Group2",
              add = "jitter")
p
p + stat_compare_means(aes(group = Group2),method = "t.test")
p + stat_compare_means(aes(group = Group2),method = "t.test",label = "p.signif")

## 分组查看
p = ggboxplot(dd,x = "Group2",y="y",color = "Group1",
              add = "jitter",facet.by = "Group1")
p
p + stat_compare_means(method = "t.test")
p + stat_compare_means(method = "t.test",label = "p.signif",label.y = 17)


# 单分组
# 三水平直方图
p = ggbarplot(dd,x = "Group1",y = "y",add = "mean_se",color = "Group1")
p
p + stat_compare_means(method = "anova",,label.y = 15)+ 
  stat_compare_means(comparisons = my_comparisons)

# 有误差的折线图
p = ggline(dd,x = "Group1",y = "y",add = "mean_se")
p
p + stat_compare_means(method = "anova",,label.y = 15)+ 
  stat_compare_means(comparisons = my_comparisons)


# 二分组
p = ggbarplot(dd,x = "Group1",y = "y",add = "mean_se",color = "Group2", position = position_dodge(0.8))
p
p + stat_compare_means(aes(group=Group2), label = "p.signif")


# 有误差的折线图
p = ggline(dd,x = "Group1",y = "y",add = "mean_se",color = "Group2", position = position_dodge(0.8))
p
p + stat_compare_means(aes(group=Group2), label = "p.signif")

本文引自育种数据分析之放飞自我

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345

2024-03-29基因型分布画出箱线图标注显著性

推荐阅读更多精彩内容