R数据分析：孟德尔随机化实操

好多同学询问孟德尔随机化的问题，我再来尝试着梳理一遍，希望对大家有所帮助，首先看下图1分钟，盯着看将下图印在脑海中：

[图片上传失败...(image-9bf17c-1668168748272)]

上图是工具变量（不知道工具变量请翻之前的文章）的模式图，明确一个点：我们做孟德尔的时候感兴趣的是x和y的关系，也就是小b，但是我们直接去跑x对y的回归肯定是不对的，因为有很多的U，因此我们借助工具变量G（关于工具变量我们之前的文章有详细的解释，请自行查阅），去估计我们感兴趣的小b。

现在有天然良好的工具变量G，也就是我们的基因变量，此时有上面的图，再次重申：我们感兴趣的，最终希望得到准确估计的值是小b，按照上图我们应该有GY的关系是ab，GX的关系是a，于是乎b可以写成ab/a，就是我们感兴趣的b可以换一种思路得到，如下：

[图片上传失败...(image-363f74-1668168748272)]

上面的式子要跑通的话，我们需要知道G-Y的关系和G-X的关系。

但是我们GY也就是基因和结局的关系已经有人给我们研究好了，我们可以直接去GWAS里面找研究好的summarydata拿来用就行。

但是我们的的GX也就是基因和暴露的关系也已经有人给我们研究好了，我们可以直接去GWAS里面找研究好的summarydata拿来用就行。

也就是说，通过孟德尔随机化，我们完全可以毫不费力地估计出我们需要的小b，也就是暴露和结局的关系----就是今天要再次给大家介绍的孟德尔随机化研究。

思路就是这么清晰。就是这么清晰。搞不明白的同学再多读几遍。

术语解析

为了帮助大家理解思想，在孟德尔随机化的实操中有几个术语得提点一波：

连锁不平衡（linkage disequilibrium）：刚刚讲我们可以有很多的基因结局/暴露的关系的，就是GWAS里面好些基因可以用，这个时候我们不希望基因之间有相关（会造成double counting，使得结果偏倚）：

[图片上传失败...(image-96faae-1668168748272)]

我们实际做的时候，模式是像上图，snp之间你说不相干就不相干？当两个位点的不同等位基因的关联频率高于或低于独立随机关联的条件下的期望频率，这种情况是客观存在的，此时时这些工具变量之间相关性就叫连锁不平衡，其大小可以用LD r方来表示，这个指标也是我们在操作时需要设定的指标之一。

水平基因多效性（Horizontal Pleiotropy）：理解这个概念先看下图：

[图片上传失败...(image-b6893b-1668168748272)]

意思是我的理想的情况是通过ab/a的操作估计出b，但是看上图，是不是免不了会出现f这条路径，如果出现了f，我们的基因和结局之间的关系就是f+ab，此时，我用原来的方法估计的就不是b了，而是b+f/a了，就不对了（始终记住我们关心的是b）。

但是如果我的基因变量很多，从而有很多的f，如果所有f的期望均值为0，那么最后我们汇总一下得到的结果也基本上就是b了，无伤大雅。但是就怕所有的f都是一边偏向的（都大于0或都小于0），此时就有问题了，叫做定向多效性directional pleiotropy，这也是为什么我们最后要做漏斗图的原因。

就是通过漏斗图一看都是所有的工具变量都是呈漏斗分布的，就说明没有偏向，这个时候我们认为定向多效性都被冲掉了，不影响。

好，解释了上面的一些术语之后，我们实操一波。

实操

最基本的例子：BMI on CHD的例子，我想看一下BMI作为暴露，CHD作为结局的mr，代码就4条：

bmi_exp_dat <- extract_instruments(outcomes = 'ieu-a-2')
chd_out_dat <- extract_outcome_data(snps = bmi_exp_dat$SNP, outcomes = 'ieu-a-7')
dat <- harmonise_data(bmi_exp_dat, chd_out_dat)
res <- mr(dat)

结果如下，下图中有不同方法出来的我们关心的小b：

[图片上传失败...(image-38f4e7-1668168748272)]

这个就算做完了，就这么简单快速。

接下来就是敏感性分析，首先是各个工具变量的异质性检验：

mr_heterogeneity(dat)

运行代码后可以得到Cochran’s Q统计量

然后是水平基因多效性检验，代码如下：

mr_pleiotropy_test(dat)

运行代码可以得到egger_intercept

然后是单个SNP结果检验，代码如下：

res_single <- mr_singlesnp(dat)

运行后可以得到每个SNP的小b

[图片上传失败...(image-297c9d-1668168748272)]

然后是留一检验，代码如下：

mr_leaveoneout(dat)

接下来，论文中还会有几个图，首先是点图，代码如下：

mr_scatter_plot(res, dat)

[图片上传失败...(image-9b736a-1668168748272)]

点图是将同一个SNP对暴露的效果放在横轴，对结局的效果放在纵轴，此时图中的斜率就是我们的估计的小b。

然后是单个SNP效应组合的森林图用mr_forest_plot函数可以得到，mr_leaveoneout_plot可以得到留一分析的森林图，mr_funnel_plot可以帮我们得到漏斗图。

到这就出了所有需要报告的东西，做完了。

但是上面的流程有很多的前提，比如你得知道暴露和结局的GWASid才能进行下去，GWAS又有很多，比如你直接用上面的代码的话其实是MR Base GWAS catalog里面的GWAS，当然你还可以选别的，或者用自己找来的最新的GWAS都是可以的。

[图片上传失败...(image-6cc548-1668168748272)]

第一步首先是在相应的GWAS中找到暴露的summary data：

那么有那些GWAS可以供我们使用呢？我们可以直接把GWAS的目录调出来瞅瞅，代码如下：

data(gwas_catalog)

运行后大约可以得到15万个全基因组关联研究的数据，截图如下：

[图片上传失败...(image-a8269d-1668168748272)]

那么对我们而言，我们现在需要找到我们关心的暴露对应的GWAS，比如我现在要找与“blood”表型相关的GWAS，我可以写出如下代码：

exposure_gwas <- subset(gwas_catalog, grepl("Blood", Phenotype_simple)）

上面的代码相当于只用Phenotype_simple这一列做筛选，当然你也可以结合其它的列比如人群，比如作者，比如地区等等，都是可以的。

选好暴露相关的GWAS之后要做的就是进一步确定基因工具变量和暴露的强度，在论文中一般是这么描述：First, relevance assumption was met considering that all SNPs have reached genome-wide significance (p < 5 × 10−8)

具体的操作如下：

exposure_gwas<-exposure_gwas[exposure_gwas$pval<5*10^-8,]

通过上面的步骤保证我们的基因工具变量一定是和暴露强相关。

然后就是将准备好的暴露的GWAS数据形成可以用来做MR分析的数据格式，需要用到format_data()函数：

exposure_data<-format_data(exposure_gwas)

此时的exposure_data大概长这样：

[图片上传失败...(image-9dab47-1668168748272)]

可以看到有很多个基因工具变量SNP，这个时候我们需要考虑连锁不平衡（linkage disequilibrium）：

exposure_data<-clump_data(exposure_data, clump_r2 = 0.001）

上面的代码中clump_r2则是设定的容许相关性，到这儿我们算是手动地将工具变量都筛出来了，解决了找工具变量的问题，还有一个方法是自动筛选工具变量，比如我暴露是bmi，我可以写出如下代码：

subset(ao, grepl("body mass", trait))

[图片上传失败...(image-91f404-1668168748272)]

运行后我知道我可以选的gwasid是ieu-b-40，这个时候我也可以自动提取出工具变量，这两种方法达到的目的都是一样的：

extract_instruments('ieu-b-40')

然后依照工具变量进行结局的summary estimates的提取，提取结局的summary data也需要是需要知道GWASid的对吧，比如我现在关心的结局是收缩压，我就可以写出如下代码：

outcome_gwas <- subset(ao, grepl("Systolic", trait))

运行后我就可以知道所有的和收缩压相关的gwasid了，我选一个最新的，比如我就选下面的2021年的：

[图片上传失败...(image-95c7a7-1668168748272)]

看图我们知道它对于的id是ieu-b-5075,我就这么写：

outcome_data <- extract_outcome_data(
    snps = exposure_data$SNP, outcomes = "ieu-b-5075")

后续通过合并直接做mr分析就可以，流程就没有不同了。

小结

今天给大家写了孟德尔随机话的实操，文章图示例来自【中文孟德尔随机化】英国布里斯托大学MRC-IEU《R语言做孟德尔随机化》第一章：用MRBase网页工具和R包TwoSampleMR做两样本孟德尔随机化_哔哩哔哩_bilibili

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

R数据分析：孟德尔随机化实操

术语解析

实操

小结

推荐阅读更多精彩内容