生信学习笔记：使用SNP data做基因渗入分析 (1)

最近想用自己有的数据做一下基因渗入的分析。由于之前没有了解过太多这方面的知识，于是从github上找到了一份不错的教程，借此机会与大家一起学习一下。

该教程的总结

随机测序生信技术的进步，研究者已经开发了许多基于SNP数据的基因渗入分析方法和流程。其中包括最出名的ABBA-BABA test，该方法使用所谓的D统计量来评估物种的基因渗入程度。最初的ABBA-BABA test，已经以各种方式进行了进一步扩展，包括Dfoil统计量，该数据允许从5种物种中推断出基因渗入的方向，以及更适合基因流鉴定的fD统计量关于基因组某些区域的流动。如果已经鉴定了的杂种个体以及假定的亲本物种，则可以用祖先绘画来研究渐渗的模式，这种方法是在亲本物种和在推定的杂种中的等位基因之间的固定的位点。

SNP数据也可用于系统发育方法去研究基因渗入分析;在最近引入的方法TWISST中实施了一种这样的方法，该方法根据它们被相同物种的不同个体支持的程度来权衡局部SNP系统发育的拓扑。

基本概念

基因渗入(introgression) 是在遗传学（特别是植物遗传学）中，指两个基因库间的基因流动，通常是经过种间杂交产生。基因渗入是一个长期的过程，它可能需要许多代杂交才能产生回交。

ABBA BABA test（也称为D统计）为偏离严格的分叉进化历史提供了简单而有力的统计测试。因此，它们经常使用它研究SNP基因组层面的基因渗入。

不完全谱系分选：基因树与物种谱系树或种群树不一致的现象。

教程概况

在本教程中，将会介绍三种不同方法，用于分析SNP数据的基因渗入：使用ABBA-BABAtest获得的D-统计量，使用TWISST进行拓扑加权和利用血统关系进行绘图分析。由于推荐使用分阶段数据进行TWISST分析，因此在此分析之前将使用BEAGLE软件进行等位基因phasing。

所使用的测试数据

简单来说，该SNP数据集是由下表中列出的14种慈鲷物种的28个样本组成的，并且该SNP数据已经基于读取质量和深度进行过滤。该SNP数据集，只包括能比对到到罗非鱼基因的5号染色体的SNP。

Sample ID	Species ID	Species name	Tribe
IZA1	astbur	Astatotilapia burtoni	Haplochromini
IZC5	astbur	Astatotilapia burtoni	Haplochromini
AUE7	altfas	Altolamprologus fasciatus	Lamprologini
AXD5	altfas	Altolamprologus fasciatus	Lamprologini
JBD5	telvit	Telmatochromis vittatus	Lamprologini
JBD6	telvit	Telmatochromis vittatus	Lamprologini
JUH9	neobri	Neolamprologus brichardi	Lamprologini
JUI1	neobri	Neolamprologus brichardi	Lamprologini
LJC9	neocan	Neolamprologus cancellatus	Lamprologini
LJD1	neocan	Neolamprologus cancellatus	Lamprologini
KHA7	neochi	Neolamprologus chitamwebwai	Lamprologini
KHA9	neochi	Neolamprologus chitamwebwai	Lamprologini
IVE8	neocra	Neolamprologus crassus	Lamprologini
IVF1	neocra	Neolamprologus crassus	Lamprologini
JWH1	neogra	Neolamprologus gracilis	Lamprologini
JWH2	neogra	Neolamprologus gracilis	Lamprologini
JWG8	neohel	Neolamprologus helianthus	Lamprologini
JWG9	neohel	Neolamprologus helianthus	Lamprologini
JWH3	neomar	Neolamprologus marunguensis	Lamprologini
JWH4	neomar	Neolamprologus marunguensis	Lamprologini
JWH5	neooli	Neolamprologus olivaceous	Lamprologini
JWH6	neooli	Neolamprologus olivaceous	Lamprologini
ISA6	neopul	Neolamprologus pulcher	Lamprologini
ISB3	neopul	Neolamprologus pulcher	Lamprologini
ISA8	neosav	Neolamprologus savoryi	Lamprologini
IYA4	neosav	Neolamprologus savoryi	Lamprologini
KFD2	neowal	Neolamprologus walteri	Lamprologini
KFD4	neowal	Neolamprologus walteri	Lamprologini

需要的工具包

Python的ete3包

在做TWISST拓扑加权分析时需要用到这个包，最简单的方式是直接通过pip来安装：

python -m pip install --user ete3

为了确保安装成功，尝试一下这个包能不能运行：

python -c 'import ete3'

如果没有报错，证明这个包正确被安装可以运行。

RAxML
一个经典的做系统发育进化的工具，也很好安装：

git clone https://github.com/stamatak/standard-RAxML
###根据你需求来安装对应的版本，这里我尝试安装的是支持多个cpu的版本
make -f Makefile.PTHREADS.gcc

使用D统计量来测量基因的渗入

在不完全谱系分选的情况下，两种姐妹物种与第三种密切相关的物种共享大约相同比例的衍生等位基因。

因此，如果物种“spc1”和“spc2”是姐妹而“spc3”是密切相关的物种，那么由“spc1”和“spc3”共享但不和“spc2”共享的衍生的等位基因的数量应该和由“spc2”和“spc3”共享但不和“spc1”共享的衍生的等位基因的数量应该大致相似。（有点绕口，如果一次没看懂可以多看几次。）

相反，如果杂交导致物种“spc3”与两个物种“spc1”和“spc2”中的一个之间的发生基因渗入，则“spc3”应该与该物种共享更多的衍生等位基因，而不是与另一个物种共享，导致"spc1"和"spc2"产生不对称在共享衍生等位基因中。

发生这一系列情况的期望，就是所谓的“ABBA-BABA test”的基础，其量化的D统计量可以用来测量基因渗入的程度。除了三种“spc1”，“spc2”和“spc3”之外，ABBA-BABA test还需要第四种“spc4”，它应该是“spc1”，“spc2”和“spc3”的共同外群。

仅用于确定哪个等位基因是祖先等位基因，然后将祖先等位基因标记为“A”，将双等位基因SNP的衍生等位基因标记为“B”。在最简单的情况下，其中仅从四个物种中的每一个中采样单个单倍体序列，“ABBA位点”是物种“spc2”和“spc3”共享衍生的等位基因“B”而“spc1”保留祖先等位基因。类似地，“BABA位点”是其中“spc1”和“spc3”共享衍生的等位基因“B”而“spc2”保留祖先等位基因“A”。然后将D统计量定义为ABBA位点和BABA位点的数量差与两种类型位点的总和的比值。

简单来说可以用该公式表示：

D = [sum(ABBA) – sum(BABA)] / [sum(ABBA) + sum(BABA)]

如果没有基因渗入，这个D统计量预计为0；在没有不完整谱系排序并在“spc2”和“spc3”之间进行基因交流的极端情况下为1;如果不存在不完整的谱系分选，但在“spc1”和"spc3"之间发生基因交流，则为-1 ;但是，按照惯例，如果“spc1”变得更接近“spc3”而“spc2”变为“spc3”，则交换“spc1”和“spc2”，这样D统计量保持在区间[0， 1]。

介绍到这里就结束了，如果有些地方我翻译理解得不够妥当，可以到原文网址查看原文得内容。下次会继续介绍一下，如何进行基因渗入得分析？欢迎大家持续关注

原文网址：
https://github.com/mmatschiner/tutorials/blob/master/analysis_of_introgression_with_snp_data/README.md

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342