GWAS简介
GWAS(Genome-wide association study)是对遗传多样性丰富的自然群体的每个个体进行基因组测序,结合目标性状的表型数据,基于一定的统计方法进行全基因组关联分析,可以快速获得影响目标性状表型变异的染色体区段或基因位点。
当然,GWAS可以应用于人的表型分析,这里暂时先说动植物的。
GWAS已经发表的物种:玉米水稻拟南芥大豆毛果杨番茄果蝇白虎疟原虫等,物种很丰富。因为不需要构建家系群体,像BSA遗传图谱还得杂交自交,作物植物之类的只杂交养大就得小半年时间,GWAS就直接采集自然群体就好也可以多地采样,这样变异范围广一些,做出来的结果适用性也比较强;其次就是一次性可以定位多个性状,基本是唯一的一个用于自然样本性状定位的分析方法;定位精度也高,可以直接获得与目标性状相关的基因。
GWAS方案策略
①样本选择:自然群体,可以多品种多地域取样,原则上样本间不能有明显的亚群分化(例如生殖隔离等)即遗传背景差异小,如果样本间存在亚群分化,则每个亚群建议样本量在200个以上;
②样本数量:≥300个个体,每种性状能记录到表型的植株数尽量保证在200株以上;
③测序策略:有参选择WGS,无参选择简化基因组,测序数据量10x,如果样本数量很多500个样本以上,测5x即可。
※※另外非常重要的一点,前期对采集样本的表型记录一定要准确详细,因为分析中要用到表型数据所以表型的记录也会对分析结果产生影响,原因:每次计算为单表型 GWAS 分析,在当前表型中,缺失样本不参与此次分析,导致有效个体数目减少;GWAS 通过统计模型找出影响表型差异的 SNP 及基因,记录不准确的话,可能会导致找到的SNP 或基因有很大的假阳性。
表型选择:生育期 叶子果实大小 枝茎长短弯曲程度 花瓣果实品质含糖量 抗病抗虫抗逆性,除此之外,基因的表达量也可作为表型分析叫做eWAS,代谢物类型也可叫做mWAS,只有想不到没有做不到。
GWAS分析
分析流程其他软文有很多讲过的,我就不班门弄斧了,我把链接放在文末供参考。
GWAS常见问题
1、家系样本是否可以进行 GWAS 分析?
通常禽类研究选择半同胞家系(由同父异母或异父同母所生子女的集合体成为半同胞家系)或全同胞家系(由同父同母所生子女的集合体称为全同胞家系)。理论上,其他动物也可以选择表型多样性丰富的家系样本进行GWAS 研究, 优先推荐选用 F2代群体。如果老师的 F2 代群体样本数少,也可以将 F1 代和 F2 代作为一个研究群体,在后续GWAS 分析过程中会有 KINSHIP(亲缘关系矩阵)去校正模型。
2、是否 GWAS 样本的表型分布必须呈现正态分布?
对于数量性状所选择的个体,在表型上尽量呈正态分布;若无法取到完全正态分布的样本的性状, 针对该类性状,在后续分析过程中采用非正态分布性状的分析方法对其进行校正,以保证分析结果的可靠性。
3、是否一定要超过 200 个样本才能进行 GWAS 分析?
基于 GWAS 文章中的样本数和我们的项目经验,推荐选取 200 个以上的样本,以尽可能保证分析结果的可靠性。但是对于一些珍稀的物种研究,材料相对稀少且难以获得,如老虎,熊猫,金丝猴等,可适当减少样本个数。 如果研究内容是由单基因控制的性状,其实材料少也可以得到不错的结果。但如果是复杂性状,少量样本的关联分析结果不可信。
4、如何降低分析结果的假阳性?
在全基因组关联分析中,前期对样本的采集情况(表型分布均匀,环境一致)会对后续分析的假阳性结果存在最大的影响,在分析过程中会采用如下方法降低分析结果的假阳性:a)结合群体分层信息,利用混合线性模型,对结果进行校正; b)必要时还会采取多种线性模型进行分析降低假阳性;c)采用 Bonferroni 校正法来校正 GWAS 分析中多重假设检验后的 P 值可以降低假阳性的概率。因此,前期对样品的采集及表型的记录需要准确详细。
5、得到的结果如何验证?
a)已发表的本物种或相近物种的QTL或基因比较分析;b)若没有已发表的,可通过家系群体QTL分析进行验证;c)结合转录组或者表达谱分析,验证相关区域或者位点调控的通路信息。
参考学习: