引言
GWAS与eQTL都是用于研究基因位点与表型之间关系的手段,彼此之间存在很多的区别与联系。
GWAS
全基因组关联分析(Genome Wide Association Study,GWAS)是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异(标记),全面揭示疾病发生、发展与治疗相关的遗传基因。
什么是SNP?
进化过程中随机产生的单点突变,并能稳定的在群体中遗传。
什么是allele frequency in population?
每一个genome位点都有两个或多个allele,不同allele之间有明显的频率上的差异,简单点理解就是A和a两个性质的频率,但这里是碱基位点,而不是性状基因。
GWAS分析的前提
sample size足够,学过统计的都知道sample size会影响power,没有足够的power是得不出正确结论的,GWAS通常需要大量的样本,几千是标配,几百就太少,现在有的都达到了几万几十万级别。
一个大误区就是GWAS会测全基因组WGS,其实不是的,那太贵了,大部分是做DNA chip DNA芯片(专业的叫SNP array),只包含了常见的10^6个SNP。稍微有钱的就会上WES,就会得到所有编码区的SNP;最有钱的就是WGS了,全部检测,编码非编码,常见罕见,1000genome就是靠这个才NB的。
而在GWAS分析结果中,大部分显著的SNP位点都位于非编码区,很难直接挖掘这些位点的调控机制。通常假设与疾病关联的SNP位点通过调控基因表达来发挥作用,而eQTL可以识别SNP与基因间的调控关系,将eQTL和GWAS结果相结合,可以进一步筛选候选基因。
eQTL
eQTL,即表达数量性状基因座(expression Quantitative Trait Loci),比如身高是一个数量性状,其对应的控制基因的位点就是一个数量性状基因,而eQTL就是能控制数量性状基因(如身高基因)表达水平高低的那些位点。
eQTL可分为顺式作用eQTL(cis-eQTL)和反式作用eQTL(trans-eQTL),顺式作用eQTL就是某个基因的eQTL定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的mRNA水平变化;反式作用eQTL是指某个基因的eQTL定位到其他基因组区域,表明其他基因的差别控制该基因mRNA水平的差异。
eQTL就是把基因表达作为一种性状,研究遗传突变与基因表达的相关性:就好像研究遗传突变与身高的相关性一样。简单地说,遗传学研究经常发现一些致病或易感突变, 这些突变怎样导致表型有时候不太直观;所以用某个基因的差异表达作为过渡:突变A->B基因表达变化->表型。
简单来讲,我们首先通过全基因组测序获得每个个体的DNA全序,然后以同种族的其他个体作为参照,标记出该个体所有的DNA变异位点, 称为SNP位点。同时,我们通过全基因组mRNA表达量测序得到该个体的特定组织样本中的基因表达量。以全部DNA变异位点为自变量,轮流以每种mRNA表达量为因变量,用大量的个体数据做样本进行线性回归,就可以得到每一个SNP位点和每一个mRNA表达量之间的关系。
GTEx
GTEx(Genotype-Tissue Expression)是第一个收集了多个人体器官mRNA测序的数据库,并提供了跨器官的eQTL研究平台。研究从来自449名生前健康的人类捐赠者的7000多份尸检样本,涵盖44个组织(42个不同的组织类型),包括31个实体器官组织、10个脑分区、全血、2个来自捐赠者血液和皮肤的细胞系,作者利用这些样本研究基因表达在不同组织和个体中有何差异。
GWAS和eQTL的联合分析
参考
https://www.jianshu.com/p/acdc4a22e30a