前言
“没有什么比知道我们自己正在做什么更重要了”
——小史,20191121之感触
这个年代,谁™还有人做GWAS啊?! 但是跟着的两个导师之一是这方面的专家,我除了吐个槽,还能怎样呢?
1.什么是GWAS?
全基因组关联分析(Genome-wide association study)是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。
维基百科链接:全基因组关联分析
说人话!
这玩意就是:找出基因中哪些序列变异(SNP),与疾病相关!
核心就是关联!
基因(改变)与表型(phenotype,总之就是各种各样的看得到的现象)有没有关系!
这些各种各样的看得到的现象是什么?
没啥的,我们搞肿瘤研究的就是发不发病呗(例如会不会得肺癌),搞生物的会对绵羊的有角和无角这一对性状进行研究呗(可别小看,研究角的进化可是能发science的!我™还不知道有什么意义呢~)。
2.如何关联?
对多个个体在全基因组范围的遗传变异多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或P值筛选出最有可能影响该性状的遗传变异。
说人话!
就是统计一个数,找出与表型最有显著性意义的那些基因(位点)。
3.分析方法有哪些?
逻辑回归(表型数据为二元)
线性回归(表型数据为连续性变量)
表型数据正态分析(如果不是正态分布,需转换处理为正态分布)
说人话!
逻辑回归用于数据为二元的:如0(没病)和1(有病);
线性回归用于数据为连续性的;如林志玲身高173cm,任賢齊174cm,李治廷175cm,黄晓明176cm等,是™像幼儿园数数一样,一个一个连续变化的;
表型数据正态分析:就是啊,大自然的分布一般是钟型的正态分布的,很多统计方法都是根据正态分布作出的分析。某些数据如果不符合正态分布,那么你用正态分布的公式/方法来分析,就会出事的。
参考内容:
1.http://www.360doc.com/content/18/1222/16/52645714_803596284.shtml
2.https://anjingwd.github.io/AnJingwd.github.io/2017/08/18/GWAS-简介/