y一、认识文件名
- 五大格式文件:
ped&map
bed&fam&bim - 各自存储何种数据
①ped(pedigree,家系):包含样本的谱系信息和基因型信息,必须与fam文件一起,前6个字段与fam文件对应
②map:和ped文件一起,表示每个SNP的信息,共4列
就是检测出来的SNP位置信息
Plink程序识别二进制文件,需要通过相应命令将其转化成二进制。
--make-bed
③bed(二进制文件)
④fam(记录每个样本家系的信息)
family
⑤bim(对map文件的拓展)
binary+map
二、GWAS分析流程
基因型数据质控
1)按分型百分比过滤
一般剔除缺失率在20%以上的位点
2)按等位基因频率过滤
去除第二等位基因频率小于5%的位点
3)多等位位点的过滤
根据软件,有些软件不支持多等位位点
4)哈迪温伯格平衡过滤
人类中一般将不符合哈迪温伯格平衡的位点过滤掉,动植物不使用该过滤LD衰减分析(选做)
LD连锁不平衡
LD系数:r^2=0,群体中两个位点完全不相关,=1说明完全相关(完全连锁)
一般而言,两个位点在基因组上离得越近,相关性就越强,LD系数越大;反之,LD系数就越小。
→随着位点间的距离不断增加,LD系数通常情况下会慢慢下降,常用LD衰减图呈现
GWAS标记量 = 基因组大小/LD衰减距离群体结构(Q)和亲缘关系(K)
目的:对群体结构和亲缘关系进行评估以确定使用的统计模型和获得相应的矩阵
关联结果出现假阳性的两个主要因素关联分析
(1)选择正确的统计方法:
小标记量:t-test或ANOVA
case/control质量性状:卡方检验,OR检验,逻辑回归
数量性状:一般使用多种模型(GLM/MLM/EMMAX/fast-LMM)同时分析
(2)确定显著性阈值,一般为1/有效的分子标记数
(3)结果解读
可视化:
曼哈顿图,
分位点图(QQplot),随机预测出的P和实际算出来P的比较,是否异常显著
cmplotR包