我们进行GWAS分析,必须得有数据,那么什么样的数据,什么样的数据格式才能保证GWAS正常分析呢。今天主要给大家分享一下进行GWAS分析常用到的几种数据格式。
(一).bim/.fam/*.bed格式为一组
*.bim文件, 总共6列
第一列:Chr 染色体编号
第二列:SNP 标记名称
第三列:GD 遗传距离(摩尔根),一般情况写0即可
第四列:BPP 物理距离(单位:bp)
第五列:Allele 1 一般情况下为次要等位基因
第六列:Allele 2 一般情况下为主要等位基因
*.fam文件,总共6列
第一列:FID Family ID
第二列:IID Within-family ID (不能是 '0')
第三列:PID Within-family ID of father ('0' if father isn't in dataset)
第四列:MID Within-family ID of mother ('0' if mother isn't in dataset)
第五列:性别 ('1' = male, '2' = female, '0' = unknown)
第六列:表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
*.bed文件
BED文件结构主要是二进制文件(not readable for humans),存储了群体的基因型数据。
(二).ped/.map格式为一组
ped文件, 总计6+2n列(n:总SNP数目)
第一列:FID Family ID
第二列:IID Within-family ID (不能是 '0')
第三列:PID Within-family ID of father ('0' if father isn't in dataset)
第四列:MID Within-family ID of mother ('0' if mother isn't in dataset)
第五列:性别
第六列:表型
第七列-最后一列:每个样本对应所有标记的基因型
*.map文件,总计四列
第一列:Chr 染色体编号
第二列:SNP 标记名称
第三列:GD 遗传距离(摩尔根),一般情况写0即可
第四列:BPP 物理距离(单位:bp)
另外,GWAS分析中常见到的数据格式还包括.tfam/.tped, vcf,hapmap, gen/.sample格式,对于大部分格式,我们使用plink软件都可以将其互相转换,同时针对不同的模型和不同软件,基因型文件,表型文件,协变量文件可能会有些许差别,在今后分析过程中遇到具体情况会给大家再具体介绍。
往期回顾:
GWAS分析 (一)
https://www.jianshu.com/p/67e1878845e3
GWAS分析-曼哈顿图 (二)
https://www.jianshu.com/p/fa261b6045c2
参考
- https://www.cog-genomics.org/plink/1.9/formats#bed
- Marees AT, et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int. J. Methods Psychiatr. Res. 27, e1608 (2018).