TASSEL-GBS: A High Capacity Genotyping by Sequencing Analysis Pipeline
可以把近交系数理解为形成合子的两个配子来自同一共同祖先的概率。是指根据近亲交配的世代数,将基因的纯化程度用百分数来表示即为近交系数,也指个体由于近交而造成异质基因减少时,同质基因或纯合子所占的百分比也叫近交系数。普通以F或f来表示。
个体的近亲繁殖系数是指个体中任何一个位点的两个等位基因从双亲的共同祖先遗传而相同的概率
为了检测和过滤出易出错的SNP,TASSEL-GBS管道依赖于群体遗传参数,如次要等位基因频率(MAF),特别是近交系数(或“泛混合指数”),拟合。基于最小MAF的滤波可以去除单纯由测序错误引起的伪snp。来自同源标签的人工SNPs将趋向于过度杂合,因此可以基于低近交系数来区分
在获得潜在SNP的基因型后,然后根据用户设置的最小次要等位基因频率和最小泛混合系数,或相对于整个群体的近交,进行初始筛选,拟合(其中拟合=1–Ho/He,Ho=观察杂合度,He=预期杂合度=2q(1-q),q=次要等位基因频率)。副病科的易出错单核苷酸多态性和假单核苷酸多态性通常表现为过度杂合,拟合度低于预期。如果用户提供的“系谱文件”表明了每个分类单元的预期近交系数(F),那么只有预期近交系数大于或等于用户指定的最小泛混合系数(minF参数)的近交分类单元才用于拟合计算。近交样本,在许多作物物种和模式生物中都有,可以大大增加这种过滤器的功能。如果有足够的自交系样本可用,则可以选择执行SNP的附加过滤,强制实施最小“自交系覆盖率”(在SNP处不缺失的自交系样本的比例)和最大“自交系杂合度分数”(如上所定义)
TASSELGBS管道内实施的单核苷酸多态性调用(Glaubitz et al.,2014)用于产生VCF-le。使用流苏筛选双等位基因SNPs的最小ve读取深度,次要等位基因频率高于1%,呼叫率高于90%,近亲繁殖系数高于0.8(版本5.2.20)(Bradbury等人,2007)。
这里的F或许和这个0.8有关
我现在困惑的是
这个
plink --bfile HapMap_3_r3_9 --exclude inversion.txt --range --indep-pairwise 50 5 0.2 --out indepSNP
和近交系数的关系,杂合率检验与近交系数有关吗,那么过滤近交系数小于0.8的SNP是怎么体现呢?与连锁不平衡 LD 过滤又是什么关系啊
所以我看的一篇经验误导了我让我以为LD的过滤和杂合率的过滤一致
也就是说我现在可以通过修改R的脚本来删掉杂合率大于0.8的值,而不是直接用均值相差超过三倍标准差的那个原始脚本