【群体遗传】Fst(群体间分化指数)

(1)F_{ST}是什么?含义是什么?

F_{ST},全称为fixation index,是一种用于衡量群体间分化程度的统计检验量(由Wright's F-statistics衍生而来)。 一般从SNP或microsatellites数据计算得到,且一般用在群体遗传学分析中。

microsatellites,即微卫星序列,是在一种串列重复序列 —— https://en.wikipedia.org/wiki/Microsatellite
但是现在WGS和RAD-Seq都已经非常普遍了,使用的是否还多我也不了解,就略了~

(2)F_{ST}如何计算?

示例:F_{ST}计算原理

AA Aa aa
Pop1 125 250 125
Pop2 50 30 20
Pop3 100 500 400
1、统计每一个群体的等位基因数量

每一个Pop对应的基因型(genotype | genotyped individuals)数量为:

  • 500

  • 100

  • 1000

每一个Pop的等位基因数量(the number of allele)为:

  • 1000

  • 200

  • 2000

这边是biallelic类型(A or a),因此等位基因数量为基因型数量的2倍。

2、计算每一个群体实际的等位基因频率

Pop1中,

  • A allele实际的频率为\frac{125*2 + 250*1}{1000},即0.5

  • a allele实际的频率为 1- 0.5 = 0.5

Pop2中,

  • A allele实际的频率为\frac{2*50 + 30*1}{200},即0.65

  • a allele实际的频率为 1- 0.65 = 0.35

Pop3中,

  • A allele的频率为\frac{100*2 + 500}{2000},即0.35

  • a allele的频率为 1- 0.35 = 0.65

3、计算每一个群体期望的基因型数量 & 差值

【标注】期望,即服从HD平衡理论,可以看看北京大学生物演化课程

Pop1中,

  • AA genotype期望的频率为125

  • Aa genotype期望的频率为250

  • aa genotype期望的频率为125

因此,Pop1中对应的基因型数量均无偏差。

Pop2中,

  • AA genotype期望的频率为42.25

  • Aa genotype期望的频率为45.5

  • aa genotype期望的频率为12.25

对应基因型数量的差值为+7.25, -15.5, +7.75。

Pop3中,

  • AA genotype期望的频率为122.5

  • Aa genotype期望的频率为455

  • aa genotype期望的频率为422.5

对应基因型数量的差值为-22.5, +45, -22.5。

对计算结果的理解,Pop1与计算得到的期望数值一样,服从HD平衡;Pop2实际纯合基因型数目与期望纯合基因型数目差值为正,表明存在inbreeding(近亲繁殖)事件;Pop3实际纯合基因型数目与期望纯合基因型数目差值为负,表明存在outbred事件,即亚群之间的isolation(生殖隔离)被打破,导致亚群之间能够产生后代。

4、统计每一个群体实际的杂合基因型占比

Pop1为0.5,Pop2为0.3,Pop3为0.5

【公式标注】H_{obs} = \frac{杂合基因型数目}{总个体数}

5、计算每一个群体期望的杂合基因型占比

Pop1为0.5,Pop2为0.455,Pop3为0.455

【公式标注】H_{exp} = 1-\sum(p^2 + q^2)

6、计算A allele的频率均值

\overline{p} = \frac{2*125 + 250 + 2*50 + 30 + 2*100 + 500}{1000 + 200 + 2000},即0.4156

7、计算a allele的频率均值

1 - \overline{p} = \overline{q},即0.5844

8、计算the global heterozygosity indices

1.首先使用H_{obs}计算H_{I}

H_{I}=\frac{H_{obs1}*N_{1} + H_{obs2}*N2 + H_{obs3}*N3}{N_{total}},带入数值,即0.4875

2.使用H_{exp}计算H_{S}

H_{S} = \frac{H_{exp1}*N_{1} + H_{exp2}*N2 + H_{exp3}*N3}{N_{total}},带入数值,即0.4691

3.计算global heterozygosity indicex的期望值

H_{T} = 1 - \sum(\overline{p}^2 + \overline{q}^2) = 1 - (0.4146^2 + 0.5844^2),即0.4845

9、计算the global F-statistics

1.计算F_{IS} = \frac{H_{S} - H_{I}}{H_{S}},即-0.0393
2.计算F_{ST} = \frac{H_{T} - H_{S}}{H_{T}},即0.0344
3.计算F_{IT} = \frac{H_{T} - H_{I}}{H_{T}},即-0.0036

10、计算结果说明了什么?

群体间分化的程度达到了3.4%

示例:vcftools计算F_{ST}

【标注】只适用于二倍体。

vcftools --gzvcf input.vcf.gz --weir-fst-pop pop1_sample_id.txt --weir-fst-pop pop2_sample_id.txt --fst-window-size 10000 --fst-window-step 10000 --out pop1_pop2

# 参数说明
--gzvcf            # 要求输入为.gz格式的vcf文件
--weir-fst-pop     # 输入VCF文件中的sample,为一个文本文件,每一行一个sample
--fst-window-size  # 设置计算Fst的窗口大小,根据自己的数据进行设置,看看别人文章里怎么用的
--fst-window-step  # 设置计算Fst的步长长度,根据自己的数据进行设置

(4)F_{ST}计算完了之后该干啥?

在对两个群体之间进行不同区段的F_{ST}计算之后,需要判断哪一些区段,是“真正”受到了选择压力,根据近期看的文章,得到可以选择前5%的作F_{ST}为一个阈值,对区域进行划分,高于该阈值的被认为受到了选择压力的影响,进一步就可以得到是受到影响的是哪些SNP,最终即可得到受到影响的是哪些gene。

当然,对F_{ST}的计算结果可视化,当然也是非常重要的一部分,但是这篇文章主要想写的是计算原理以及如何使用vcftools进行计算。

参考资料

[1] https://en.wikipedia.org/wiki/Fixation_index
[2] http://www.uwyo.edu/dbmcd/popecol/maylects/fst.html
[3] The genome of oil-Camellia and population genomics analysis provide insights into seed oil domestication

image.png

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容