一、个体对群体遗传组成的影响
生物进化是群体遗传组成随着时间的变化而变化。我们的群体由不同的杂交个体组成,其遗传组成由每个个体携带的基因组组成。由于个体死亡或个体进出人口的迁移,造成群体遗传组成的变化。如果群体中的个体数量不同,也会影响下一代群体的构成。群体中的每个新个体都会不同程度地影响群体的基因构成。个体的基因组是父母亲基因组的独特组合的结果,在减数分裂过程中被隔离和重组,并且可能因突变而进一步产生变异。这些个体的个别变异对整个群体的影响可能很小,但是它是所有的个体和其世代子孙中基因的微小变化的积累,是推动进化的最基本的因素。正是数十,数百和数百万代人的这些微小变化,推动了地球产生了惊人的物种多样性。
二、群体遗传学的定义
群体遗传学是研究自然群体的遗传组成及其进化的原因和结果。定量遗传学是研究表型变异的遗传基础以及表型变化如何随时间演变。这两个领域都在概念上紧密相关,都是通过描述如何经过突变,重组,选择,迁移和遗传漂移来改变种群的遗传和表型组成。 群体遗传学通过预测逐渐积累群体内部和群体之间的进化变化,可以很好地理解短期演化变化和生物多样性的长期演变。随着进化思想的蓬勃发展,现代群体遗传学融合了了基因组学,系统发育学,生态学和发育生物学,为解析地球的进化史提供了的新见解。
三、基础概念
基因座(locus/loci):基因组中特定的位点。基因座可以是可能是完整基因或单个核苷酸碱基对,如A-T。
等位基因(Alleles):在每个基因座中,通过突变产生的两种或更多种基因的替代形式,并且都存在于染色体上的相同位置中。等位基因可以进一步分为主要的等位基因(major alleles)和次要等位基因(minor alleles),这两个概念顾名思义就是根据等位基因出现的频率来定,还记得我们平时用来过滤SNP的MAF条件吗?其实MAF就是次要等位基因的出现频率。
单一同态性的(monomorphic):如果一个群体中的所有个体都有相同的等位基因,可以称这个基因座是具有单一同态性。
多态性(polymorphic):如果一个基因座中存在多个不同的等位基因,我们可以将这个基因座成为是具有多态性的。
同义替代(synonymous substitution):在编码蛋白质的基因的外显子中,一个碱基与另一个碱基的进化取代,使得产生的氨基酸序列不变。
非同义替代(non-synonymous substitution):是改变蛋白质的氨基酸序列的核苷酸突变。
单倍型(haplotype):在同一染色体上进行共同遗传的多个基因座上等位基因的组合;通俗的说法就是若干个决定同一性状的紧密连锁的基因构成的基因型。按照某一指定基因座上基因重组发生的数量,单倍型甚至可以指至少两个基因座或整个染色体。
传统群体遗传学是基于观察到的等位基因频率与预期频率的分析。例如,在Wright-Fisher模型下,你可能会看到有性繁殖的二倍体个体群体,而且这些种群没有重叠世代。该模型忽略了诸如突变,重组,选择或种群大小或结构变化等影响。更复杂的模型可以包含在实际群体中观察到的影响的不同方面。然而,大多数这些模型都假设群体是以性方式繁殖的。
群体:是指生活在一定空间范围内,能够相互交配并生育具有正常生殖能力后代的同种个体群。群体与个体相对,是个体的共同体,不同个体按某种特征结合在一起,进行共同活动、相互交往,就形成了群体。
有效群体大小:指与实际群体有相同基因频率方差或相同杂合度衰减率的理想群体含量,通常小于绝对的群体大小。
A locus (基因座):是基因组中的一个位置,我们可以在不同的个体中观察一个或几个等位基因。假定群体遗传学中使用的基因座是选择性中性的,可以是anonymous或非编码区,如微卫星基因座(SSR),单核苷酸多态性(SNP)。
A genotytpe (基因型):是特定基因座上给定个体携带的等位基因的组合。携带同一组等位基因的个体被认为具有相同的多基因座基因型 (MLG)。
基因型频率:,群体中某一基因型个体占群体总个数的比例。可以反映某一基因型个体在群体中的相对数量。在群体遗传学中基因型频率指在一个种群中某种基因型的所占的百分比。
群体中基本度量标准是多态性,等位基因频率和基因型频率。多态性可以通过多种方式进行估计,例如观察到的多个等位基因的总数。
等位基因频率:是群体遗传学的术语,用来显示一个种群中基因的多样性,或者说是基因库的丰富程度。在一个群体中,等位基因频率即某类等位基因占该基因位点上全部等位基因数的比率。如:在某种群中一个等位基因的基因频率为20%,那么在种群的所有成员中,1/5的染色体带有那个等位基因,而其他4/5的染色体带有该等位基因的其他对应变种—可以是一种也可以是很多种。
遗传平衡定律(哈迪-温伯格定律):是指在理想状态下,各等位基因的频率和等位基因的基因型频率在遗传中是稳定不变的,即保持着基因平衡。例:当等位基因只有一对(Aa)时,设基因A的频率为p,基因a的频率为q,则A+a=p+q=1,AA+Aa+aa=p2+2pq+q2=1。哈迪-温伯格平衡定律(Hardy-Weinberg equilibrium) 对于一个大且随机交配的种群,基因频率和基因型频率在没有迁移、突变和选择的条件下会保持不变。
四、群体分析
群体分析一般可以分为,分层分析和选择分析。分层分析可以定义为,基于群体内个体之间基因序列上的差异。群体选择分析是在群体水平在基因组不同区域遗传多样性的差异。
1. 分层分析
- 系统发育研究:一般使用发育树研究具有共同祖先之间进化关系,探究物种进化的关系和分类的关系。
- PCA(主成分分析):用较少不相关的变量替代原始大量相关的变量,来研究群体分层,亚种之前的进化关系。
- 群体结构分析:研究大群体中存在基因频率不同的亚群,一般可以用来推断祖先群,个体血缘组成,还有杂交事件。
2. 选择分析
选择清除分析:自然选择促使有利突变在群体中保留下来,与之连锁的中性位点突变频率提升,非连锁的中性位点突变频率下降;简单的说就是基因组某区域由于受到了选择而消除多态性,即遗传多样性降低,在群体中出现高频的等位基因和低频的等位基因。主要用于:挖掘驯化过程中受选择的基因和挖掘物种适应性进化过程中受选择的基因。
适合度-分析:是指生物体或生物群体对环境适应的量化特征,是分析估计生物所具有的各种特征的适应性,以及在进化过程中继续往后代传递的能力的指标。适合度是衡量一个个体存活和繁殖成功机会的尺度。适合度越大,个体成活的机会和繁殖成功的机会也越大,反之则相反(因此义项与广义适合度相对应,故亦可称之为狭义适合度)。
计算方式:适合度可以用数据计算出来:W=ml。其中,W代表适合度,m表示基因型个体生育力,l表示基因型个体存活率。
常用的统计方法:
θπ、θW,Tajima's D,Fst。
θπ:群体中任意两条不同序列(个体)的碱基差异数(SNP)取平均值。
- 手人工选择的群体,遗传多样性相对单一,θπ值较小
- 野生群体遗传多样性大,θπ值比较大
- 单个群体内部基因型多样性(0-1),多样性越大,θπ越大。
θW:基于全部序列内分离位点个数
中性检验(Tajima's D):
Tajima’D = (θπ–θW)/Var(θπ–θW)
- θπ = θw Tajima's D = 0,中性进化;
- θπ < θw Tajima’s D < 0:群体中存在许多低频率的等位基因(稀有等位基因),则θW增大而θT不受影响(或影响较小),由定向选择或群体扩张引起;
- θπ > θw Tajima’s D > 0:群体中高等/中等频率的等位基因较多, θT增大而θW 不受影响,由于平衡选择和瓶颈效应引起的。
平衡选择与定向选择都属于正选择的范畴,因此,只要D值显著背离0,就可能是自然选择的结果;而当D值不显著背离0时,则中性突变。
Fst:群体间遗传分化指数,是种群分化和遗传距离的一种衡量方法,分化指数越大,差异越大。
Fst= (πBetween-πWithin)/πBetween
πBetween:来自群体间的所有两两个体间差异的均值
πWithin:来自亚群内所有两两个体间差异的均值
正选择 vs 负选择
positive selection (正选择):自然选择:选留:一些稀少的等位基因,拥有这些等位基因的个体能繁殖更多的后代;这样的突变基因往往具有与原来基因不同的功能,而且该功能使得拥有它的生物更能适应环境。
negative selection(负选择):指群体中出现有害突变等位基因时,携带该等位基因的个体会因为生存力或育性降低而从群体中淘汰,也叫净化选择。
选择清除 vs 背景选择
选择清除:在有利突变产生后被正选择固定的过程中,与之连锁的中性位点的变异也被固定。
背景选择:负选择在清除有害突变时,也会随之清除与其连锁的中性位点的变异。
选择清除和背景选择都会导致基因组上受选择的区域遗传多样性下降,两者很难区分,但背景选择在群体中不会导致高频等位基因突变出现。
连锁不平衡(Linkage disequilibrium, LD):指群体内不同位点等位基因间的非随机性组合的关系,即当位于同一条染色体的两个等位基因(A,B)同时存在的概率,大于群体中因随机分布而同时出现的概率时,就称这两个点处于LD状态。通常用D’和r2值表示。一般来说,在连锁不平衡分析中, 野生种的 LD 值较低,而驯化种由于受到了正选择的作用,LD 值就会偏大。
瓶颈效应:由于环境骤变(如火灾、地震、洪水等)或人类活动(如人工选择、驯化),使得某一生物种群的规模迅速减少,仅有一少部分个体能够顺利通过瓶颈事件,在之后的恢复期内产生大量后代。
迁移压力(又叫基因流):由于某种原因,具有某一基因频率的群体的一部分移入基因频率与其不同的另一群体,并杂交定居,就会引起迁入群体的基因频率发生改变。