碎碎念:这一小节极其硬核,除了一上来就放一些语焉不详的公式计算,还有一些关键概念和上一节解释不同。。。我估计得多读几遍/查查其他资料才能了解在说什么。这段翻译就先按照原文来。
遗传上来看,你和你旁边的家伙差球不多。在人类基因组里的32亿DNA碱基中,99.9%都是一毛一样的。不过,即使只有千分之一的碱基不同,也因为整个基因组太大了,你和你的邻居还是有三百万个碱基对是不一样的。
在人类和其他物种中,基因组上多态性(polymorphism)的分布并不均匀(图8)。通常,在基因间区和内含子(intron)上多态性的比例高更多。[基因间的序列和内含子都是不被表达成产物的序列]。 编码区(外显子,exon)则变化更少,尤其是每个密码子(codon)的前两个碱基。这些规律在整个生命树上都极其普遍,可见其背后体现了演化中普遍的规律。
这里的内含子、外显子、密码子、为什么是前两个碱基、单核苷酸多态性等等都是分子生物学的内容。之后写科普时会更多地解释。
这个规律就是物种内大部分的DNA多态性都来自于受到漂变影响的选择中性突变(selectively neutral mutations)。平均的,二倍体物种中,一个受到漂变影响的中性突变位点的杂合度的预估值应该是:
在这里μn是中性突变率,也就是:每一代中,一个位点突变成另外一个不影响个体适合度(fitness)的等位基因的概率。比如说,如果一个位点的总共突变率是μ=10^(-6),但是这其中只有10%的突变是选择中性的,那么中性突变率就是μn=0.1×10^(-6)=10^(-7).
等式7.1中有三个因子:1. 追溯回两个基因拷贝合并事件所需要的代际时间(2Ne,前文讲过);2. 该位点在一代中出现选择中性的突变的概率,也就是中性突变率μn;3. 等式还要乘以2是因为[从概率上说]突变可以发生在追溯到合并事件之前的两个分支中的任何一支***。(等式7.1是一个估计值,当π小于等于0.1时,就是精确值,而且这也是大部分生物符合的情况。)总结一下,这个等式告诉我们,多态性 [的一种体现,杂合度] 会随着有效种群大小和中性进化率的增加而增加。
***补充:为什么等式中要乘以2呢?
2020年1月12日23:37:03
这个简单的结果 [指上文的等式] 解释了基因组中遗传多样性的一个重要规律。大部分的发生在编码区的突变是“非同义的(nonsynonymous)”,这些突变改变了合成的氨基酸。并且大部分的蛋白里的突变都是有害的(也就是降低生物的存活率或繁殖效率)(详见第四章)。这些有害突变在种群中一般都被一个叫做纯化选择(purifying selection)的过程清除了。[纯化选择的另外一个说法是负选择(negative selection),和正选择对应,意思是有害的突变被清除。] 这样的突变不会对我们可观测到的杂合度做出贡献。那些会经历纯化选择的位点称为是受到选择约束(selective constraint)的。它们的中性突变率要小于总突变率。[因为中性突变率=总突变率-非中性突变率,而这些位点有很强的选择压,也就是一旦发生突变,性质还是中性的可能性很低,大部分的突变都会受到选择的影响,所以它们的非中性突变率很高,进而中性突变率就低]。相反的,许多非编码区的位点由于突变不影响适合度,所以这些区域的中性突变率就等于总突变率。[就算这些位点变出花来,由于不影响蛋白的合成,对蛋白功能就没有影响,也进而就不影响适合度]。因此,非编码区通常也就有更高的杂合度,这符合等式7.1的预测。
同样的逻辑还能解释编码区的不同位置的差异规律。许多密码子的第三个碱基是“同义的synonymous”,[也就是由于密码子具有简并性(codon degeneracy),突变后的密码子合成的还是同样的氨基酸,蛋白在功能上没有变化。] ,但是前两位的突变是非同义突变。因此密码子的前两个碱基就有低得多的中性突变率,也就更少有多态性。[这句话同时暗示了,密码子的第三个碱基一般有高得多的中性突变率,也就更多样] 图8中的Adh位点体现了这一点:内含子的17个突变中,只有一个是非同义突变。
这里中性突变位点和多态性的关系很好理解。凡是中性突变率高的位点多态性都高。高的中性突变率意味着它们的突变体大多数是中性的,不影响个体生存,所以不会被选择效果清除掉,就可以保留下来,因而我们就能观测到这些位置上有更多种碱基类型,也就保留了更多的多样性。相对的,非同义突变位点由于突变后合成的氨基酸不一样,会影响功能,并且大多数都是有害突变。一变出来就被选择效果清除了(比如这个蛋白功能异常之后,个体不能存活直接死亡,这个突变体就没了),因此剩余的还活着的、能被人类观测到的类型都是那些稳稳妥妥的保持原样不改变的一种类型,因此这些位置的多态性就低。
问题记录-8:为什么说纯化选择的位点不会产生杂合度?纯化选择会让纯合子比例增多吗?还是不一定?如果杂合子的基因不是致死的,是不是就不会被纯化?
2020年1月13日23:39:32
2020年1月14日22:50:02:明天课多,今日太困。我要咕了(理直气壮且大声)。
总的来说,对于基因组上那些能免于选择效果的位点,他们的突变都是中性突变。这些突变在种群中会只会受到漂变的影响,因此就像它们该做的那样为种群贡献了杂合度。但是对于那些受到选择影响的位点,它们大部分的突变都是有害的。因此会被选择效应从种群中清出去,因而几乎对杂合度没有贡献。这些位点也因此就更少变。
除此之外,多态性程度也和染色体有系统的联系。那些有更高重组率的区域会更多态(图9)。我们已经在第五章讲过选择清除(selective sweep,图S5),是说由于有益突变在基因组中被固定下来,该突变周围的一小块区域也随之扩散,[每个基因组都带着有益突变和其两边一样的序列,] 因此这片连带区域多样性就降低了。同样的,当选择清除了有害突变时,该突变周围的多态性也下降了。这种效应叫背景选择(background selection,图10)。选择清除和背景选择都会影响染色体上重组率低的部分的一串区域,导致了图9所见的情况。选择清除和背景选择让基因组上中性突变位点的多样性低于等式7.1所预测的值。
2020年1月16日00:23:30
2020年1月17日00:13:29 还在预习土壤学。我是弟弟。我要预习不完了,明天的小测要死了(下周开始更新土壤学,进化这个先搁浅(说鸽就鸽?)。
2020年1月18日23:12:15(今天假期,我又理直气壮地鸽了)
估计种群大小
杂合度和种群大小的关系暗示了一种估计某一物种有效种群大小的方式。这个想法就是首先,通过挑选基因组上呈现选择中性的位点,测序计算出不同个体这些位点的杂合度π(通常我们都测的是内含子上的突变)。其次,我们还可以使用第四章提到的方法 [我也没看是什么方法,咕!] 来估计全部的突变率(μ)。因为我们关注的是选择中性的位点,所以它们的总体突变率就等于中性突变率μn。最后,我们就得到了等式7.1中所有的其他变量,带入等式7.1就可以计算对应这个位点的多态性而估计出的效种群大小Ne,然后计算多个位点之后取平均值,就可以估计这个物种有效种群大小。
用这种方式我们已经估计了一些物种的有效种群大小(图11)。这其中最小的结果来自人类,这个物种有效种群大小只有大概一万。尽管现在全球有七十亿人口,但是几千代之前我们的人口小得多的多。
2020年1月21日00:52:29 今天又是摸鱼更新。。。本来想着假期多更新一点把前几天的鸽子坑填上。。。结果失策了。。。
2020年1月22日01:39:20 咕咕咕。。。开学之后真是天天咕咕。。。我作业都写不完了。。。
这种方法再应用地远一点,我们可以做更妙的事情:我们可以仅仅通过一个个体来估计整个种群的有效大小。这就是对这个物种全基因组测序,得到一大堆选择中性位点的突变率,取平均值,之后用这个带入等式7.1,就可以计算出Ne。另外一个DNA多态性的常见作用是估计历史上的种群大小。我们之前讨论过的斑马雀的就是一个好例子。现在澳大利亚岛上的斑马雀有将70万左右,而根据对他们遗传多样性的研究表明,这70万个体只是历史上一个大概有一万九百多只鸟的小种群的后代,它们生活在距今两百万年前。
不同动物的杂合度π均值差别很大。目前来看,蚂蚁和脊椎动物倾向于有较小的遗传变异,而蝴蝶和双壳纲(也就是蚌壳那一类玩意儿)有很高的杂合度。有效种群大小是导致这种差异的一个原因,不过突变率、选择清除、背景选择和其他的因素也都影响了杂合度。更神奇的是,一般来说,繁殖率高并且繁殖体[对于有性生殖的动物,可以理解为受精卵或者幼崽。但是实话,动物很少用这个概念。一般繁殖体propagule是指可以无性生殖/营养生殖的部分。更多用于植物菌物和细菌古菌] 小的生物倾向于有更高的杂合度(图12)。不过究竟这些生活史上的因素怎么影响杂合度的,我们还没搞懂。
2020年1月23日23:07:01
问题记录:总结一下利用杂合度估计Ne的方法,去了解一下还有什么方法。这种方法发弊端和优势在哪里。查篇实验文献看看具体的测量和应用是怎么样的。