二十年前,当 人类基因组计划 和生物技术公司Celera Genomics宣布对人类基因组测序时,人类基因序列还并不真正完整。有大约15%的内容缺失:技术上的限制使研究人员无法弄清某些DNA片段是如何组合在一起的,特别是有许多重复字母(碱基对)的地方。随着时间的推移,科学家们解决了部分难题,但当时的人类基因组(遗传学家自2013年以来一直将其作为参考)仍然缺少8%的完整序列。
现在,端粒到端粒(T2T)联盟的研究人员填补了这些空白,该联盟是由大约30个机构组成的国际合作组织。在5月27日题为 "人类基因组的完整序列" 的预印本论文中,加州大学圣克鲁兹分校的基因组学研究员Karen Miga和她的同事报告说,他们已经对剩余部分进行了测序,在这个过程中发现了大约115个编码蛋白质的新基因,而本次测序总数为19969。
马里兰州贝塞斯达的美国国家生物技术信息中心的生物信息学家Kim Pruitt称这个结果是一个 "重要的里程碑"。
新的测序技术
新测序的基因(标号为)T2T-CHM13——在2013年版本的人类基因组序列上添加了近2亿个碱基对。
这一次,研究人员没有从活人身上提取DNA,而是使用了从所谓的全性葡萄胎中提取的细胞系,这是当精子与没有细胞核的卵子结合时形成的组织类型。由此产生的细胞只包含来自父亲的染色体,因此研究人员不必区分来自不同人的两套染色体。
Miga说,如果没有加利福尼亚州门洛帕克的太平洋生物科学公司的新测序技术,这一壮举几乎是不可能的,该公司使用激光扫描从细胞中分离出来的长段DNA——每个都有多达2万个碱基对。传统的测序方法每次只读取几百个碱基对。那时研究人员要将片段像拼图一样重新组合起来。较大的碎片更容易拼凑,因为它们更有可能包含重叠的序列。
然而,T2T-CHM13并不是人类基因组学的终点。T2T团队在几个区域上遭遇了困难,并估计大约0.3%的基因组可能包含错误;但没有未被测序的片段。事实证明,在那几处区域进行质量控制检查是很困难的。
Miga预计,遗传学科学家将很快确认新测序区域是否与人类疾病相关。
她希望未来的人类基因组序列将涵盖所有内容,而不仅仅是容易阅读的部分。现在对照基因组已经完成,一些技术上的障碍也已经解决,这应该更容易。她说:"我们需要在基因组学中达到一个新的标准,不是特殊的,而是常规的。”
doi: https://doi.org/10.1038/d41586-021-01506-w
https://www.nature.com/articles/d41586-021-01506-w