1. 建立项目团体
多机构合作,数据和利益共享。
2. 收集目标基因组信息
考虑的因素:
基因组大小、倍性、杂合性、GC含量和重复。
数据库查询:
fungi (http://www.zbi.ee/fungalgenomesize)
animals (http://www.genomesize.com)
plants (http://data.kew.org/cvalues)
估计:
流式细胞仪和kmer频率分布(建议两种都用)。
3. 设计最佳实验流程
高质量染色体水平的参考基因组是关键。
质控:reads长度、错误率、深度、覆盖度、文库等。
有钱:PacBio/ONT + Hi-C
没钱:Illumina/10X GC(genomics chrominum) + Hi-C
从头组装:一般是完全denovo。
参考基因组辅助:利用近缘物种作为参考和指导进行组装,该方法对数据和计算量较小,但是现有参考基因组可能有错误和重排。
目的:构建一致的单倍型或定相单倍型的染色体水平组装。一般的组装是将2条序列整合为1个单倍型,因此不能得到二倍体信息。
选择合适的工具和流程:考虑组装的质量和连续性,包括速度和敏感性。
三代组装工具网站:
LRS-DB https://long-read-tools.org/
常用的组装工具软件:
4. 选择最佳测序平台和准备文库
文库制备的两个考虑:目标基因组大小、测序样本数。
reads: 短(Illumina, 454, SOLiD, MGI, Ion Torrent),长(ONT and PacBio)或混合(hybrid) read
5. 选择最佳DNA来源和提取方法
不含杂质。
最低量要求:
Illumina 和 10xGC > 3 ng, PacBio > 20 μg, ONT > 1 μg, BioNano > 200 ng, Dovetail > 5 μg 。
三代平均DNA长度>25 kb。
使用核与细胞器DNA比率更高的组织。
纯化DNA的测量/定量可使用分光光度法和基于荧光的方法。
6. 检查计算资源与要求
数据量、基因组大小、杂合率和倍性等对内存
需求、CPU数量和计算成本成几何增加。
可选择云计算合理分配。
7. 选择最佳计算设计和流程
三种选择:
(1)最大化内部员工或协作
(2)从服务外包提供者
(3)模拟具有不同设置的数据
8. 基因组组装
推荐的基因组组装和注释流程图:
强烈建议使用BioNano和Hi-C数据来达到染色体级组装,因为这两种方法可通过验证初始组装的完整性,纠正方向错误,排序scaffolds来完善结果。
9. 在注释前检查组装质量
在鸟枪法时代,denovo依赖于于算法和试验设计。reads长度、文库大小、reads准确性和基因组复杂性等决定了组装的准确性和连续性。
质量评估:
- 组装大小
- 组装连续性(N50,NG50,NA50,NGA50)
- 重叠群contig数目和(平均)长度
- 组装可能性得分(通过reads比对每一个候选组装来计算)
- 组装完整度(BUSCO得分或RNAseq mapping)
- 其他:QTL、ESTs、荧光原位杂交、BAC克隆、染色体水平遗传图谱。
三个最重要的指标:连续性、准确性、完整性。
方法:三代/10XGC,BioNano,Hi-C数据;软件LR_Gapcloser。
10. 基因组注释
注释内容:
- 识别非编码区:重复序列、转座子。
- 识别编码区(称为基因预测):内含子、外显子、CDS、5/3 UTR。
- 附加这些元素的生物学信息。
注释的方法:
- 手动注释:耗时昂贵,需要获得准确的基因模型和基因集。
- 自动注释:置信度和可靠性低(通常基于直系同源物种,不同数据库数据不同)。
- 半自动注释:集成不同的结果获得一致的注释,平衡了手动和自动方法。
结合比对EST、RNAseq、蛋白序列作为外部基因组组装证据。
结合方法和结果(尤其是MAKER,BRAKER和String-Tie)可以有效地提高注释预测的数量和准确性(尤其是对孤儿基因和其他年轻基因)。
功能注释GO等。
在线基因组注释工具:
命令行注释工具:
非编码RNA注释:
重复序列注释:
11. 建立一种可查询和可共享的输出格式
公共数据库 or 自建数据库?
12. 分发社区来优化组装和注释
不同版本软件结果不同,为确保稳定,数据可重复,需持续维护和更新。
植物社区示例:
https://nbenth.com/annotator/index,
https://solgenomics.net
https://www.helmholtz-muenchen.de/pgsb
动物社区示例:
http://www.slimsuite.unsw.edu.au/servers/apollo.php
https://bovinegenome.elsiklab.missouri.edu
http://www.gmgi.org/genomics-fish-shellfish
https://www.sanger.ac.uk/science/data/vertebrate-genomes-sequencing
对于初学者的基因组组装和注释流程的建议
不建议纯二代组装。
纯三代或混合组装方法:
此文太多废话,慎读~~~