写在前面
- 以下内容均来自菲沙基因(Frasergen)暑期生信培训班课堂笔记
1. Genome de nove 基础知识
➢ 基因组(Genome)
基因组就是物种所含有的一套遗传物质(单倍体细胞核、细胞器所含的全部DNA分子) , 包括全套基因和间隔序列。
➢ 基因组测序(Genome Sequencing)
➢基因组测序
- 利用测序技术对物种的体内的所有DNA分子进行测序,获取碱基组成,明确出基因的结构信息,外显子及内含子区域、启动子位置,以及基因的排列顺序及功能。
➢基因组测序技术
- 二代测序: 基于BGI平台的边合成边测序;
- 三代测序:基于PacBio平台的单分子实时测序。
➢基因组测序原理
- 通过对基因组DNA序列进行打断处理 ,制作成可以识别或读取的DNA形式及大小,利用荧光标记对每个碱基信号进行读取,进而获得DNA序列信息。
➢ 基因组从头测序(Genome de nove)
- 基因组de nove,又称为基因组从头测序,是指对基因组序列未知(或仅有基因组草图)的物种进行全基因组测序,然后进行拼装,从而得到该物种的全基因组序列,为后续功能基因挖掘、调控代谢网络构建、物种进化分析等奠定基础。
➢ 构建参考基因组 pipeline
2. pipeline的功能简介
➢ 基因组 Survey 分析
基因组Survey基于小片段文库的低深度测序数据( 50X-100X ) ;
通过K-mer分析 ,有效的评估基因组大小、GC含量、杂合度以及重复序列的含量等信息;
是全面了解某一物种基因组特征的有效方法;
-
为后续的全基因组 de novo 测序的组装策略的制定提供理论依据。
-
补充知识(一): 基因组复杂程度预估
-
补充知识(二):根据K-mer图确认物种倍型
二倍体:杂合峰:主峰:重复峰 = 1:2:4(比值为横坐标峰的比值)
-
补充知识(三):Survery的优势
➢ 基因组组装与注释
-
基本概念与原理
- Contig:使用短reads之间的overlap关系拼接所得的无GAP序列片段
-
Scaffold:通过大片段文库将Contig进-步连接所得的长序列片段,各个Contig之间用"N"填补
- 组装质量评价基本指标:ContigN50与SeaffoldN50
- 将组装所得序列从大到小排列,并依次相加,当累加长度达到总长度一半时,最后一条序列的长度即为N50;一般来说,N50越大,组装结果的连续性越好
-
组装流程
组装
常用软件有Canu, MECAT, FALCON。从项目周期、组装结果、资源消耗等方面综合来看,菲沙基因(Frasergen)他们首选Mecat 2进行基因组组装。-
Hi-C辅助组装
Hi-C数据的一般规律:
➢ 染色体内的互作高于染色体间的互作
➢ 染色体内互作强度随线性距离增加而减弱
-
组装结果评估
数据回比:为了评估组装的完整性和测序覆盖的均匀性,选择CLR (Continuous Long Reads) subreads ,使用比对工具Minimap2 ( v2.5默认参数)比对回组装好的基因组,统计reads的比对率、覆盖基因组的程度以及深度的分布情况,由此评估组装的完整性和测序覆盖的均匀性,结果如下表所示。
BUSCO评估:基于OrthoDB中的单拷贝同源基因集,使用BUSCO ( V3.0.2 )预测这些基因并统计其完整度,碎片化程度及可能的丢失率。由此评估整个组装结果中基因区的完整性(大于90%较好)。BUSCO评估结果如下表所示。 -
基因结构注释
基因结构预测包括预测基因组中的基因位点、开放性阅读框架(ORF)、翻译起始位点和终止位点、内含子和外显子区域、启动子和终止子、可变剪切位点以及蛋白编码序列(CDS)等
-
基因功能注释
全基因组测序将产生大量数据,此前普遍采用比对方法对对预测出来的编码基因进行功能注释,通过与各种功能数据库(NR、Swiss-Prot 、GO、KOG、KEGG)进行蛋白质比对,获取该基因的功能信息。其中GO和KEGG数据库分别在基因功能和代谢通路研究中占据重要地位。
-
非编码RNA注释
非编码RNA(ncRNA),指不翻译成蛋白质的RNA,如
miRNA(MicroRNA),
tRNA(转运RNA),
rRNA(核糖体RNA),
snRNA(小核RNA)等。
利用tRNAscan-SE对全基因组进行tRNA预测;利用RNAmmer预测全基因的rRNA;利用Rfam数据库通过cmscan鉴定全基因组非编码RNA
-
重复序列分析
重复序列广泛存在于真核生物基因组中,这些重复序列或集中成簇,或分散在基因之间,根据分布把重复序列分为分散重复序列(Interpersed repeat)和串联重复序列(Tendam repeat)
-
基因组圈图结果展示
➢ 比较基因组学
-
比较基因组学是从基因组中解析生物学意义
-
基因家族聚类
-
系统进化树
-
物种分歧时间计算
-
基因家族扩展收缩分析
-
正选择分析
-
共线性分析(需到染色体水平)
-
全基因组复制分析(WGD)
- 泛基因组分析(需要多份基因组de nove测序数据)
写在最后
- 已发表动植物基因组文章汇总(截止于2021年)
链接:https://pan.baidu.com/s/1t_xbRf4Bj3DoHTQV-y6xAQ
提取码:yyds