老板给活了!这还不赶紧学习一波
“有几个植物基因组,已经做了基本的组装,后面的分析你来做;你先学习一下植物基因组,特别是植物基因组进化分析,上午跟你说这些案例(中国松)。”
首先 是我查了很多次都没有记住的概念。
高通量测序中,reads、contigs、scaffold、unigene、singleton各是什么,有什么关系?
1. 什么是read?
高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是读序;就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。PE reads 就是 paired-end reads。在测序过程中,一条DNA分子的两端都可以测序。先测其中的一端,获得一个reads,然后再转到另一端测序,获得另外一个reads。得到的这两个reads就是PE reads。PE reads 的获得有助于后期序列组装。
2. 什么是contig?
有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig,它们是(片段)重叠群;就是不同reads之间的overlap(交叠区),拼接成的序列就是contig。
Contig N50:Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准。
3. 什么是scaffold?
多个contigs通过片段重叠,组成一个更长的scaffold,中文中有脚手架的含义;是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;
多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene.
基因组加倍事件相关解释:2021-11-06从人见人爱的向日葵说起——Ks与全基因组多倍化事件 - 简书 (jianshu.com)