RNAseq分析如何选择 参考基因组 和 gtf

转自:https://mp.weixin.qq.com/s/Yt9HwCrvsz4gAkieTWYjRQ

最近在做人类的转录组分析,发现人类基因组的序列版本和注释版本真的种类繁多,让人眼花缭乱。怎么选?笔者查阅了一些资料,尝试理理清楚,如有纰漏,还望指正。

太长不看版

  • 强调可重复性和稳健-用RefGene;
  • 希望得到更多的信息,进行更具探索性的研究,选用Ensembl版本。对于Ensembl,序列选择primary_assembly,gtf/gff3选择primary_assembly对应的.gtf(用chr_patch_hapl_scaff.gtf也无妨)

正文

下载人类基因组信息有三大去处,ensembl、RefSeq(NCBI)和UCSC。ensembl、RefSeq(NCBI)和UCSC下载的同一版本的DNA序列是一样的,目前比较常用的有hg19、hg38、GRCh37、GRCh38,其中hg系列是UCSC的叫法,GRCh系列是NCBI和ENSEMBL的叫法。这些都属于genome builds,也就是基因序列,同一版本的序列是一样的(其中hg19对应GRCh37,hg38对应GRCh38),比如hg38和GRCh38的序列就是一样的。同一系列,序号大的是序号小的升级版,比如GRCh38是GRCh37的更新版。

ensembl、RefSeq(NCBI)和UCSC下载的同一版本的DNA序列虽然是一样的,但是它们的注释是不同的,更新频率也不一样。NCBI 的注释是“ refseq”数据集(UCSC 的”refGene” track), UCSC 和 ensemble 注释都将其作为其中一个子集。而UCSC 的注释比较混乱。同样ID的基因会出现在不同链或不同染色体位置上。Ensembl的注释通常比UCSC更多(所以噪音更多一点) ,但是它们的ID处理的比较好,不会像UCSC的那么混乱,因此,它们的 ID 通常更容易转换成别的(例如,基因名称、GO和pathway)。Ensembl还经常更新它的注释,更新一次作为一个版本发布,因此可以方便地告诉别人你使用的版本,增强分析的可重复性。

Ensembl的注释噪音多怎么理解呢?有哪些潜在的影响呢?
以ensembl release-74版本为例,尽管 其包含63,677个基因注释条目,但只有22,810个条目(大约三分之一)是蛋白编码基因。有17,057个条目是不同类型的 rna,包括 rRNA (566)、snoRNA (1549) 、snRNA (2067)、miRNA (3361) 、misc_rna (2174)和 lincRNA (7340)。ensemble还包含了15,583个假基因。对于大多数RNA-Seq 测序,一般只有富集和测序mRNAs,一般不会比对到诸如 miRNAs 或 lincRNAs 之类的RNA上。R74基因组包含819个经过逆转录产生的转录本,这些转录本是通过逆转录产生的,随后又重新整合到基因组中,这些转录本通常是表达不活跃的。在这种情况下,mRNA产生的reads,尤其是junction reads,可能比对到甚至唯一比对到这种“处理过的转录本”上。因此,该基因的mRNA的真实表达量可能被低估了。使用更全面的注释数据库的另一个缺点是p值,因为原始p值的需要多重校验。而多重校验后的p值的大小主要取决于模型中基因的数量。如果感兴趣的基因在不同的注释中定义不一致,建议使用不同的基因注释模型分析 RNA-Seq 的数据。

总的来说,可以遵循这么一个原则:当进行强调可重复性和稳健的基因表达估计的研究时(比如使用RNAseq来作为芯片分析的替代的时候),优先选较为简单的基因组注释,如 RefGene。但较为简单的基因组注释可能不利于识别或描述新的转录或调控机制。因此,当进行更具探索性的研究时,更全面的注释更优,比如选择Ensembl。而UCSC,emmmm不太建议使用。

而常用的比对软件STAR的manual是这么建议的:使用注释最全面的。

图片

那假如我选择了Ensembl,那么多种基因组序列又有什么区别?sm、rm有什么区别?alt、dna.toplevel、primary_assembly怎么选,对于gtf/gff3,以gtf为例,abinitio.gtf、chr.gtf、
chr_patch_hapl_scaff.gtf、gtf又该怎么选?

根据我的好友“面面的徐爷”的学习笔记:

首先根据组装的不同分为:

  • toplevel - Includes haplotype information (not sure how aligners deal with this)
  • primary_assembly - Single reference base per position

其实根据对序列的处理不同分为:

  • dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
  • dna_rm - Repeats masked (converts repeats to to N’s)
  • dna - No masking

结论1:选dna或者dna_ssm都可以,不选dna_rm。

标记重复的基因组会用N代替重复区域,而这就给后续的比对带来很大的问题。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)虽然也标记出了参考基因组,但是以小写的形式存在的,故对比对没有影响。

结论2:选primary版本,不选toplevel。toplevel包含了单倍体型( haplotypes)和patch(补丁?不太理解是什么)的信息,而单倍体型的信息会使得比对软件很难处理好。如果用BWA,那么使用toplevel会有好处,但如果使用STAR/hisat2/bowtie2/BBmap等,包含单倍体型信息会导致比对结果不准确。

来自比对软件STAR的推荐:.dna.primary assembly。

图片

选好了基因组,gtf/gff3的问题也迎刃而解——选择对应的版本就好了。

  • .gtf: 默认文件,对应primary assembly.fa(This is the default file, it should contain the full annotation for all species except human and mouse. For human and mouse, it will contain all annotation on the primary assembly, ie excluding patch and haplotype regions. All species have one.)

  • .chr.gtf: Contains only annotation on chromosomes, so toplevel scaffolds are excluded (patch and haplotypes are not included).

  • .chr_patch_hapl_scaff:对应toplevel。(Contains all annotation on all toplevel sequences, including patch and haplotype regions. It should only exist for human and mouse)如果你用的是primary选这个gtf文件也没什么关系,只是多了一些primary没有的注释信息而已。

  • .abinitio.gtf:基于.gtf增加了使用Genscan等工具得到的一些注释信息(Additionally, we provide a GTF file containing the predicted gene set
    as generated by Genscan and other abinitio prediction tools.
    This file is identified by the abinitio extension.)

另外,需要注意的是不同的来源的基因组序列名称不一样,例如1号染色体,在 UCSC 中是 chr1,而在 Ensembl是1 ,因此不管你选择哪个版本,在使用的时候,序列和注释要统一(UCSC的基因组序列需要对应使用UCSC的gtf/gff3注释文件,Ensembl则对应使用其同一版本对应的gtf/gff3注释文件)。

参考资料

Gencode最新版就是Ensembl上的默认注释,它们都是EMBL-EBI家的

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容