受人之托,所以又跑到另外一个领域去了,中文的资料还不是很全,所以还是自己动手吧
可变剪切工具大全
HussainAther/awesome-alternative-splicing: Alternative splicing resource (github.com)
Software
- ALEXA-Seq - alternative expression analysis by massively parallel sequencing.
- AltAnalyze - analyze alternative splicing from single-cell and RNA-Seq data.
- Cufflinks - assemble and quantify transcripts.
- DEXSeq - identify differential exon usage.
- flotilla - reproduce machine learning analysis of gene expression and alternative splicing data.
- GMAP and GSNAP - detect complex variants and splicing in short reads, SNP-tolerant.
- G-Mo.R-Se - maps splice junctions to genome.
- HMMSplicer - discovery canonical and non-canonical splice junctions in short read datasets.
- JunctionSeq - identify differential splice junctions.
- MapSplice - map RNA-seq data to reference genome for splice junction discovery.
- MISO - determine alternative splicing expression.
- MMES - statistically determine alternative splicing.
- outrigger - calculate alternative splicing scores of RNA-Seq data based on junction reads and a de novo, custom annotation created with a graph database, especially made for single-cell analyses.
- rMATS - RNA-Seq Multavariate Analysis of Transcript Splicing. Reading rMATS output
- rmats2sashimiplot - visualize rMATS output using sashimi plots.
- SAW - identify splicing events from RNA-Seq data.
- Scripture - reconstruct transcript isoforms.
- SingleSplice - detect biological variation in alternative splicing within a population of single cells.
- SpliceMap - discover and align splice junctions for RNA-Seq reads.
- SpliceR - detect alternative splicing and predict coding potential.
- SplicingCompass - detect differential splicing using RNA-Seq data.
- SplitSeek - predict splice events from RNA-Seq data.
- STAR - identify alternative splicing.
- SUPPA - identify alternative splicing.
- TopHat - map splice junctions for RNA-Seq reads.
Databases
- ASIP - Alternative Splicing in Plants.
- ASG - Alternative Splicing Gallery for human genes.
- ASPicDB - Alternative Splicing PredICtion DataBase.
- ENSEMBL - Human and mouse genome annotations.
- FAST DB/Easana - Friendly Alternative Splicing and Transcripts Database.
- Hollywood exon annotation database - A website for querying a relational database of constitutive and alternative human exons, by using biological and descriptive features.
- HS3D - Data set of Homo Sapiens Exon, Intron and Splice regions extracted from GenBank Rel.123.
- H-DBAS - Human-transcriptome DataBase for Alternative Splicing.
- MAASE - Convenient access, identification, and annotation of alternative splicing events (ASEs), designed specifically with experimentalists in mind.
- Pro-Splicer - Alternative splicing database based on protein, mRNA, and EST Sequences.
- SpliceNest - Visualizing splicing of genes from EST Data for human, mouse, Drodophila and Arabidopsis.
差异剪接(DS)是一种转录后的生物学过程,对大量的细胞活动和疾病过程具有重要的、广泛的影响。迄今为止,已经发展了许多计算方法来识别和量化 RNA-seq 数据中的差异剪接基因,但是目前缺乏这些方法的全面的相互比较和评价。在这项研究中,我们系统地评估了10个 DS 分析工具的一致性和重复性、精确性、召回率和错误发现率、差异剪接基因的一致性和功能丰富性。这些工具被选择来代表三个不同的方法类别:
exon-based (DEXSeq,edgeR,JunctionSeq,limma) ,
isoform-based (cuffdiff2,DiffSplice)
event-based (dSpliceType,MAJIQ,rMATS,SUPPA)。
总的来说,所有基于外显子的方法和两种基于事件的方法(MAJIQ 和 rMATS)在所选择的测量方法中都得到了良好的评价。在测试的10个工具中,基于外显子的方法通常比基于异构体和基于事件的方法表现得更好。然而,总的来说,不同的数据分析工具在不同的数据集或样本数量上表现出明显的不同。当需要考虑计算性能时,建议使用 limma 和 edgeR。
Introduction
差异剪接(DS)使生产各种信使 rna (mRNAs) ,从而各种蛋白质产品,从一个基因。这一过程允许大量的复杂性和多样性的信使核糖核酸和蛋白质产物没有随之增加的基因组大小。例如,人类多外显子基因中有90-95% 以上被发现经历了 DS。DS 的功能障碍与细胞功能障碍和不同疾病,特别是癌症的病理有关。此外,DS 事件已被提议作为生物标志物和药物发现的潜在目标[6]。
目前 AS 事件主要分为5种类型: 跳过外显子(SE)、选择性5′(供体)剪接位点(A5SS)、选择性3′(受体)剪接位点(A3SS)、保留内含子(RI)和互斥外显子使用(MXE)。
在外显子跳跃中,一个外显子与其侧面的内含子从转录本中剪接出来。外显子跳跃是高等真核生物中最普遍的 AS 事件,约占全部 AS 的40% ,但在低等真核生物中很少发生。在高等真核生物中,选择性剪接位点3′和5′分别占 AS 的18% 和8% 。在植物、真菌和后生动物中,内含子保留(Intron retention)是常见的现象,而在高等真核生物中,它只占已知 AS 事件的5% 左右。其他几个不太频繁、复杂的 AS 事件也得到了确认,其中最常见的是 MXE,每次只保留一个从属外显子。
Rna 测序技术(RNA-seq)使得对转录组及其在不同条件下或不同组织中的变化的详细分析成为可能。尽管 RNA-seq 具有巨大的应用价值,但由于测序读码的短小性(通常在100-150 bp 或更短),RNA-seq 并不能自然而然地用于阐明 DS 事件,从而导致它们可能与同一基因的不同转录本相一致。然而,到目前为止,已经发展了一些计算方法用于 DS 分析。
目前 DS 分析主要采用两种策略: isoform-based的 (如 cuffdiff2和 DiffSplice )或基于计数的(count-based),后者进一步分为基于外显子的(如 DEXSeq、 edgeR 、 JunctionSeq 和 limma )或基于事件的方法(如 dSpliceType 、 MAJIQ 、 rMATS 和 SUPPA,SUPPA2)。
Isoform-based的方法旨在重建和量化全长转录品,之前的差异表达分析。使用count-based的方法,基因通常被配置成由计数单元组成的单一表示,例如,可以是完整的或截断的外显子区域或连接区域。计数被记录为下降到每个计数单元的测序读数,然后进行差异表达式分析来调用差异表达的计数单元。
虽然大多数现代方法能够在不同的样本群体之间分析 DS,但一些较早的工具,如 MISO 、 ALEXA-Seq 、 rSeqDiff 和 SpliceSeq 只在两个单独的样本之间进行分析,限制了它们在许多研究中的应用。
作为一个新兴领域,DS 数据分析方法有了迅速的发展,但是,仍然需要对它们的性能进行系统的评估。一些工具的开发人员进行了初步的比较,比如 JunctionSeq 、 dSpliceType 和 rSeqDiff 。此外,在模拟和真实的植物 RNA-seq 数据集上进行了 DS 工具的比较 ,然而,与脊椎动物不同的是,植物内含子保留比外显子跳跃更为常见,这使得研究结果对高等真核生物的适用性成为可能。
在我们的比较中包括的所有10个工具都使用了4个 RNA-seq 数据集进行了测试。前两个: 人类前列腺癌(PCa)数据集(n = 28)和人类前列腺癌(HCa)数据集(n = 100)被选择为合理的样本数量,以便调查样本数量对结果的影响。另外两个数据集包括几个 qpcr 验证的拼接事件。首先,小鼠验证集(MVS)将野生型小鼠与上皮剪接调节蛋白(Esrps)敲除型小鼠进行比较,包括28个 qPCR-validated exon 跳跃事件基因。第二个验证集,即人类验证数据集(HVS) ,比较了两个人类前列腺癌细胞系,包括32个 qpcr 验证的 DS 基因。
基因组的参考序列和注释文件都是从 Illumina igenomes 公司下载的,包括人类基因组 grch37和小家鼠基因组 ncbim37的 https://support.Illumina.com/sequencing/sequencing_software/igenome.html。Grch37的转录组参考文件序列以 fasta 格式从 ensemble (GRCh37: release 83)下载,并使用 bowtie2[39]进行索引。
从 SRA 或 GEO 下载的 SRA 文件使用 sratoolkit. 2.8.0转换为 fastq 文件,并使用 FastQC v0.11.3工具[41]分析了读取的质量。在主成分分析数据集中,低质量的读数用trimgalore v0.4.1修剪到大于20个基点的长度。rMATS 有一个限制,即它只能在提供相同长度的读数时才能执行 DS 分析,因此对于 rMATS,使用 rMATS 提供的脚本将读数额外地截断到80 bp。这些片段被映射到参考基因组(bl Homo sapiens: GRCh37,Mus musmusculus: NCBIM37) ,使用 STAR v2.6.1 b [43]默认设置。补充表 s1提供了每个数据集中的总读数和映射读数的汇总。
对于每种方法的 DS 基因的选择,FDR 阈值设置为0.05。在考虑基因排序的地方,大多数方法都是基于 FDR 进行排序。对于 DiffSplice,使用了该方法自己的测试统计量,因为这是它提供的唯一统计量,而对于 cuffdiff2,由于很少发现 FDR 小于1,结果按 p 值排序。在需要的地方,测试统计量被用作次要的排名标准。
高通量测序数据分析是一项计算密集型任务。衡量工具性能的主要指标是它们最大的内存消耗和总的运行时数量,以及不断增加的样本数量,这里确定了所有工具的样本数量(图5)。所有的工具都运行在一个由免费的,开源的资源管理简单 Linux 工具(SLURM)管理的计算机集群上。报告的运行时不包括生成运行 exon count 文件等工具所需的文件的时间。总的来说,limma 和 edgeR 在时间上优于其他所有方法,而 MAJIQ 的最大记忆量最小,其次是 limma 和 edgeR。Limma 和 edgeR 运行不到一个小时,而 cuffdiff2、 DEXSeq、 JunctionSeq、 rMATS 和 DiffSplice 运行几天(图5a)。在基于事件的方法中,dSpliceType 比 SUPPA/SUPPA2、 MAJIQ 和 rMATS 更快。在基于等形式的方法中,DiffSplice 比 cuffdiff2快,尽管 cuffdiff2能够利用使用多个计算核心的优势。在最高的内存占用中达到峰值的工具是 cuffdiff2,其次是 DiffSplice (图5b)。由于样本量较小(n = 3和 n = 5) ,sapa 对内存的需求很小,但随着样本量的增加(n = 10、25和50) ,其内存使用量迅速增加。
为了研究不同工具报道的 DS 基因列表中差异表达基因的比例是否存在差异,我们在完整的 PCa 和 HCa 数据集中进行了基因水平差异表达分析,这些数据集需要 FDR < 0.05和绝对折叠 > 2(补充表 S6)。DS 基因中差异表达基因在前列腺癌中的比例为9% ー20% ,在 HCa 数据集中的比例为23% ー28% 。结果表明,DS 基因的检测不受基因表达差异的影响
在 HCa 和 PCa 数据集中,所有基于外显子的方法(DEXSeq、 edgeR、 JunctionSeq、 limma)和两种基于事件的方法(MAJIQ 和 rMATS)总体表现良好,具有较低的 FDR、较高的精度和中等的召回率(图2)。虽然顶级 DS 基因在这些工具中的重叠相对较低,但是一般来说,基于外显子的方法彼此重叠最多,而与基于异构体的方法重叠最少(图3)。基于事件的方法 rMATS 和 MAJIQ 观察到 GO 项的总体富集最强(图4)。MAJIQ 和 SUPPA 在 MVS 和 HVS 数据集中 qpcr 验证的 DS 基因比例总体得分最高,其次是 SUPPA2(表4)。在时间和内存消耗方面,limma 和 edgeR 明显优于所有其他工具,而 MAJIQ 占用的内存最少(图5)。事实上,没有任何一种工具在所有测量方面都优于其他工具,这与先前对模拟数据和真实植物 RNA-seq 数据进行的研究结果一致。在我们比较的10个工具中,DEXSeq,rMATS,cuffdiff2和 DiffSplice 也包括在前面的比较中,其中 DEXSeq 和 rMATS 被普遍认为表现良好。
在我们的比较中,这些工具是使用默认设置运行的,就像大多数用户实际上会做的那样。最初,我们根据 Tophat2[54]生成的比对进行了所有的分析,但后来根据 STAR [43]生成的比对进行了修正,最近的一项研究[55]表明,尽管选择了运行参数,但仍然是一个稳健的比对器(也关于拼接点计数) ,而 tophat2对其参数设置特别敏感。另一项最近的研究[56]进一步调查了 STAR 的不同参数设置,并得出结论: 在默认设置下运行时,它是非常稳健的。然而,这里报告的一般趋势也可以在早期的 tophat2基础结果中观察到(数据没有显示)。在我们的研究中,每次只比较两组。对于更复杂的实验设置,可能需要更复杂的比较设计和混杂变量(如批处理效果)的合并。所有基于外显的方法都有一个基于建模的灵活支持复杂的实验设计,包括混杂变量(表2)。Cuffdiff2、 dSpliceType 和 MAJIQ 只支持不成对的两组比较,而 DiffSplice 还允许一个变量用于阻塞。rMATS 和 SUPPA/suppa2支持成对样本设置。
对于所有方法,我们使用相同的完整注释文件(包括基因结构的定义) ,除了不使用任何注释的 DiffSplice。一些方法(cuffdiff2,JunctionSeq,rMATS,MAJIQ)也检测未注释的新的拼接事件,但是我们限制了与已知的注释的比较。考虑到所观察到的不同方法之间的重叠很少,以及前面已经表明在注释不完整的情况下性能显著下降 ,基于不完整注释的比较对本研究似乎没有意义。
测序深度和测序长度对于 DS 的影响已经研究过了。Liu 等人的研究[17]表明,大多数方法对 RNA-seq (25 × 100 ×)的不同阅读深度和覆盖范围具有较强的鲁棒性,当阅读深度减小时,识别能力略有下降。另一方面,Chhangawala et al. [57]表明,当使用较长的读长度(≥100 bp)和配对末端数据时,已知和新的剪接位点的检测有明显改善。我们的分析再次证实,在每个样本读取4000万到6000万次之后,DS 结果是相当稳健的(补充图 S5)。此外,我们分析了该基因的差异表达状态是否对结果有很大影响,但是在我们的比较中没有发现这一点的证据(补充表 S6)。