nanoseq简介
nfcore/nanoseq
是用于Nanopore DNA/RNA测序数据的生物信息学分析流程,它能够进行基因识别、解复合、质量控制、序列比对以及下游分析。
此流程基于 Nextflow,一个能在多种计算基础设施上以非常便携的方式运行任务的工作流工具。它采用 Docker/Singularity 容器,使得安装过程简单且结果高度可复制。此流程的 Nextflow DSL2 实现为每个过程提供了一个容器,这使得维护和更新软件依赖关系变得容易得多。在可能的情况下,这些过程已提交给并从 nf-core/modules 安装,以便使它们对所有 nf-core 流程以及 Nextflow 社区的所有人都可用。
在发布时,自动连续集成测试在 AWS 云基础设施上运行该流程,使用从 Singapore Nanopore Expression Consortium 获取的完整数据集。这确保了该流程能在 AWS 上运行,为实际的数据集设置了合理的资源分配默认值,并允许结果的持久存储,以便在流程发布和其他分析来源之间进行基准测试。全尺寸测试获得的结果可以在 nf-core网站 上查看。
流程概述
解复合 (使用 qcat; 可选)
原始读取清理 (使用 NanoLyse; 可选)
-
序列比对 (使用 GraphMap2 或 minimap2)
- 两种比对器都能执行未剪接和剪接比对。会根据输入数据和用户指定参数的组合自动应用合理的默认值
- 每个样本可以映射到其自己的参考基因组(如果以这种方式复合)
- 将 SAM 转换为坐标排序的 BAM 并获取映射指标 (使用 samtools)
创建 bigWig (BEDTools, bedGraphToBigWig) 和 bigBed (BEDTools, bedToBigBed) 覆盖度轨道以进行可视化
-
DNA特异性下游分析:
- 短变体调用 (使用 medaka, deepvariant, 或 pepper_margin_deepvariant)
- 结构变体调用 (使用 sniffles 或 cutesv)
-
RNA特异性下游分析:
-
转录重建和定量 (使用 bambu 或 StringTie2)
- bambu同时执行转录重建和定量
- 当选择StringTie2时,每个样本可以单独处理并组合。之后,将使用 featureCounts 进行基因和转录定量。
RNA融合检测 (使用 JAFFAL)
-
呈现原始读取和比对结果的质量控制 (使用 MultiQC)
功能概述
下图是根据期望的输出通过管道的建议路线的图形概述。
快速开始
- 安装 Nextflow (
>=22.10.1
) - 安装 Docker, Singularity (可以参考 此教程), Podman, Shifter 或 Charliecloud 中的任意一个,以实现完整的管道复制性(您可以使用 Conda 来安装 Nextflow 以及管理管道内的软件。请仅在管道内作为最后手段使用它;请参见 文档)。
- 通过单个命令下载管道并在最小数据集上进行测试:
nextflow run nf-core/nanoseq -profile test,YOURPROFILE
开始运行自己的分析!
文档
nf-core/nanoseq管道附带有关管道 使用, 参数 和 输出 的文档。
nextflow run nf-core/nanoseq \
--input samplesheet.csv \
--protocol DNA \
--barcode_kit SQK-PBK004 \
-profile <docker/singularity/podman/institute>
运行管道时可用的所有选项,请参见使用文档。