单细胞数据分析工具的特点:
- 集成化:端到端的解决方案
- 商业开源:上游公司引领工具开发
- 数据驱动:几乎都是从表达谱做起
- 迭代快:版本更新,新工具依然增长快
- 教程完备:step by step 的分析演示
以至于单细胞数据分析上手很快,但是随即迷茫期。当我们说着这样的话,cellranger升级到了4.0.
对于表达谱和Feature Barcode 技术
1 Cell Ranger 4.0中提供了靶向基因表达分析,在运行cellranger count命令时通过指定--target-panel
选项调用该分析。
2 Cell Ranger 4.0引入了新的targeted-compare
管道,用于直接比较分析匹配的亲本全转录组扩增(Whole Transcriptome Amplification , WTA)和靶向基因表达数据集。
3 Cell Ranger 4.0包括新的targeted-depth
子命令,根据输入的WTA结果和相关的panel 文件估计适合于目标基因表达实验的测序深度。
4 人类和小鼠的参考基因组已从3.0.0版本更新到2020A版本:
- 转录组注释信息从Ensembl 93更新为GENCODE v32 (human)和vM23 (mouse),相当于Ensembl 98。
- GRCh38和mm10序列不变;染色体名称现在遵循GENCODE/UCSC惯例(例如,chr1和chrM),而不是Ensembl惯例(1和MT)。
- 新的过滤条件。删除了不可靠注释的基因,这些注释经常会重叠更多的合法基因(详细信息请参阅构建脚本),从而提高了整体灵敏度。2020A向后兼容Cell Ranger 3.1.0和之前版本。
由于更全面的注释和改进的人工基因干预,定位率和基因/UMI敏感性得到提高:
5 在分析3’基因表达数据时,Cell Ranger 4.0在将reads与参考转录组比对之前,对Read-2的5’末端oligo (TSO)序列和3’末端的poly-A序列进行修饰。此行为与Cell Ranger 3.1不同,后者不执行任何修剪。
一个全长cDNA分子的侧面通常有一个30 bp的TSO序列,aagcagtggtatcaacgcagagagtacatggg,在5'端和3'端多聚A序列。根据库的片段大小分布,一些序列reads被期望包含其中一个或两个序列。与长RNA分子相比,短RNA分子更可能包含TSO和poly-A序列或两者兼而有之。由于TSO或poly-A形式的非模板序列的存在,使得read映射的比例增加了1.5%,因此修剪可以使基因比对更好。修边提高了分析的灵敏度,也提高了pipeline的计算效率。输出BAM文件中的标签ts:i和pa:i表示从Read-2的5'端修剪的TSO核苷酸的数量和从3'端修剪的poly-A核苷酸的数量。修剪过的碱基存在于BAM记录的序列中,并被记录在 CIGAR字符串中。
下面,我们将说明,对于不同的样本类型,对于修剪和未修剪的比对,映射到转录组的reads片段如何作为读取长度的函数而变化。
6 Cell Ranger 4.0增加了对“un-tethered”特性条形码模式的支持,(BC)没有锚,在 Feature Reference CSV中指定。此选项允许用户指定特性条形码的序列,而无需指定读取时序列所期望的位置。
7 cellranger reanalyze现在输出分析中使用的计数矩阵,以便反映所使用的任何细分条形码。
8 修正了mkref输出GTF文件的错误。这些更改不会影响管道结果。
9 修正了BAM文件的错误
- PCR重复reads和低支撑UMI reads (xf:i:2)的二次比对(flag 0x100)正确设置了重复标志(0x400)
+ 低支持的UMI读取(xf:i:2)在UB:Z有正确的条形码。以前,它包含原始条形码。
10 BAM 文件改变
- Cell Ranger 4.0不会输出li:i标记。RG:Z标签包含此信息。
- Cell Ranger 4.0不会输出BC:Z和QT:Z标签
Gene Expression, Feature Barcode, and V(D)J 都有的变动
-
mkfastq
supports dual-indexed libraries for gene expression, both WTA and Targeted, V(D)J, and Feature Barcode datasets. -
mkfastq
supports a new sequencing configuration for Novaseq where the I2 index may need to be reverse-complemented before demultiplexing dual-indexed libraries. -
count
andvdj
run approximately two to four times faster than in Cell Ranger 3.1, depending on the sequencing data, and reduces disk I/O by half. - A new command-line interface with improved error-handling has been engineered into Cell Ranger 4.0.
- The Martian pipeline framework has been upgraded to version 4.0.
mrp
andmrjob
will shut down if they detect that their log files were deleted or renamed. See the Martian release notes for more details. - The following features present in Cell Ranger 3.1 are no longer present in Cell Ranger 4.0:
-
mkfastq
no longer supports data from the Single Cell 3′ v1 chemistry. - The
cellranger demux
subcommand has been removed. - The command-line interface does not accept FASTQs created by the deprecated
cellranger demux
pipeline. If you need to process FASTQs in this layout, contact support@10xgenomics.com for assistance. -
cellranger count
andcellranger vdj
are no longer able to process data from multiple gem-wells through manual editing of MRO files. - The Single Cell 3′ v1 and Single Cell 5′-R1 assay configurations will no longer be autodetected in Cell Ranger 4.0. Users who want to analyze data from those chemistries must explicitly specify the chemistry (
SC3Pv1
orSC5P-R1
respectively) using the--chemistry
argument.
-
V(D)J 分析的变化
1 参考基因组的变化。
- 在某些情况下移除C区域的第一个基底。在这些情况下,我们观察到在大多数转录本中,J区和C区恰好重叠一个碱基。
- 添加一个IGHJ6等位基因到人类的VDJ参考序列。
2 修复了contig注释中的Bug:
如果引用D区域与contig完美匹配,则用该D区域注释该contig。
3 The command line argument --chain
is added back in 4.0 for rare cases when the automatic chain detection fails.
4 A new output airr_rearrangement.tsv
is added, which contains annotated contigs of VDJ rearrangements in the AIRR TSV format.
5 The VDJ reference is copied to the outputs folder starting with Cell Ranger 4.0.