2020.11.19 Cell Ranger更新到了5.0版本。官网的更新说明包括以下三个部分:
一、关于基因表达和Feature Barcode分析的更新
•Cell Ranger 5.0 添加了--no -bam选项,此选项不生成基因表达和和Feature Barcode数据集的比对BAM文件。也就是说,如果不需要这些BAM文件,使用此选项可以显著提高流程运行速度。
• Cell Ranger 5.0添加了已改进的蛋白质聚合检测与过滤算法。通过直接使用蛋白质计数,更多的aggregate GEM在细胞识别之前就被检测并过滤掉。
• Cell Ranger 5.0 添加了--include -introns选项,用于计数3‘和5’基因表达产物的内含子reads。使用前体mRNA参考序列以计数内含子reads的方法现已弃用。
Cell Ranger 5.0 的--include -introns选项,通过使用STAR比对reads到正常参考转录组来实现。比对结束后,与比对到外显子的reads类似,那些比对到内含子的reads被注释和计数。此前,Cell Ranger 4.0及之前的版本使用前体mRNA参考方法,涉及比对到修正的参考转录组,将内含子区域视为外显子。使用前体mRNA参考序列与使用正常参考序列,这两种方法通过STAR比对产生的read 比对产物略有不同。这两种方法的差别导致UMI计数有较小的整体差异。
•修正上游IRLBA,以修正在罕见情形下的错误。
•在某些Linux版本中,NFS在文件拷贝过程中将会出现错误。对于受影响的源代码,我们已实施替代方案。
二、关于基因表达、Feature Barcode与VDJ分析的更新
• Cell Ranger 5.0 添加了multi pipeline,可以同时处理来自一个GEM 孔的5‘基因表达、Feature Barcode(细胞表面蛋白或抗原)以及VDJ文库的任意组合。multi pipeline 使用由基因表达提供的细胞识别,以提升来自VDJ文库的细胞识别。
•在web summary中添加了一个名为“Number of Short Reads Skipped”的参数,表示被忽略的read pairs的总数,因它们不能满足最短长度的条件。
三、关于VDJ分析的更新
1. Cell Ranger 5.0引入了一种新的克隆型分组算法,估算来自独立的、完整重排的共享起源的细胞群,并且推断数据集中每个个体的V基因生殖系序列。在之前的版本中(4.0及以下),算法仅根据生产性的CDR3核苷酸序列对细胞进行分组。因此,每当一个真正的克隆型具有CDR3突变时,那些真正精确的亚克隆型将被此算法识别为多种不同的克隆。
CellRanger 4.0及更早版本中的克隆型分组方法,根据独特CDR3序列来分组将导致B细胞克隆的不准确。此外,单链的克隆型被报告为独立的克隆型,这将导致对给定克隆型的过多或过少的估计。新的克隆型算法提高了特异性、敏感性和整体精确性,因其计算了VDJ转录本以及VDJ连接区的突变。此算法也对T细胞和B细胞的单链克隆型与正确的完整配对克隆型进行了合并。额外的细胞过滤在克隆型分组中被采用,以利于提高数据质量。
2.VDJ输出文件的变化
在5.0版本中,以下输出文件被移除:consensus.fastq 和consensus_annotations.json
在5.0版本中,添加了下列输出文件:
info binary file,此文件将被用作整合VDJ样本的输入文件。
Donorreference fasta
在clonotypes.csv文件中添加了两列,用于展示iNKT(invariant natural killer T
cells)和MAIT(mucosal-associated invariant T cells)
文件filtered_contig_annotations.csv,filtered_contig.fasta, filtered_contig.fastq现在仅包括来自细胞条形码的生产性contig数据。
一些新的字段被加入consensus_annotations.csv文件:v_start, v_end, v_end_ref, j_start, j_start_ref, j_end, cdr3_start, cdr3_end
3.推荐的用于人和鼠的VDJ参考序列包已被更新至5.0版。VDJ参考序列的更新如下所示:
人
替换了IGKV2D-40,其引导序列有删节。
删除IGKV2-18,可能为假基因
删除IGLV5-48,其右侧有删节
删除TRBV21-1,有多个移码
添加 IGHV4-30-4
添加IGKV1-NL1
添加IGHV4-38-2
鼠
删除TRAV23,有移码
删除IGHG2B稳定区基因的第一个碱基
根据经验数据,在IGKV12-89插入六个碱基。
修正IGHV8-9,其氨基酸序列将FWR3区末端经典的C显示为S。这与10X数据一致。
添加IGKV2-109
添加IGKV4-56
添加IGHV1-2
4.cellranger aggr现在可以整合VDJ数据,允许用户在整合数据中重新进行VDJ克隆型分组。
5. 在cellranger vdj中取消了--force-cells
从CellRanger 3.1起,由于VDJ assembler的过滤,VDJ流程中的--force-cells 并未像期望的那样起作用。用户仅能对通过assembler组合过滤的条形码数使用--force-cells
这使得用户不可能增加recovered细胞的数量。相反,使用--force-cells只能减少recovered细胞的数量。这与cellranger count流程不同。
因这一特殊的变量容易被用户所误解,而且需求量不大,我们决定取消。在Cell Ranger 5.0中, --force-cells 仅作为一个不公开的选项。这也使得那些常用它的用户最终弃用此功能。
不足之处欢迎指正。