在cellranger count运行结束后,outs文件夹中会有一个名为:web_summary.html的网页文件,可通过浏览器直观的查看测序数据的质量如何,一起看看吧!
1、文件位置
2、Summary结果展示
如果数据中存在异常,在网页的头部会给黄色的警告框。点击Details, 可以看到详细的信息。
一般情况下,Fraction Reads in Cells的值应大于70%才能说明数据质量较好。
名词解释:
Mean Reads per Cell:例如,以捕获5000个细胞、100G的测序量为标准,每个细胞的reads数大约在50k左右。
Median Genes per Cell:每个细胞的基因中位数取决于样本的细胞类型,例如在成熟B、T、粒细胞数量较多的组中这些类型细胞表达的基因数普遍较少,导致基因中位数较低。而像肿瘤组织、或者体外培养的干细胞/类器官组织,它们的基因表达数较高,甚至可以超过1W,这就导致该类样本基因中位数非常高。因此,我们确认细胞数量以及基因中位数时,需要考虑实际组织的细胞类型组成情况。
Fraction Reads in Cells:每个样本过滤后细胞的reads数占总reads数(含背景)的百分比, 反映的是测序数据的利用率 ,能够展示测序数据中与细胞相关的UMI可靠地比对到基因组上的百分比。
2.1、比对比例统计
统计reads的比对比例,同时给出比对到基因间区,外显子,内含子的比例
2.2、细胞数目评估信息
通过barcode上的UMI标签分布来评估细胞数目,Y轴是map到每个barcode的UMI的计数数值,X轴是与计数数值对应的barcode的数量,绿色代表细胞,灰色代表背景。
如果这个曲线出现一个明显徒降的趋势,这表明与细胞相关的barcode和空白的条形码区分的很好。
2.3、样品信息
其中展示了样品名称、参考基因组信息、cellranger版本信息、10X测序方法(V2或V3试剂盒)
3、Analysis结果展示
该部分中主要含有以下几个内容:
降维分析,将细胞投射到二维空间(t-SNE)
自动聚类分析,将具有相似表达谱的细胞组合在一起
在所选cluster之间差异表达的基因列表
显示测序深度减少对观察到的文库复杂性的影响
显示测序深度减少对检测到的中值基因的影响
这里显示的是每个细胞条形码的总UMI计数。每个点表示一个细胞,颜色表示UMI含量。具有较大UMI计数的细胞可能具有比具有较少UMI计数的细胞更高的RNA含量,也就是越红的细胞RNA含量越高。坐标轴对应于由t-SNE算法产生的二维嵌入。在该空间中,彼此接近的细胞对具有比彼此远离的细胞更相似的基因表达谱,然后聚类将具有相似表达谱的单元组合在一起。
大家一起学习讨论鸭!
参考:
cellranger使用的初步探索(2)理解cellranger count输出文件