相似关键词
背景RNA,环境RNA,RNA污染,游离RNA
background mRNAs, ambient RNA, RNA contamination, cell free mRNAs
适用背景
去除环境RNA污染是处理单细胞数据的可选项。环境RNA污染简单来说就是由于实验原因导致某些基因的转录本扩散到大多数细胞,使得部分基因在大多数细胞中均出现高表达的现象,从而影响我们对细胞类型的定义以及其它分析。
要不要去除环境RNA取决于是否数据集看起来是否干净,不同组织收到污染的基因也不太相同,例如在外周血中(PBMC)常见的是血细胞的污染,一般是HBB之类的基因,而在大脑中因为神经元比较多,可能会有兴奋性神经元或抑制性神经元的污染,可能是SLC17A7或GAD1等基因的污染。
例如下图中Slc17a7是小鼠的兴奋性神经元经典marker,在某些非神经元细胞中也高表达,是比较典型的环境RNA污染。因此,对原始矩阵进行校正很有必要。
SoupX简介
SoupX是一款我们测试过比较好的能有效去除环境RNA的R包软件,使用起来也比较方便。其输入为2个矩阵,一个常规的有做过初步过滤的矩阵toc,也就是直接读入进行后续聚类等分析的矩阵,另一个则是完全没有做过任何过滤的矩阵tod,这个矩阵一般需要自行从bam文件中提取。其原理可以简述为利用全矩阵tod构建背景噪音,筛选出潜在的环境RNA污染,然后对分析矩阵toc进行校正,最终可以返回一个校正后的矩阵。
代码示例
加载需要的包
library(SoupX)
library(Seurat)
library(DropletUtils)
主函数
##参数简介
#toc是分析矩阵,即有过滤的矩阵
#tod是全矩阵,即没有任何过滤的矩阵
#rho是污染比例系数,可自行设置,如果不设置则会自动计算
run_soupx <- function(toc,tod,rho=NULL) {
toc <- Read10X(toc,gene.column=1)
tod <- Read10X(tod,gene.column=1)
#保证基因名一致
tod <- tod[rownames(toc),]
##SoupX帮助文档建议提供分析矩阵的聚类亚群分组,因此这里利用分析矩阵做一个简单聚类
all <- toc
all <- CreateSeuratObject(all)
all <- NormalizeData(all, normalization.method = "LogNormalize", scale.factor = 10000)
all <- FindVariableFeatures(all, selection.method = "vst", nfeatures = 3000)
all.genes <- rownames(all)
all <- ScaleData(all, features = all.genes)
all <- RunPCA(all, features = VariableFeatures(all), npcs = 40, verbose = F)
all <- FindNeighbors(all, dims = 1:30)
all <- FindClusters(all, resolution = 0.5)
all <- RunUMAP(all, dims = 1:30)
#提取聚类后的meta.data信息
matx <- all@meta.data
sc = SoupChannel(tod, toc)
sc = setClusters(sc, setNames(matx$seurat_clusters, rownames(matx)))
#自动计算污染比例系数
if (is.null(rho)) {
tryCatch(
{sc = autoEstCont(sc)},
error=function(e) {
#因为自动计算经常会报错,所以如果报错则设置rho为0.2
print("autoEstCont Error !")
sc = setContaminationFraction(sc, 0.2)}
)
}else{
#自行设置污染比例系数
sc = setContaminationFraction(sc, rho)
}
#校正矩阵
out = adjustCounts(sc)
#保存两个矩阵文件
saveRDS(sc,"sc.rds")
#保存校正后的矩阵,输出为10X格式
DropletUtils:::write10xCounts("./soupX_matrix", out,version="3")
}
根据官方文档,污染比例系数可以自动计算,也可以自行设置,一般设置为0.2即可去除99%的环境RNA污染。
Our experiments indicate that adding 5% extra removes 90-95% of the soup, 10% gets rid of 95-98% and 20% removes 99% or more.
直接调用函数
run_soupx(toc,tod)
还可以设置污染系数
run_soupx(toc,tod,rho=0.25)
之后如果要批量去除环境RNA可以用写个循环调用此函数。
处理前后效果对比
虽然没有太大的差异,但是细看还是干净了不少,而且一般对矩阵尽量少处理是比较好的,这种轻微处理还是可以接受的。
小结与补充
运行SoupX不怎么耗内存,也不怎么耗时间,不过存在一个问题,就是校正后的表达矩阵数值不是整数了,都成小数了,这个一方面会增加存储,另一方面后续分析中也会比较耗运行内存,可以设置roundToInt=TRUE随机取整强行转成整数。不过,不建议这样做,因为还是尽量对分析矩阵少做处理。
另外,SoupX还可以自行设置污染比较严重的基因集,具体可以查看官方文档。