单细胞scRNA-seq学习笔记4-细胞周期推断

课程学习生信技能树单细胞转录组(基础)

现在福利来了,单细胞课程免费开放了:#完整版视频上线!全!面!免!费!#全网第一的单细胞转录组实战演练_ https://www.bilibili.com/video/av38741055?p=11

不同类型的细胞哪怕是在同一个时间点的细胞周期状态,它们的细胞周期相关基因表达也是不同的。更重要的是,还有很多非直接细胞周期相关基因也需要考虑。
细胞周期是利用基因来推断G、S、M期(https://en.wikipedia.org/wiki/Cell_cycle)

cell cycle

先复现一下视频里面的代码:
Scran包使用推断细胞周期

载入数据和

rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)
load(file = '../input.Rdata')
a[1:4,1:4]
head(df) 

## 载入第0步准备好的表达矩阵,及细胞的一些属性(hclust分群,plate批次,检测到的基因数量)
# 注意 变量a是原始的counts矩阵,变量 dat是logCPM后的表达量矩阵。

group_list=df$g
plate=df$plate
table(plate)
 a[1:4,1:4]

创建sce对象

library(scran)
# https://mp.weixin.qq.com/s/nFSa5hXuKHrGu_othopbWQ
sce <- SingleCellExperiment(list(counts=dat)) 
sce
class: SingleCellExperiment 
dim: 12198 768 
metadata(0):
assays(1): counts
rownames(12198): 0610007P14Rik 0610009B22Rik ... ERCC-00170
  ERCC-00171
rowData names(0):
colnames(768): SS2_15_0048_A3 SS2_15_0048_A6 ... SS2_15_0049_P22
  SS2_15_0049_P24
colData names(0):
reducedDimNames(0):
spikeNames(0):

主要使用cyclone函数
cyclone函数主要需要三个元素:
一个是sce单细胞对象,
一个是pairs参数,
还有就是gene.names参数。

第二个pairs参数的意思可以看帮助文档

image.png
# scran包安装好后,会在exdata文件夹中找到附件文件
library(org.Mm.eg.db)
# syste,.file会列出文件所在的路径,下图就是exdata文件夹下的文件,看到除了小鼠还有人的相关的RDS数据。这个RDS其实和平常看到的Rdata差不多,只不过Rdata是针对多个对象,Rds是针对一个对象进行存储和读取
mm.pairs <- readRDS(system.file("exdata", "mouse_cycle_markers.rds", 
                                package="scran"))
image.png

第三个参数:gene.names,cyclone函数需要使用ensembl基因名

# 将symbol转为ensembl基因
ensembl <- mapIds(org.Mm.eg.db, keys=rownames(sce), 
                  keytype="SYMBOL", column="ENSEMBL")
head(ensembl)
       0610007P14Rik        0610009B22Rik        0610009L18Rik 
                  NA "ENSMUSG00000007777" "ENSMUSG00000043644" 
       0610009O20Rik        0610010F05Rik        0610010K14Rik 
                  NA "ENSMUSG00000042208" "ENSMUSG00000020831" 

三者齐全,可以进行细胞周期计算:

system.time(assigned <- cyclone(sce, pairs=mm.pairs, gene.names=ensembl))
# 这一过程会比较慢,用system.time计算一下时间看看,大约一分半
#  user  system elapsed 
# 96.229   0.767 104.666 
save(assigned,file = 'cell_cycle_assigned.Rdata')
str(assigned) # 包含了phases、scores、normalized.scores三个元素
List of 3
 $ phases           : chr [1:768] "G1" "G1" "G1" "G1" ...
 $ scores           :'data.frame':  768 obs. of  3 variables:
  ..$ G1 : num [1:768] 1 0.997 0.997 1 1 1 1 0.937 1 1 ...
  ..$ S  : num [1:768] 0.119 0.002 0.039 0.011 0.395 0.009 0.011 0.008 0.04 0.013 ...
  ..$ G2M: num [1:768] 0.004 0.01 0.02 0.002 0 0 0.02 0.126 0 0.023 ...
 $ normalized.scores:'data.frame':  768 obs. of  3 variables:
  ..$ G1 : num [1:768] 0.89 0.988 0.944 0.987 0.717 ...
  ..$ S  : num [1:768] 0.10597 0.00198 0.03693 0.01086 0.28315 ...
  ..$ G2M: num [1:768] 0.00356 0.00991 0.01894 0.00197 0 ...

下面就根据assigned进行操作

head(assigned$scores)
     G1     S   G2M
1 1.000 0.119 0.004
2 0.997 0.002 0.010
3 0.997 0.039 0.020
4 1.000 0.011 0.002
5 1.000 0.395 0.000
6 1.000 0.009 0.000
table(assigned$phases)

 G1 G2M   S 
723  34  11 

# 作图(利用score和phases这两个元素)
draw=cbind(assigned$score,assigned$phases) 
attach(draw) #attach的目的就是现在加载,之后直接引用即可
library(scatterplot3d)
scatterplot3d(G1, S, G2M, angle=20,
              color = rainbow(3)[as.numeric(as.factor(assigned$phases))],
              grid=TRUE, box=FALSE)
detach(draw) 
image.png

还能做个热图(就是在anno_col上不断加内容即可)

library(pheatmap)
# 取差异前100基因
cg=names(tail(sort(apply(dat,1,sd)),100))
# 矩阵归一化
n=t(scale(t(dat[cg,])))
# 原来的样本注释信息 df中包含了 g、plate  、n_g、all信息,现在新增phases信息
df$cellcycle=assigned$phases 
ac=df
rownames(ac)=colnames(n)
pheatmap(n,show_colnames =F,show_rownames = F,
         annotation_col=ac)
dev.off()

image.png

探索:scran包中的cyclone函数细胞周期原理

主要利用了scran包中的cyclone函数

cyclone函数主要需要三个元素:一个是sce单细胞对象,一个是pairs参数,还有就是gene.names参数。第一个已准备好,第二个参数的意思可以看帮助文档,第三个参数要求是Ensembl ID

image
# scran包安装好后,会在exdata文件夹中找到附件文件
library(org.Mm.eg.db)
# syste,.file会列出文件所在的路径,下图就是exdata文件夹下的文件,看到除了小鼠还有人的相关的RDS数据。这个RDS其实和平常看到的Rdata差不多,只不过Rdata是针对多个对象,Rds是针对一个对象进行存储和读取
mm.pairs <- readRDS(system.file("exdata", "mouse_cycle_markers.rds", 
                                package="scran"))

# 举个例子
head(mm.pairs$G1)
               first             second
1 ENSMUSG00000000001 ENSMUSG00000001785
2 ENSMUSG00000000001 ENSMUSG00000005470
3 ENSMUSG00000000001 ENSMUSG00000012443
4 ENSMUSG00000000001 ENSMUSG00000015120
5 ENSMUSG00000000001 ENSMUSG00000022033
6 ENSMUSG00000000001 ENSMUSG00000023015

注意:这里小鼠的训练数据集是利用胚胎干细胞数据得到的,但对于其他细胞类型也是准确的 (Scialdone et al. 2015),可能是由于细胞周期相关转录的保守性 (Bertoli, Skotheim, and Bruin 2013; Conboy et al. 2007)。

具体的使用就很简单:

system.time(assignments <- cyclone(sce, mm.pairs, 
                       gene.names=rowData(sce)$ENSEMBL))
##   user  system elapsed 
##  21.740   0.376  26.856 
save(sce,assignments,file = '416B_cell_cycle.Rdata')

这个结果并不是说某个细胞一定就处于哪个细胞周期,它也是根据大样本量背景进行概率估计,然后计算一个分值,分值越高,说明某个细胞更有可能属于哪个细胞周期,给我们一定的参考。

例如,看一下G1和G2/M的分值情况,其中每个点代表一个细胞:

plot(assignments$score$G1, assignments$score$G2M, 
    xlab="G1 score", ylab="G2/M score", pch=16)

image

计算完细胞分值,就该划分细胞类型了

具体规则是:如果一个细胞在G1中得分大于0.5,并且它高于G2/M的得分,那么这个细胞就被划分到G1期;如果细胞在G2/M中得分大于0.5,并且高于G1的得分,那么它就划为G2/M期;如果细胞的G1、G2/M得分都不大于0.5,那么它就划为S期。于是上面👆的结果就可以被划分成:

image

这里只是说明一下原理, 其实函数已经为我们划分好,存到了结果中:

sce$phases <- assignments$phases
table(sce$phases)
## 
##  G1 G2M   S 
##  98  62  23

作者的建议

  • 为了去掉细胞周期带来的影响,我们一般只要某一群特定周期的细胞(一般是G1期)进行下游分析。当然如果其他时期的细胞数量不会造成明显的影响,我们也可以带着它们,到下游分析时直接将assignments$phases作为一个批次效应因素考虑即可,这样既避免了其他周期细胞的干扰,又能避免丢失部分信息。
  • 训练数据集虽然说对多种细胞类型都支持,如果本身的数据与训练数据相差太大(比如使用了不同的方法得到的数据),那么我们可以根据自己的数据去DIY一个分类器。使用sandbag函数即可,同样如果研究其他的物种没有给定的分类器,我们就可以这样操作
  • 使用cyclone之前不要过滤低丰度转录本。即使一个基因在任何一个细胞都不表达,但在周期推断环节这个基因名还是有作用的。因为这一步做的是一个基因对比较,所以它依然可以提供信息。

参考:
1.单细胞转录组学习笔记-11-生物学背景知识之细胞周期推断 - 简书 https://www.jianshu.com/p/46d597d21a16
2.关于细胞周期推断的知识更新 - 简书 https://www.jianshu.com/p/455047d7557c
3.在单细胞转录组表达矩阵里面去除细胞周期影响 - 简书 https://www.jianshu.com/p/aa867c3c12de
4.ccRemover说明书
5.清除单细胞数据细胞周期效应造成的影响

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,898评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,401评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,058评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,539评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,382评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,319评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,706评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,370评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,664评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,715评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,476评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,326评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,730评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,003评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,275评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,683评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,877评论 2 335

推荐阅读更多精彩内容