寻找细胞标志物(Marker)
cluster1.markers <- FindMarkers(spleen, ident.1 = 1, min.pct = 0)
|++++++++++++++++++++++++++++++++++++++++++++++++++| 100% elapsed = 24s
print(x = head(x = cluster1.markers, n = 5))
p_val avg_logFC pct.1
CCL5 1.589509e-178 1.789441 0.962
GZMK 6.512320e-142 1.538912 0.645
IL32 2.861743e-138 1.438796 0.978
AC092580.4 2.438049e-130 1.508308 0.645
TRGC2 3.848748e-117 1.384213 0.572
pct.2 p_val_adj
CCL5 0.251 2.488377e-174
GZMK 0.086 1.019504e-137
IL32 0.407 4.480059e-134
AC092580.4 0.106 3.816766e-126
TRGC2 0.085 6.025216e-113
spleen.markers <- FindAllMarkers(object = spleen, only.pos = TRUE, min.pct = 0.25, thresh.use = 0.25)
> print(x= head(x=spleen.markers,n = 10))
p_val avg_logFC pct.1 pct.2 p_val_adj cluster gene
MS4A1 2.410289e-189 1.592266 0.974 0.258 3.773307e-185 0 MS4A1
CD79A 1.245084e-177 1.485304 0.971 0.270 1.949180e-173 0 CD79A
HLA-DRA 1.792014e-151 1.370242 1.000 0.556 2.805397e-147 0 HLA-DRA
CD79B 2.280181e-149 1.265725 0.938 0.315 3.569624e-145 0 CD79B
CD74 3.217361e-144 1.256090 0.997 0.871 5.036778e-140 0 CD74
HLA-DPB1 4.238869e-137 1.154889 0.997 0.616 6.635949e-133 0 HLA-DPB1
HLA-DRB5 6.911780e-136 1.123850 0.990 0.437 1.082039e-131 0 HLA-DRB5
HLA-DQB1 4.004476e-134 1.121013 0.940 0.366 6.269007e-130 0 HLA-DQB1
HLA-DRB1 2.026996e-133 1.115709 0.992 0.452 3.173262e-129 0 HLA-DRB1
HLA-DPA1 3.492170e-130 1.099676 0.995 0.570 5.466992e-126 0 HLA-DPA1
>
library(dplyr)
> spleen.markers %>% group_by(cluster) %>% top_n(2, avg_logFC)
# A tibble: 18 x 7
# Groups: cluster [9]
p_val avg_logFC pct.1 pct.2 p_val_adj cluster gene
<dbl> <dbl> <dbl> <dbl> <dbl> <fct> <chr>
1 2.41e-189 1.59 0.974 0.258 3.77e-185 0 MS4A1
2 1.25e-177 1.49 0.971 0.27 1.95e-173 0 CD79A
3 1.59e-178 1.79 0.962 0.251 2.49e-174 1 CCL5
4 6.51e-142 1.54 0.645 0.086 1.02e-137 1 GZMK
5 3.79e- 76 1.24 0.709 0.223 5.93e- 72 2 CD83
6 1.22e- 54 0.893 0.752 0.341 1.91e- 50 2 IER5
7 1.69e- 64 0.898 0.888 0.36 2.65e- 60 3 TRAC
8 1.31e- 60 0.828 0.857 0.325 2.05e- 56 3 CD3D
9 2.97e- 49 0.837 0.817 0.291 4.64e- 45 4 IL7R
10 7.52e- 42 0.933 0.942 0.786 1.18e- 37 4 SOD1
11 2.46e-122 5.14 0.883 0.186 3.86e-118 5 S100A9
12 4.08e-105 5.24 0.84 0.195 6.39e-101 5 S100A8
13 2.26e- 61 2.13 0.758 0.179 3.53e- 57 6 CCL3
14 2.87e- 15 1.92 0.570 0.295 4.49e- 11 6 HIST1H4C
15 3.58e-108 2.61 0.924 0.145 5.61e-104 7 GNLY
16 8.12e-102 2.35 0.981 0.211 1.27e- 97 7 PRF1
17 4.39e- 25 5.56 0.923 0.283 6.87e- 21 8 IGHG3
18 1.65e- 19 5.22 0.897 0.332 2.59e- 15 8 IGHG1
FeaturePlot(spleen, features.plot = c("MS4A1","CCL5","CD83","TRAC","IL7R","S100A9","CCL3","GNLY","IGHG3"),cols.use = c("grey","blue"),reduction.use = "tsne")
寻找细胞类型
细胞标志物数据库CellMarker:
http://biocc.hrbmu.edu.cn/CellMarker
在CellMarker数据库上检索基因marker初步对应的细胞类型:
讨论
1. 调节tSNE参数:
可尝试选择不同的PC,如1-5;或者设置聚类细胞时FindClusters命令的resolution参数。
2. 寻找差异表达基因(Marker):
发现这些细胞标志基因在检索的过程中存在很多问题,导致没有办法确认细胞类型:
①基本上没有脾脏组织的数据,因此参考了人肾脏、外周血、骨髓等的其他组织信息;
②有的一个Marker会对应到多个细胞类型,因此用两个Marker找共同的细胞类型,但效果也不是很理想——有的共同细胞类型有多个,因此无法确定;有的检索不到共同的细胞类型;
③不同cluster的marker会对应到同一类细胞。
原因:认为现有的数据可能还处于比较零散的阶段,该CellMarker数据库的数据量少,且比较凌乱。
可能的解决办法:看有没有更好的数据库;通过其他方式如文献检索的方式来确认细胞类型。