单细胞表达矩阵格式转换

作者:ahworld
链接单细胞表达矩阵格式转换
来源:微信公众号-seqyuan
著作权归作者所有,任何形式的转载都请联系作者。

10x Genomics官方软件CellRanger输出的单细胞表达矩阵有三个文件:

  • barcodes.tsv
  • genes.tsv
  • matrix.mtx

barcodes.tsv存储的是标识细胞的barcodes列表,格式如下:

AAACCTGAGCATCATC-1
AAACCTGAGCTAACTC-1
AAACCTGAGCTAGTGG-1
AAACCTGCACATTAGC-1
AAACCTGCACTGTTAG-1
AAACCTGCATAGTAAG-1

genes.tsv存储的是基因列表,共两列tab分割,第一列为gene.ids,第二列为gene.symbol:

ENSG00000243485 RP11-34P13.3
ENSG00000237613 FAM138A
ENSG00000186092 OR4F5
ENSG00000238009 RP11-34P13.7
ENSG00000239945 RP11-34P13.8
ENSG00000239906 RP11-34P13.14

matrix.mtx存储的是基因在各细胞(barcode)中的表达count:

  • 第一列:gene在genes.tsv中的行号
  • 第二列:barcode在barcodes.tsv中的行号
  • 第三列:基因表达count

前两行固定,第三行统计了对应列数值之和。

%%MatrixMarket matrix coordinate integer general
%
33694 8381 11788294
33665 1 5
33663 1 5
33662 1 13
33661 1 1
33660 1 3

今天遇到一个问题:我下载了一个基因表达矩阵GSM3270887_countTable_colonCreMin.txt.gz,作为测试使用,这个表达矩阵为标准的Matrix,行名为gene.symbol,列名为barcode,如下:

AAACCTGAGCGGATCA AAACCTGAGCTCAACT AAACCTGCACTTAACG AAACCTGCAGCGTCCA
Xkr4 0 0 0
Gm1992 0 0 0
Gm37381 0 0 0
Rp1 0 0 0
Rp1.1 0 0 0
Sox17 0 0 0
Gm37323 0 0 0
Mrpl15 0 1 0
Lypla1 0 0 1

因为是测试使用,这种N * N格式的 Matrix在读取速度上远逊于CellRanger的矩阵格式,所以我想把这个矩阵格式转换为CellRanger三个文件样式的矩阵。我的解决方案参考了biostars.org下面问题的答案,并做了修改。

Question: Storing a gene expression matrix in a matrix.mtx

用R读入数据

library(Matrix)
colon.data <- read.csv(file='GSM3270887_countTable_colonCreMin.txt.gz', sep="\t", header = T, row.names = 1)
colon.data <- Matrix(as.matrix(colon.data), sparse=T)

ngenes <- nrow(colon.data)
psedu_gene.ids <- paste0("ENSG0000", seq_len(ngenes))

耗时记录

> system.time(colon.data <- read.csv(file='GSM3270887_countTable_colonCreMin.txt.gz', sep="\t", header = T, row.names = 1))
   user  system elapsed 
 62.657   6.444  86.127

解决方案 1

writeMM(obj = colon.data, file="./matrix.mtx")
write.table(data.frame(psedu_gene.ids,rownames(colon.data)), file="./genes.tsv", 
            col.names=F,row.names = F, sep = "\t", quote=FALSE)
write(x = colnames(colon.data), file = "./barcodes.tsv")

解决方案 2

BiocManager::install("DropletUtils")
library(DropletUtils)

write10xCounts(path=getwd(), colon.data, gene.id=psedu_gene.ids,
               gene.symbol=rownames(colon.data), barcodes=colnames(colon.data))

推荐第一种解决方案,第二种解决方案需要安装额外的包,而且在输出路径参数上有些问题。

CellRanger矩阵读入时间

library(Seurat)
> system.time(Read10X(data.dir = "./"))
   user  system elapsed 
  7.294   0.488   8.027 
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容