cellranger更新到6.0啦(全新使用教程)

cellranger是10X GENOMICS单细胞上游分析的软件,主要有4个流程 mkfastq、定量 count、组合 aggr、reanalyze。
如果是bcl原始测序数据,需用mkfastq转换为fastq格式(根据index将reads分配至不同的样本)。
如果是fastq格式数据,则可直接用count命令定量,得到表达矩阵,然后用aggr命令整合样本(比如实验组有多个重复样本),最后reanalyze进行后续降维聚类等等分析。(最简单的流程:如果是单个样本,只用count命令+R包即可)
本教程主要目的是从SRA或者Fastq文件完成cellranger count流程得到10x的三个文件。
流程如下

1.cellranger软件下载及安装

网页简单注册后就可以获取wget下载地址。

image.png

首先创建并激活一个小环境

conda create -n cellranger
conda activate cellranger

下载cellranger并解压

cd /opt

wget -O cellranger-6.0.2.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-6.0.2.tar.gz?Expires=1624477084&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci02LjAuMi50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2MjQ0NzcwODR9fX1dfQ__&Signature=QCESOlCkbmpiDLNQEHVVCZWRUQlK01zJ28z34ezOgcb2dH7yyv0zZvWw816nE7jrOfiuiD2COZ6zf8kaL~7ndl9sfKQ~JLSWYbgZgUXb6fjehKNOJggzd32mS29lZ1cAFZBgwH~pmYEmFIIx1WIuyEKi6XZ4O6Yquc0~fUA80ZkdMoNrDGGXtgn7RgRoK4MWwGgQtsufw9J5wLXe5XQG70cmg14wd-ZGjrboK~LMBDSYfkZr2YG8Sl2ScJIbB9xKfszcyXlq65EQwFuwzmSAxvNh9uIr9YlfSeUM-uNqdc1hYkin4Q1-1nGEfAaudHgzddD45-KxBKfv0KaL-vcLBA__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"

tar -xzvf cellranger-6.0.2.tar.gz</pre>

一般来说,软件以及配套的参考基因组都需要下载,下载速度就取决于你自己的网路情况啦,建议nohup到后台,等待即可。
添加到环境变量,方便后续使用

vim ~/.bashrc
$ export PATH=/opt/cellranger-6.0.2:$PATH
source ~/.bashrc</pre>

2.下载参考基因组并解压

wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz</pre>

3.准备数据

既然你都要学cellranger了,大概率上你已经有了SRA或者fastq数据,有了服务器,linux知识也有所了解,关于数据的下载我就不赘述了。

本次演示我们的数据来自2018年9月的NC文章Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA。为了展示方便,我们只使用其中一个SRR数据。

image.png

认识10x的fastq数据文件

官网给指出来了文件名规则:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/2.0/using/fastq-input#wrongname ,如果你的fastq数据不是这样命名,就需要自行更改过来了。

zless 查看文件大小

zless -SN SRR7722937_1.fastq.gz
zless -SN SRR7722937_2.fastq.gz
zless -SN SRR7722937_3.fastq.gz</pre>

其中第一个文件的所有序列都是8bp,第二个文件都是26bp,第三个文件都是91bp,初步判断,第三个文件是测序reads

如果要理解这3个文件的区别,同理,也是需要自己去学习了解10x的原理:

看看测序时每个run cycle做了什么事:

利用illumina边合成变测序(sequencing by synthesis ,SBS),每一个cycle都是一个碱基,因此用cycle数可以表示测序长度

image
  • 首先,1-26个cycle就是测序得到了26个碱基,先是16个Barcode碱基,然后是10个UMI碱基;

  • 然后,27-34这8个cycle得到了8个碱基,就是i7的sample index;

  • 最后35-132个cycle得到了98个碱基,就是转录本reads

4. 使用Cell Rangercount进行定量

Cell Ranger主要的流程有:拆分数据 mkfastq、细胞定量 count、定量组合 aggr、调参reanalyze,还有一些小工具比如mkref、mkgtf、upload、sitecheck、mat2csv、vdj、mkvdjref、testrun。

但是,大概率上,我们只需要使用它的定量流程,就是 cellranger count 命令。

>cellranger count --id=sample6231429 \
 --transcriptome=/home/rstudio/data/ref/refdata-cellranger-GRCh38-1.2.0 \
 --fastqs=/home/rstudio/data/raw0 \
 --sample=SRR7722937 \
 --nosecondary
# id指定输出文件存放目录名
# transcriptome指定与CellRanger兼容的参考基因组
# fastqs指定mkfastq或者自定义的测序文件
# sample要和fastq文件的前缀中的sample保持一致,作为软件识别的标志
# expect-cells指定复现的细胞数量,这个要和实验设计结合起来
# nosecondary 只获得表达矩阵,不进行后续的降维、聚类和可视化分析(因为后期会自行用R包去做)

服务器配置不一样,这个cellranger count流程运行时间不一样,这一个样本是约3G的fq文件数据走这个流程是2小时。
我的服务器是配置是32核40线程128G内存
当然你也可以写个脚本转后台,这都是后话了。

5.输出结果

运行结束得到结果如下:

Outputs:
- Run summary HTML:                      /home/rstudio/data/sample6231429/outs/web_summary.html
- Run summary CSV:                       /home/rstudio/data/sample6231429/outs/metrics_summary.csv
- BAM:                                   /home/rstudio/data/sample6231429/outs/possorted_genome_bam.bam
- BAM index:                             /home/rstudio/data/sample6231429/outs/possorted_genome_bam.bam.bai
- Filtered gene-barcode matrices MEX:    /home/rstudio/data/sample6231429/outs/filtered_gene_bc_matrices
- Filtered gene-barcode matrices HDF5:   /home/rstudio/data/sample6231429/outs/filtered_gene_bc_matrices_h5.h5
- Unfiltered gene-barcode matrices MEX:  /home/rstudio/data/sample6231429/outs/raw_gene_bc_matrices
- Unfiltered gene-barcode matrices HDF5: /home/rstudio/data/sample6231429/outs/raw_gene_bc_matrices_h5.h5
- Secondary analysis output CSV:         null
- Per-molecule read information:         /home/rstudio/data/sample6231429/outs/molecule_info.h5
- Loupe Cell Browser file:               null

Pipestance completed successfully!

Saving pipestance info to sample6231429/sample6231429.mri.tgz
(cellrangerze) root 08:42:19 /home/rstudio/data

输出结果说明:
filtered_gene_bc_matrices:是重要的一个目录,下面又包含了 barcodes.tsv、features.tsv、matrix.mtx,是下游Seurat、Scater、Monocle等分析的输入文件。

image.png

web_summary.html:质控比对报告(一般认为外显子的比对率要在60%以上)。barcode用来标记细胞,UMI用来标记转录本;其次,barcodes数量时要大于细胞数量的(以保证每个细胞都会有barcode来进行区分)。

image.png

6.一些术语解释

index标记样本,barcode标记细胞,UMI标记转录本。
i7 sample index (library barcode)
是加到Illumina测序接头上的,保证多个测序文库可以在同一个flow-cell上或者同一个lane上进行混合测序(multiplexed)。它的作用就是在CellRanger的mkfastq 功能中体现出来的,它自动识别样本index名称(例如:SA-GA-A1),将具有相同4种oligo的fq文件组合在一起,表示同一个样本。它保证了一个测序lane上可以容纳多个样本。一个index set有4个oligos。

Barcode
是10X特有的,用来区分GEMs,也就是对细胞做了一个标记。一般在拆分混样测序数据(demultiplexing)这个过程后进行操作,当然这也很符合原文的操作。

UMI
UMI就是Unique Molecular Identifier,由4-10个随机核苷酸组成,在mRNA反转录后,进入到文库中,每一个mRNA随机连上一个UMI,根据PCR结果可以计数不同的UMI,最终统计mRNA的数量。它的主要作用是,处理PCR 扩增偏差,因为起始文库很小时需要的PCR扩增次数就越多,因为越容易引入扩增误差。

v2 chemistry和v3 chemistry的区别
和V2相比,V3试剂盒中所用的UMI和PolyT的长度都发生了变化,从而导致测序得到的R1和R2端的序列长度也不一致,V2试剂盒的R1端长度为26bp, 包含16bp的barcode和10bp的UMI序列,V3试剂盒的R1端长度为28bp, 包含16bp的barcode和12bp的UMI序列;V2试剂盒的R2端为98bp, V3试剂盒的R2端为91bp。

参考
cellranger更新到4啦(全新使用教程) | 生信菜鸟团 (bio-info-trainee.com)
cellranger更新到5啦(全新使用教程) - 云+社区 - 腾讯云 (tencent.com)
CellRanger使用学习 - 简书 (jianshu.com)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • 刘小泽写于19.5.7主要看流程,这一篇不涉及真实数据展示 总的来说,Cell Ranger主要的流程有:拆分数据...
    刘小泽阅读 17,144评论 3 33
  • 一般来说,我拿到的测序公司给我交付的数据是可以直接作为cellranger的input的。 但是也存在命名不规范,...
    jjjscuedu阅读 1,459评论 2 2
  • 刘小泽写于19.5.6 首先对上次改好名称的fastq数据进行质控 然后利用Filezilla下载其中SRR772...
    刘小泽阅读 7,500评论 5 11
  • 公共数据库中的SRA 单细胞转录组数据究竟包含了哪些数据?CellRanger怎样利用10x平台下机数据进行下游一...
    PhageNanoenzyme阅读 7,239评论 1 3
  • 公共数据库中的SRA 单细胞转录组数据究竟包含了哪些数据?CellRanger怎样利用10x平台下机数据进行下游一...
    新欣enjoy阅读 15,140评论 3 11