--- 大师大师,我想学单细胞转录组数据分
··· 要不先下载一个示例数据挖掘一下?
单细胞是生命科学的一个里程碑事件,而单细胞转录组是这个里程碑的上冠花。10x Genomics Single Cell Gene Expression solution商业平台为众多生物科学的单细胞研究提供了可能,越来越多10X数据发表正在丰富着我们的认知以及数据库。
那么,如何利用公开的10X数据来做数据挖掘呢?就连这一点10X都给了详细的教程:Analyze scRNA-Seq Data From a Publication Using 10x Software。
对于之前没有做过这个方面的同学来讲可能会看到10X的文章,想分析一下就在文章中找data available 然后在NCBI中下载。有fastaq文件最好了,拿来直接跑cellranger,接着我们的教程就可了。但是许多文章给的Sequence Read Archive (SRA) 格式的编号链接,这时候我们可以直接下载sra文件用Fastq-dump来提取序列吗?
在这样做之前,我们先看看sra文件中的序列是怎样的:
好像并没有R1的barcode和umi信息呢(据说有的文章sra文件是有R1的,看来这与作者上传的格式有关)。于是我们百度一下【sra中rna-seq数据有barcode信息吗】,出来我们生信技能树的帖子:关于在SRA数据库下载文献中的RNA-seq测序数据的问题。由于sra文件的特殊格式,还原barcode,UIM还挺麻烦的。
在10X的教程中是推荐使用bam文件的,然后用bamtofastq来转化。
bamtofastq C05.bam.1 normal
bamtofastq C07.bam.1 irradiated
10X 的bam文件是被Barcoded 过的:
在sra到bam聚焦转变的过程中我们还遇到github上velocyto.py的讨论,作者也是建议:
有了fq文件其实后面的就:
cd ./irradiated/
cellranger count --id=irradiated \
--transcriptome=/path/to/refdata-cellranger-mm10-3.0.0 \
--fastqs=./indepth_C07_MissingLibrary_1_HL5G3BBXX,./indepth_C07_MissingLibrary_1_HNNWNBBXX