The cancer genome atlas(TCGA)数据库储存20多种癌症的基因组数据,作为生信喵少不了要下载上面的数据来分析。写篇文章介绍一下,也加深自己的印象。
TCGA收录的了很全面的癌症基因组数据,包括突变,拷贝数变异,mRNA表达,miRNA表达,甲基化数据等
##TCGA上储存的数据分为三个级别,
level-1为原始的测序数据(fasta,fastq等)
level-2为比对好的bam格式文件
(这两级别为controlled-access,需要向TCGA申请使用权限)
level-3为经过处理及标准化的数据
(三级也分为controlled-access和open-access)
level-1/2 数据的下载需要向TCGA申请使用权限,并且由于文件较大,推荐使用官方提供的小小软件:gdc.cancer.gov/access-data/gdc-data-transfer-tool
最常用的是level-3数据,一般文件较小,直接在网页上下载就可以。
目前主要有两个网站可以下载TCGA level-3的数据:
1. >TCGA官网的data-portal: portal.gdc.cancer.gov
优点:数据最全,更新最快
缺点:每个样本的数据都单独储存在一个文件中,如果要下载RNA表达量数据的话,可能同一种癌症需要下载好几百个文件,并且需要排队下载,有时候很慢很慢很慢
2.>Firehose服务器:gdac.broadinstitute.org
(这里的数据也来源于portal.gdc.cancer.gov,经过了简单的处理)
优点:经过了简单的合并,将每种癌症相同类型的数据合并到了一个文件中(例如443个胃癌样本的RNA表达量数据都合并到了一个文件中,非常适合用R进行后续的分析)
level-3的数据是仍需要一定的分析能力来提取感兴趣的信息
如果你仅仅需要看感兴趣的基因在某种癌症中的突变谱,表达量,或者甲基化情况,那么以下三个在线可视化网站可以说是非常亲民了:
1.>c-Bioportal: www.cbioportal.org
整合和简化了包括TCGA,ICGC以及GEO等多个癌症基因组的内容,提供友好可视化的界面,可供下载。
主要展示基因的somatic 突变谱,拷贝数变化,mRNA&miRNA表达量变化,DNA甲基化以及蛋白质表达的情况,并结合患者的临床资料,展示了KM生存曲线。
2.>OncoLnc: www.oncolnc.org
这是一个整合了TCGA的各种RNA数据和患者临床数据,提供生存分析的网站,灰常简单好用。
3.>MEXPRESS:mexpress.be/about
整合了TCGA中的DNA甲基化,表达量及临床数据,主要用来探索甲基化,基因表达和临床表型之间的关联,看界面也很友好,但我没怎么用过%>_<%。