转载请注明出处!
# 常用生物信息数据库的使用(一)
一切的生信分析乃至信息分析,最重要的就是数据,如果没有合适的数据,那么分析也就是一纸空谈呀。在接下来的项目经验分享中,我将从最基础的数据库的使用和数据解读进行分享,希望可以给需要的人一些帮助~~~
# TCGA数据库的使用(上)
网址:https://portal.gdc.cancer.gov/
TCGA数据库是癌症分析中最常用到的数据库,其对33种癌症类型的20000多种原发性癌症进行了分子鉴定,并且这些癌症一定程度上匹配了癌旁的正常样本。数据库中包含了各种类型的数据例,如突变数据,甲基化数据,基因表达数据和拷贝数数据等等。在此主要以基因表达数据为例,对数据进行批量下载和解读等。
## TCGA数据下载
用过TCGA数据库的小伙伴大都知道,对于某一癌症,就基因表达数据的样本可能就有好几百个,我们希望的当然是直接选中需要下载的所有数据点击下载按钮就可以下载数据了。但是TCGA数据库直接通过网页下载打包数据速度很慢还会断(推测是因为国外网站的原因~)。因此TCGA的工具中自带了数据批量下载的工具! https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
可通过链接下载该工具,该工具包含了命令形式和界面形式两种类型。如果你拥有一定的Linux基础,那么推荐命令形式进行下载,如果你是生信小白或者是想要操作简单那么我推荐界面友好式😂😂😂。无论是哪一种形式都需要下载metadata文件和manifest文件。在此主要详细介绍小白式界面操作(willow一般都推荐简单方便快捷的方式,这样可以提高工作效率~~)
### 文件准备
准备好要研究的对应癌症的metadata文件和manifest文件。数据下载阶段一般只需要用到manifest文件,可以在本地建一个专门的文件夹用来存放下载的数据,设置好manifest对应的文件路径和数据存放的路径就可以点击‘Download’进行下载了,可能下载途中也会有部分的样本因为网速或者其他原因被中断,此时只需要将其选择后加入下载队列即可重新下载。是不是很简单易学,大家可以动手实操一下呀~~
### 文件名的处理
通过TCGA下载下来的样本名是一系列的字母和数字组合而成的不规则的文件名,而我们是无法通过这些原始的ID名找到哪些属于癌症哪些属于正常样本或者哪些样本是同一病人的。当然了解这些信息是需要对这些ID进行转换的,转换成例如TCGA-A6-6650-01A-11R-1774-07这样的形式。这些信息则包含在之前提到的metadata文件中,需要通过脚本批量处理这些样本名(后续会贴出脚本,供需要的人参考,但代码写的有点早了,感兴趣的朋友可以自行优化😁😁)。一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),其中TCGA是数据库标志,TCGA数据库的所有样本均已TCGA开头;A6表示组织来源编码;6650表示参与者编号。最重要的就是01A这维的信息,其中编号01-09表示肿瘤,10-19表示正常对照。
在下一次的分享中会继续教大家怎么批量转换文件名以及解读具体的基因表达数据和信息,敬请期待呀~~~