常用生物信息数据库的使用(一)

本文转自:https://nbbv.cn/2019/11/12/%E5%B8%B8%E7%94%A8%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF%E6%95%B0%E6%8D%AE%E5%BA%93%E7%9A%84%E4%BD%BF%E7%94%A8/

转载请注明出处!

# 常用生物信息数据库的使用(一)

一切的生信分析乃至信息分析,最重要的就是数据,如果没有合适的数据,那么分析也就是一纸空谈呀。在接下来的项目经验分享中,我将从最基础的数据库的使用和数据解读进行分享,希望可以给需要的人一些帮助~~~

# TCGA数据库的使用(上)

网址:https://portal.gdc.cancer.gov/

TCGA数据库是癌症分析中最常用到的数据库,其对33种癌症类型的20000多种原发性癌症进行了分子鉴定,并且这些癌症一定程度上匹配了癌旁的正常样本。数据库中包含了各种类型的数据例,如突变数据,甲基化数据,基因表达数据和拷贝数数据等等。在此主要以基因表达数据为例,对数据进行批量下载和解读等。

## TCGA数据下载

用过TCGA数据库的小伙伴大都知道,对于某一癌症,就基因表达数据的样本可能就有好几百个,我们希望的当然是直接选中需要下载的所有数据点击下载按钮就可以下载数据了。但是TCGA数据库直接通过网页下载打包数据速度很慢还会断(推测是因为国外网站的原因~)。因此TCGA的工具中自带了数据批量下载的工具! https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

可通过链接下载该工具,该工具包含了命令形式和界面形式两种类型。如果你拥有一定的Linux基础,那么推荐命令形式进行下载,如果你是生信小白或者是想要操作简单那么我推荐界面友好式😂😂😂。无论是哪一种形式都需要下载metadata文件和manifest文件。在此主要详细介绍小白式界面操作(willow一般都推荐简单方便快捷的方式,这样可以提高工作效率~~)

### 文件准备

准备好要研究的对应癌症的metadata文件和manifest文件。数据下载阶段一般只需要用到manifest文件,可以在本地建一个专门的文件夹用来存放下载的数据,设置好manifest对应的文件路径和数据存放的路径就可以点击‘Download’进行下载了,可能下载途中也会有部分的样本因为网速或者其他原因被中断,此时只需要将其选择后加入下载队列即可重新下载。是不是很简单易学,大家可以动手实操一下呀~~

### 文件名的处理

通过TCGA下载下来的样本名是一系列的字母和数字组合而成的不规则的文件名,而我们是无法通过这些原始的ID名找到哪些属于癌症哪些属于正常样本或者哪些样本是同一病人的。当然了解这些信息是需要对这些ID进行转换的,转换成例如TCGA-A6-6650-01A-11R-1774-07这样的形式。这些信息则包含在之前提到的metadata文件中,需要通过脚本批量处理这些样本名(后续会贴出脚本,供需要的人参考,但代码写的有点早了,感兴趣的朋友可以自行优化😁😁)。一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),其中TCGA是数据库标志,TCGA数据库的所有样本均已TCGA开头;A6表示组织来源编码;6650表示参与者编号。最重要的就是01A这维的信息,其中编号01-09表示肿瘤,10-19表示正常对照。

在下一次的分享中会继续教大家怎么批量转换文件名以及解读具体的基因表达数据和信息,敬请期待呀~~~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容