2. TCGA: 如果不了解数据,何以读取数据?

在上篇文章中1. 在TCGA中找到并下载意向数据我们提到为数据下载做准备工作时,我们一共下载了四个文件如下:

prepare

心想假如没有人告诉你要下载这么多,而你也是一片空白,你该如何去开展下面的工作?在这里,按照我们湿实验工作者的尿性来看,实验中遇到不懂的,都要搞懂,就好像你在做WB的时候什么时候要用β-BH(β巯基乙醇)的loading buffer,什么时候又不用需要搞得清楚明白。那么在这里同样的,每个文件的作用,也需要搞明白。

1. gdc-client

这其实非常好理解,gdc-client就是一个TCGA提供的用于下载数据的客户端,只要下载下来即可。但我们TDC data transfer tool中会gdc-client根据不同系统有不用版本,不同时间也有不同版本。我该如何选?按照昨晚的经验,我们的建议是:下载最新的。

使用旧版本下载失败

image.png

更新版本后重新运行代码,下载成功。除了gdc-client版本问题需要注意之外,最好每次下载使用的各种帮助文件都是最新下载的。
image.png

2. clinic.cart.2020-10-08.json and metadata.cart.2020-10-08.json

这文件是我们在购物车中结算数据时,特地选择的json文件。此时你可能同我一样,为什么非要选JSON格式,难道TSV不行吗?当然可以!JSON也不过是一种数据格式而已。


image.png
2.1 TSV则是类似txt+cst的组合体,可以看到TSV格式的clinical.cart数据下有3个被压缩的tsv文件。如此看来,似乎是只有一个文件的JSON格式的读取步骤更简单了。
image.png
2.2 JSON

(1)JSON无法在windows上打开,此时还是搜索打发,我的做法是在谷歌上搜索“read json data in r”,之后在搜索结果中找到看起来比较靠谱的结果。
(2)此时我们看到一个很明显的结果是rjson package。按照教程使用代码install.packages("rjson"), library("rjson")安装并激活rjson之后,我们首先要做的是看说明书,明白这个R包该如何使用。
(3)一般来说我们会在R语言中用代码?rjson调出帮助文档,而这边显示调出的并未包含有usage,因此直接在谷歌上再次搜索“rjson usage”后找到使用文档。

rjson instruction

(4)从说明书中我们可以看到rjson这个包一共有3个命令fromJSON, newJSONParser, toJSON,其功能分别为将json转为R object,批量转json为R object,将R object转为json。由于我们此次下载的数据仅为单一的json文件,因此选择命令fromJSON,其用法如下:

fromJSON( json_str, file, method = "C", unexpected.escape = "error", simplify = TRUE )

参数含义:
(1)json_str: a JSON object to convert需要转化的JSON对象
(2)file:the name of a file to read the json_str from; this can also be a URL. Only one of
json_str or file must be supplied.
(3)method:use the C implementation, or the older slower (and one day to be depricated) R implementation
(4)unexpected.escape:changed handling of unexpected escaped characters. Handling value should be one of "error", "skip", or "keep"; on unexpected characters issue an error, skip
the character, or keep the character
(5)simplify:If TRUE, attempt to convert json-encoded lists into vectors where appropriate.
If FALSE, all json-encoded lists will be wrapped in a list even if they are all of the same data type.

读取数据

metadata<- fromJSON( file = "metadata.cart.2020-10-08.json", 
                     method = "C", 
                     unexpected.escape = "error", 
                     simplify = TRUE ) # 可以看到读入的数据为list
image.png

通过各种方法检查数据,同时也要思考我们到底需要什么样的数据。一般来说,我们会想要一个表达矩阵/数据框,列为样本,行为基因名;同时还会需要每个样本的生存数据,以用于做生存曲线分析。

image.png

当然,读取JSON格式文件的R包有很多个,此时如果有时间可以查一下到底哪个包更好用哦~

3. gdc_manifest_20201007_170018.txt

打开后可见是每个样本的相关信息,gdc-client也是通过读取manifest文件内的样本ID来下来数据的。


结语:无论如何,我们最终需要整理出来的数据类型是数据框,需要包含有样本ID以及基因表达信息,临床生存信息等等,以供后续分析所需。由于这部分我还在学习,因此没法放在这篇文章内了。但这篇文章的整体思路则是,通过了解自己的准备文件内容、格式去查找自己所需的工具,通过搜索大法和自学解决自己的问题。世界上不需要努力就可以掌握的东西,除非自己主动,不然无论如何也是学不下去的,所以千万不要盲目相信有了所谓的帖子,自己就可以顺畅的走下去。每一个步骤都有可能出bug,只有自己在每个细节中有到位的思考,才能学到属于自己的知识。不然也是旱鸭子看别人游泳:白开心。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341