通过5步,学会处理从GEO数据库下载的数据集,做出精美结果图

往期文章链接

如何从GEO数据库下载数据

前述文章里,我们讲到,如何从GEO数据库中找寻自己想要的数据集。

那么本篇推文里,小编带大家一起动手处理已下载好的数据集,将其转换成数据分析软件能够识别的信息,之后就可以制作出精美的分析图,开始妙手著文章了。

之前的内容里提到,不是所有数据集都同时满足 既有差异表达基因,又有生存数据在内的临床特征信息” 这两个条件。

因此在一般情况下,我们可以先寻找符合其中一个条件的数据集,下载里面的GPL文件和表达矩阵“series matrix”做表达分析;

再寻找另外一个包含样本生存数据的临床特征数据集,做生存分析。

处理这两个数据集的方法步骤基本一致,因此,本文将着重讲解如何生成差异表达分析所用的基因表达谱。

学会了相关操作以后,大家可以练习如何生成生存分析所用的临床特征信息表格。

熟能生巧,刚开始也许会慢一些,不过只要耐心多加练习,用不了多久就能玩转数据啦。

接下来,小编为大家演示操作——“如何得到差异表达分析所用的基因表达谱”。

上篇公众号推文“如何从GEO数据库下载数据”里,我们选中了包含有正常组织和肿瘤组织的、与肺癌相关的基因表达数据集GSE85841,得到了(1)表达矩阵“series matrix”文件和(2)GPL平台注释文件。

此时下载的为txt文本格式的数据集,需右键→打开方式→用excel打开,或者直接将txt文本拖到已经打开的excel表格中。

步骤1

首先打开GPL文件。

GPL文件中,我们所要提取的信息只有两列。

列1为基因的探针ID编号,列2为我们熟知的基因名。

一个基因探针ID编号对应一个基因名(有时基因名会缺失)。

找到这两列后,接下来到矩阵文件表格(series matrix)里新建一个子表格,将上述两列内容复制到其中,方便后续统一在一个excel文档中操作。


步骤2

关闭GPL注释文件表格,下述步骤集中在矩阵文件表格(series matrix)里操作。

首先提取矩阵文件表格里所能用到的临床信息,以及相应的GSM样本编号。

这个表格里所能用到的临床特征信息仅有组织类型(肿瘤组织或正常组织)。

理想情况下,还包含有年龄、生存时间、种族、性别等数据。

同样新建一个子表格,将上述两行内容复制进去。

因为原内容为横向排列,因此在粘贴的时候,需选择“转置”,将其转为竖向排列。

步骤3

接下来开始根据矩阵文件表格以及Gene Symbol表格里共有的探针ID元素,匹配基因名。

匹配原理与之前在 “如何从cBioPortal数据库下载数据” 相关推文里讲述的一致。

即以矩阵文件表格为基准,以共同元素探针ID号为精准匹配条件,将gene symbol子表格整合到矩阵文件表格中。

(1) 在矩阵文件表格的探针ID右侧插入列,以便放置提取的gene symbol名。

(2)选中预放置gene symbol那一列的初始栏,插入VLOOKUP函数。(注意是数值的初始栏,列标题的位置需空出)

(3)填写数值。

1处填写的是需要用哪一栏作为匹配的基准条件(即两个表格的共同元素)。

本数据是用共同的探针ID编号作为匹配条件,因此此处选择A2,用鼠标点击A2格或者直接输入A2均可;

2处填写的是匹配数据所需要的查找范围。本文是要通过探针ID查找gene symbol子表格中的基因名,因此点击gene symbol子表格,选中探针 ID列和基因名的两列表格(如下图)。此时函数中会自动填写刚刚所选择的范围,即子表格gene symbol中的A、B两列。

3处需要填写的是,需要提取到矩阵文件表格的数据在步骤2已选择范围中的哪一列。本文需要提取的基因名数据在第2列,因此此处填写2即可;

4处需要定义的是精确匹配(0)还是模糊匹配(1)。本文需要精确匹配,将两个表格中探针ID完全一致的基因名提取到矩阵文件表格,因此此处填写0。

(4)点击确定之后,已经匹配到第一个探针ID的基因名。

双击该框右下角处,该列所有数据都会自动生成。显示为0的,意为在Gene symbol子表格里没有查询到矩阵文件表格中该探针ID的基因名。

生成数据之后,此列数据为带格式数据,在移动整理的过程中可能会出现格式错误,建议将该列数据复制,在旁插入新的一列,以纯文本格式粘贴到新生成的列中使用。

之后可将1、2列删除。

(5)接下来就可以筛选感兴趣基因的表达值了。

选中基因名所在列,点击1处进入筛选状态,点击2处下拉框后输入目标基因。

本例以基因NCAN为例,进行筛选。得到NCAN在不同样本中的基因表达值。

新建一个子表格,将上述两行内容复制到其中。

其为横向排列,同样需要“转置”粘贴。


步骤4

接下来,在步骤2中生成的临床信息子表格中,根据样本GSM编号进行第二次数据匹配。

目的是将NCAN在不同样本中的基因表达值,整合到临床数据表格中。

(1)选中预放置NCAN基因表达值那一列的初始栏,插入VLOOKUP函数。(列标题的位置同样需空出)

(2)输入数值。

1处填写的是需要用哪一栏作为匹配的基准条件(即两个表格的共同元素)。

本数据是用两个子表格中共同的样本GSM编号作为匹配条件,因此此处选择A2,用鼠标点击A2格或者直接输入A2均可;

2处填写的是匹配数据所需要的查找范围。本文是要通过GSM编号查找基因表达谱子表格中的NCAN表达值,因此点击基因表达谱子表格,选中GSM编号和基因表达值的两列表格(如下图)。此时函数中会自动填写刚刚所选择的范围,即基因表达谱子表格中的A、B两列。

3处需要填写的是,需要提取到临床数据表格的值在步骤2已选择范围中的哪一列。本文需要提取的基因表达值数据在第2列,因此此处填写2即可;

4处需要定义的是精确匹配(0)还是模糊匹配(1)。本文需要精确匹配,因此此处填写0。

(4)点击确定之后,已经在临床数据子表格中,匹配到第一个GSM编号的基因表达值。

双击该框右下角处,该列所有数据都会自动生成。(该操作有时会失效,如果双击无反应,需要手动下拉表格边框,将数据生成到该列所有对应栏)

需要注意的是,一般情况下,临床数据表格里的GSM编号排列顺序与基因表达谱表格里的GSM编号排列顺序是一致的。此处进行第二次匹配,只是为了再次确保数据的一一对应性。

步骤5

至此,我们得到的就是一个含有GSM样本编号、目标基因在各个GSM样本的差异表达情况、含有样本临床数据的总表。

接下来就可以用它做相应的分析、制作结果图啦。

小编开头还提到另一个数据集,包含了样本生存信息、生存状态等临床特征数据,可以用来做生存分析。

从GEO数据库中下载此数据集后,同样也需要对表格其进行合并处理。

合并步骤与本文讲解内容一致。

最终我们得到的,即为一个含有样本生存数据等临床信息、目标基因在各个样本中的表达情况总表。

大家可以将此当作练习,既学习了处理不同内容的表格,同时也复习了本课所讲的内容。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容