十一步带你解构GEO分析常规流程(一)

PDAC数据分析-GSE16515-GPL570

致读者语:本人接下来的九篇GEO解析文章将基于此,不断进行迭代,尝试让核心步骤、让图文与让结构更加美观,让读者与自身更能直击GEO分析的本质,让自身具备常见SCI文件画图的思路。致敬曾老师与小洁老师以及生信技能树,万分感谢。

1.分析思路

01.GEO芯片数据是什么,有什么用?

GEO芯片数据即存储在GEO数据库中利用芯片测序获得的基因表达谱数据(转录组水平)。通过GEO芯片数据,你能查找你感兴趣的疾病或者表型相对于正常组的整体基因表达谱变化情况,你就能知道你关注的基因与通路在你所关注的疾病与表型中是否发生了显著变化,或者筛选出你之前并未关注的能影响你疾病的关键下游基因或者通路。

小提示:

        跟着以下步骤,芯片数据分析在曾老师与小洁老师以及生信技能树的带领下会非常简单,你就很大程度上能有机会找到你下游的基因与通路。利用别人的数据与经费,思考完善自己的文章,何乐而不为呢。

02.芯片数据能做什么常见分析?

        许多芯片数据会有相应的临床性状相关信息,若有,可以进一步进行临床预后及临床性状相关性分析;若没有,你可以进行芯片数据的差异分析,芯片数据主要需要芯片表达矩阵芯片平台注释信息两类信息。整体上,不管有没有临床性状相关信息,你都可以做差异分析。因此,本文先主要针对芯片的差异分析进行阐述。

03.芯片数据进行差异分析需要什么?

        做差异分析的话主要需要芯片表达矩阵芯片平台注释信息,你网上所看的火山图、热图、GO富集与KEGG图等都是它们做出来的,所以如果你需要获得做这些图,第一步先找到这两个

04.芯片数据差异分析的常规思路

十一步带你做差异分析(3中运行流程有更详细的描述)


2.数据集介绍

GEO链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE16515

芯片平台:GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array

平台链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570

样品信息:16个正常样本与36个胰腺导管腺癌(PDAC)样本

3.运行流程(12步)

运行按上述思维导图带你做差异分析

为什么是12步呢,上面不是说好11步吗?因为要利用R语言做下述分析,你得安装与加载相应的包才能进行后续分析。

注意看代码时识别非关键命令与关键命令,非关键命令不影响结果运行但是能用来了解自身处理的数据情况;关键命令是直接与结果息息相关的命令,错了会直接影响结果或者出不了结果。

小提示(小感悟):

不管是芯片数据分析,还是其它数据分析作图,整体就是准备输入文件(按照你要运行的计算工具的输入格式),按照规定的流程运行(你要实现什么就用什么流程),获得输出文件(包括你要的图与数据)三步。其中尤为重要的是你得了解你自身的数据,按照输入要求准备数据以及运行相应的流程,输出结果变成了一个自然而然地过程。

00步:安装与加载下述分析的相应包

01步:GSE芯片数据集的下载

GEO芯片数据集中含有后续数据分析相关的探针表达矩阵exp(注意与基因表达矩阵的关键区别就在它的行名是探针ID名,而非基因名)、临床分组信息pdGPL芯片平台注释信息(可以知道该芯片源自哪个平台,你去下载那个平台对应的注释信息,通过过R就能将探针矩阵对应转换为的基因矩阵)----三组关键信息

芯片矩阵与基因矩阵的区别以及为什么要转换芯片矩阵?

芯片表达矩阵行名是探针ID,列名是样本名;而芯片平台注释信息中含有探针ID与基因名的对应关系。由于后续展示的结果不管是差异基因还是差异功能及差异通路相关的结果都与基因名相关,所以要将芯片的探针表达矩阵转换为基因表达矩阵,基于芯片平台中探针ID与基因名的对应关系。

02步:提取三组关键信息(输入数据准备)

03步.GPL芯片平台注释信息下载

04步:箱线图p1初看整体探针检测情况

箱线图二看:

1.检查各个样本的整体探针检测情况,是防止分析检测差异太大的样本,可以用箱线图;箱线图一看

2.取log,是因为首先log分析便于量化,更为关键的是后续的差异分析logFC更是基于此;若取完log再次取log,会影响后续差异分析。判断是否需要取log,看其箱线图值是否在20以内;箱线图二看

05.获取基因表达矩阵,去除冗余探针

获取基因表达矩阵是因为后续分析不用探针矩阵的探针ID,而用基因名,所以需要将探针ID转换为基因名

去除冗余探针:因为存在多个探针对应到一个基因名之上,而基因表达矩阵之中,一个基因只能对应一个探针的表达值,所以需要去除冗余探针。目前去除冗余探针的方式主要有取随机值、取最大值与取中位数三种,本差异分析选择取随机值。具体取啥,随心所欲,像小洁老师所说的,具体哪种方式可行没有硬性标准,生信分析像曾老师所说的都可以,最关键的是数据可信,分析方式可信即可按需。

06步:获取样品分组信息并分组

07步:3个质控图及拼图

三个质控图包括反映样本之间相似性的PCA图高变基因热图样品相关性图

样本相关性热图懒惰的没去除行,懒一下先,哈哈

08步:差异基因-limma分析(火山图与热图,两图)

09步:利用GO与KEGG富集分析差异功能与差异通路

10步:GSEA富集

11步:KEGG的GSEA富集分析可视化

致敬曾老师、小洁老师与小郭老师,生信技能树
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容