PDAC数据分析-GSE16515-GPL570
致读者语:本人接下来的九篇GEO解析文章将基于此,不断进行迭代,尝试让核心步骤、让图文与让结构更加美观,让读者与自身更能直击GEO分析的本质,让自身具备常见SCI文件画图的思路。致敬曾老师与小洁老师以及生信技能树,万分感谢。
1.分析思路
01.GEO芯片数据是什么,有什么用?
GEO芯片数据即存储在GEO数据库中利用芯片测序获得的基因表达谱数据(转录组水平)。通过GEO芯片数据,你能查找你感兴趣的疾病或者表型相对于正常组的整体基因表达谱变化情况,你就能知道你关注的基因与通路在你所关注的疾病与表型中是否发生了显著变化,或者筛选出你之前并未关注的能影响你疾病的关键下游基因或者通路。
小提示:
跟着以下步骤,芯片数据分析在曾老师与小洁老师以及生信技能树的带领下会非常简单,你就很大程度上能有机会找到你下游的基因与通路。利用别人的数据与经费,思考完善自己的文章,何乐而不为呢。
02.芯片数据能做什么常见分析?
许多芯片数据会有相应的临床性状相关信息,若有,可以进一步进行临床预后及临床性状相关性分析;若没有,你可以进行芯片数据的差异分析,芯片数据主要需要芯片表达矩阵与芯片平台注释信息两类信息。整体上,不管有没有临床性状相关信息,你都可以做差异分析。因此,本文先主要针对芯片的差异分析进行阐述。
03.芯片数据进行差异分析需要什么?
做差异分析的话主要需要芯片表达矩阵与芯片平台注释信息,你网上所看的火山图、热图、GO富集与KEGG图等都是它们做出来的,所以如果你需要获得做这些图,第一步先找到这两个。
04.芯片数据差异分析的常规思路
十一步带你做差异分析(3中运行流程有更详细的描述)
2.数据集介绍
GEO链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE16515
芯片平台:GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
平台链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570
样品信息:16个正常样本与36个胰腺导管腺癌(PDAC)样本
3.运行流程(12步)
运行按上述思维导图带你做差异分析
为什么是12步呢,上面不是说好11步吗?因为要利用R语言做下述分析,你得安装与加载相应的包才能进行后续分析。
注意看代码时识别非关键命令与关键命令,非关键命令不影响结果运行但是能用来了解自身处理的数据情况;关键命令是直接与结果息息相关的命令,错了会直接影响结果或者出不了结果。
小提示(小感悟):
不管是芯片数据分析,还是其它数据分析作图,整体就是准备输入文件(按照你要运行的计算工具的输入格式),按照规定的流程运行(你要实现什么就用什么流程),获得输出文件(包括你要的图与数据)三步。其中尤为重要的是你得了解你自身的数据,按照输入要求准备数据以及运行相应的流程,输出结果变成了一个自然而然地过程。
00步:安装与加载下述分析的相应包
01步:GSE芯片数据集的下载
GEO芯片数据集中含有后续数据分析相关的探针表达矩阵exp(注意与基因表达矩阵的关键区别就在它的行名是探针ID名,而非基因名)、临床分组信息pd与GPL芯片平台注释信息(可以知道该芯片源自哪个平台,你去下载那个平台对应的注释信息,通过过R就能将探针矩阵对应转换为的基因矩阵)----三组关键信息。
芯片矩阵与基因矩阵的区别以及为什么要转换芯片矩阵?
芯片表达矩阵行名是探针ID,列名是样本名;而芯片平台注释信息中含有探针ID与基因名的对应关系。由于后续展示的结果不管是差异基因还是差异功能及差异通路相关的结果都与基因名相关,所以要将芯片的探针表达矩阵转换为基因表达矩阵,基于芯片平台中探针ID与基因名的对应关系。
02步:提取三组关键信息(输入数据准备)
03步.GPL芯片平台注释信息下载
04步:箱线图p1初看整体探针检测情况
箱线图二看:
1.检查各个样本的整体探针检测情况,是防止分析检测差异太大的样本,可以用箱线图;箱线图一看
2.取log,是因为首先log分析便于量化,更为关键的是后续的差异分析logFC更是基于此;若取完log再次取log,会影响后续差异分析。判断是否需要取log,看其箱线图值是否在20以内;箱线图二看
05.获取基因表达矩阵,去除冗余探针
获取基因表达矩阵是因为后续分析不用探针矩阵的探针ID,而用基因名,所以需要将探针ID转换为基因名
去除冗余探针:因为存在多个探针对应到一个基因名之上,而基因表达矩阵之中,一个基因只能对应一个探针的表达值,所以需要去除冗余探针。目前去除冗余探针的方式主要有取随机值、取最大值与取中位数三种,本差异分析选择取随机值。具体取啥,随心所欲,像小洁老师所说的,具体哪种方式可行没有硬性标准,生信分析像曾老师所说的都可以,最关键的是数据可信,分析方式可信即可按需。
06步:获取样品分组信息并分组
07步:3个质控图及拼图
三个质控图包括反映样本之间相似性的PCA图、高变基因热图与样品相关性图