PCA分析?Emm,快速上手与出图!

写在前面

PCA,principle component analysis,翻译为中文,即常说的主成分分析
其为相对经典的降维算法,对具体计算逻辑感兴趣的可以Bing搜索看看。
在高通量测序数据出现之前,在生物学上,其最常用的场景是:

假定我们要对某种花的不同品种进行分类,于是进行指标测定,如花瓣长度,花瓣宽度,植株高度,叶片厚度,根部长度等。这些指标都是数量指标,我们几乎无法从某一个或者某两个指标,直接将不通品种分开,所以我们需要用上所有指标试试。但是对于高纬度,如超过三维,我们就很难处理,至少从绘图上,我们几乎无法解决,看不到的,都是虚的。于是,前人提出各种降维策略,而PCA即为最经典的线性降维。算法本质即方差拆解,去除冗余信息,在丢失尽量少信息的情况下,保留最合适的权重指标组合,亦即第一,第二,第三,第N主成分。在实际应用中,我们往往会使用前两个主成分,可以简单认为其代表了样品之间差异信息的最大部分。

以上,是植物分类相关的应用。近日,我们课题组开始整理手上已有的转录组测序样品。怎么说呢?转录组数据分析获得基因表达矩阵,对于每一个样本来说,其实基因的表达量向量即性状数据,一个基因就对应一个指标或者维度。所以,我们同样,可以直接基于表达量矩阵,对样品进行分类(【注:分类是PCA分析的最粗糙的应用,提取主成分,分析主要贡献因子才是优秀操作】)。这样,我们可以从很快判断自己的样品是否存在异常。(如果存在生物学重复的异常,那么必须分析异常是否合理,不合理则应去除,否则影响分析)。

实现一个快速完成PCA分析的工具

PCA分析,事实上,目前应是已有不少工具或者脚本可以实现。具体我并没有做太多地了解。我想,或许很多人跟我一样,主要还是使用R语言进行分析,随后可视化。编程,总是麻烦。事实上,每次我要回去翻前面写的流程代码,对我来说是一个浪费时间的事情。于是,我还是决定实现这个工具。

如何使用

首先是打开对应的功能



从功能界面可以看出,


使用示例数据进行分析,则直接点击Start



从图片来看,左侧virinica,中间主要是versicolor,右侧则明显是setosa。

灵活调整参数,达到自己的目的

对于这套数据,我们的目的是对品种进行聚类,所以Analysis On Columns是不会变的。不过我们可以不对数据进行Scale试试(一般推荐Scale,主要目的是同一量纲)。



似乎分得还可以。由于我们输入的样品较多,似乎有上百个,labels太多。但是我们也可以不看Labels。



只是,不看Labels的话,就什么都看不出来了。此时我们会选择对样品进行着色
在Excel中编辑并整理样品对应的颜色信息

第一列:样品名
第二列:点的颜色信息
第三列:Label的颜色信息(这一列为可选列)


保存成文本文件-制表符分隔,最后用于可视化。【注:示例数据,每一列代表的是一个样品,由于我们很多样品名字相同,所以只需要设置一个颜色行即可;在转录组测序数据中,则往往每个样品需要专门设立一行】。

注意到,此时我们可以明显地看到,确实不同类型被分开。不错的结果。

将labels显示,看起来也还可以....

总的来说,你可以通过设置点或者文本的颜色信息,来表示两类样品的分组信息。比如生物学重复可以作为一个分组信息,不同时间点或者处理可以是另外一个分组信息。

实际应用

在转录组测序数据分析中,我们常常会得到这样类似的一个表达矩阵



操作起来比较简单,如果你只是做个分类查看。直接全选整个矩阵,复制并黏贴到Simple PCA Analysis



点击Start

从这个图来看,生物学重复聚类较好。此时不要忘了TBtools中的图片是可以交互式调整的。我大体手动调整了下


最后,你可以Ctrl+S保存图片

写在后面

睡不着的时候,写写一些东西,总还是有用的。
不过可能是时候去写一些可以写到简历的东西了。
祝大家科研顺利!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容