《数量生态学:R语言的应用》—第四章聚类分析1 概述

数量生态学:R语言的应用—第四章聚类分析

之前我们了解了关联测度与矩阵,主要是Q模式与R模式。

从今天开始给大家带来《数量生态学:R语言的应用》—第四章聚类分析。

1.R模式思维导图

首先对昨天的R模式进行梳理一下,做一个思维导图


R模式

2. 聚类概述

在生态学研究当中,聚类的目的是识别环境中不连续对象的子集。实际上,聚类分析是所研究对象(或R模式下的变量)集合的分组。聚类分析不是典型的统计方法,因为没有检验任何统计假设,但是聚类后分组的稳健性是可以检验的。聚类分析有助于探索隐藏在数据背后的属性特征。

注意:大部分聚类方法都是基于关联矩阵进行计算,也就说明选择恰当关联系数非常重要

2.1 不同类型的聚类方法:

聚类方法
  • 层次聚类的结果一般用聚类树或类树状图表示。非层次法的结果只给出所分对象(或变量)的分类组。
  • 分类组可以进一步分析或代表最终结果,或当研究对象具有空间属性时,可以在研究区地图上标注不同的分类组

2.2 加载所需的包和数据

#加载包和数据
library(ade4)
library(adespatial)
library(vegan)
library(gclus)
library(cluster)
library(pvclust)
library(RColorBrewer)
library(labdsv)
library(rioja)
library(indicspecies)
library(mvpart)
library(MVPARTwrap)
library(dendextend)
library(vegclust)
library(colorspace)
library(agricolae)
library(picante)

#加载函数
source("drawmap.R")
source("drawmap3.R")
source("hcoplot.R")
source("test.a.R")
source("coldiss.R")
source("bartlett.perm.R")
source("boxplerk.R")
source("boxplert.R")

#从聚类结果获得二元差异矩阵的函数
grpdist <- function(X)
{
  require(cluster)
  gr <- as.data.frame(as.factor(X))
  distgr <- daisy(gr,"gower")
  distgr
  }

#导入Doubs数据
load("Doubs.RData")
#剔除无物种数据的样方8
spe <- spe[-8,]
env <- env[-8,]
spa <- spa[-8,]
latlong <- latlong[-8,] #经纬度

3. 基于连接的层次聚类

3.1 单连接聚合聚类

单连接聚合聚类也被称为最近邻体分类,该方法聚合对象的依据是最短的成对距离(或最大的相似性):每个对象或聚类簇首次连接的列表称为主连接链,也称最小拓展树。

最经常的层次聚类分析可以通过states程序包内hclust()函数实现

#先计算样方之间的弦距离矩阵
spe.norm <- decostand(spe,"normalize")
spe.ch <- vegdist(spe.norm,"euc")

#将站点名称附加到类’dist‘的对象
attr(spe.ch,"labels") <- rownames(spe)

#进行单连接聚合聚类
spe.ch.single <- hclust(spe.ch,method = "single")

#使用默认参数选项绘制聚类树
plot(spe.ch.single,
     labels=row.names(spe),
     main="弦距离-单连接",
     xlab="单连接聚合聚类",
     ylab="高度")
弦转化数据
弦转化矩阵
单连接聚合聚类

基于单连接聚类的结果,我们如何描述这个数据集?是简单的单一梯度还是区分明显的样方组?能否辨认样方的连接链?样方1、5和9为什么最后连接?

3.2 完全连接聚合聚类

与单连接聚合聚类相反,完全连接聚合聚类(也称作"最远邻体分类")允许一个对象(或一个组)与另一个组聚合的依据是最远距离对。所以两个组所以成员之间的距离都必须全部计算,然后再比较

#计算完全连接聚合聚类
spe.ch.complete <- hclust(spe.ch,method = "complete")

plot(spe.ch.complete,
     labels=row.names(spe),
     main="弦距离-完全连接",
     xlab="完全连接聚合聚类",
     ylab="高度")
完全连接聚合聚类

当前所给的样方是沿着河流分布(样方的编号按照流向编排),这个聚类分析结果是否将位置相近的样方排在同一个组呢?两种完全有效的聚类分析方法分析同一数据,为什么产生如此不同的聚类结果呢?

从上面两种聚类树,我们可以清楚的看到两种方法聚类原理及结果的差异:

单连接聚类产生的分类组虽然不清晰,但容易识别数据的梯度。相反,完全连接聚类产生的分组间的差异比较明显,更适合去寻找和识别数据的间断分布。

4. 平均聚合聚类

平均聚合聚类是一类基于对象间平均相异或聚类簇形心的聚类方法。有四种方法,不同的方法区别在于组的位置计算方式(算数平均或形心)和当计算融合距离时是否用每组包含的对象数量作为权重。

下图是4种平均聚合聚类方法。引号内名称来自hclust()函数内与方法对应的参数:

4种平均聚合聚类方法

最有名的当属UPGMA方法,一个对象加入一个组的依据是这个对象与该组每个成员之间的平均距离。

#计算平均(UPGMA)聚合聚类
spe.ch.UPGMA <- hclust(spe.ch,method = "average")
plot(spe.ch.UPGMA,
     labels=row.names(spe),
     main="弦距离-UPGMA",
     xlab="UPGMA聚合聚类",
     ylab="高度")
#计算形心聚类
spe.ch.centroid <- hclust(spe.ch,method = "centroid")
plot(spe.ch.centroid,
     labels=row.names(spe),
     main="弦距离-形心",
     xlab="形心聚类",
     ylab="高度")
平均(UPGMA)聚合聚类
形心聚类

注意:UPGMC和WPGMC有时会导致聚类树翻转的现象,使得聚类树不再形成连续的嵌套分区,分类结果难以区分。

5. Ward 最小方差聚类

这是一种基于最小二乘法线性模型准则的聚类方法,分组依据是使组内平方和(即方差分析的方差)最小化。聚类簇内方差和等于聚类簇内成员间距离的平方和除以对象的数量。

# 计算Ward最小方差聚类
spe.ch.ward <- hclust(spe.ch, method="ward.D2")
#注意:在R 3.0.3 版本后,ward聚类方法的名称改为“ward.D2”,但直接写ward也可以
plot(spe.ch.ward,
     labels=row.names(spe),
     main="聚类树",
     ylab="高度",
     xlab="Ward聚类")
Ward 最小方差聚类
#使用距离平方造成此聚类树上半部分过于膨胀。为了使聚类树比例看起来
#更协调而不影响结构,可以使用当前融合水平的平方根重新绘图
spe.ch.ward$height <- sqrt(spe.ch.ward$height)
plot(spe.ch.ward,
     labels=row.names(spe),
     main="聚类树",
     ylab="高度",
     xlab="Ward聚类")
平方根后

6 灵活聚类

cluster程序包内的agnes()函数通过参数method和par.method的设置也可以实现灵活聚类。在agnes()函数中,灵活的聚类由参数method="flexible"和参数par.method设置为向量值1、3或4来实现。其中最简单的应用是将参数设为β,因此得名“beta-灵活聚类”。

为了获得β=-0.25,给出的值是par.method=0.625,因为α=(1-β)/2=(1-(-0.25))/2=0.625。见agnes()的帮助文档文件以获取更多详细信息。

par(mfrow = c(2, 2))

# 使用cluster程序包内的agnes()计算beta灵活聚类
# beta = -0.1
spe.ch.beta1 <- agnes(spe.ch, method = "flexible",
                      par.method = 0.55)
# beta = -0.25
spe.ch.beta2 <- agnes(spe.ch, method = "flexible",
                      par.method = 0.625)
# beta = -0.5
spe.ch.beta3 <- agnes(spe.ch, method = "flexible",
                      par.method = 0.75)
# 改变agens获得对象属性
class(spe.ch.beta1)
spe.ch.beta1 <- as.hclust(spe.ch.beta1)
class(spe.ch.beta1)
spe.ch.beta2 <- as.hclust(spe.ch.beta2)
spe.ch.beta3 <- as.hclust(spe.ch.beta3)
plot(spe.ch.beta1, 
     labels = rownames(spe), 
     main = "弦距离-Beta-灵活聚类 (beta=-0.1)")
plot(spe.ch.beta2, 
     labels = rownames(spe), 
     main = "弦距离-Beta-灵活聚类 (beta=-0.25)")
plot(spe.ch.beta3, 
     labels = rownames(spe), 
     main = "弦距离-Beta-灵活聚类 (beta=-0.5)")
弦距离-Beta-灵活聚类

今天先简单介绍一下聚类分析以及聚类的方法,下一节将解读和比较层次聚类结果。

如有不足或错误之处,请批评指正。
有什么不明白的也欢迎留言讨论。

欢迎关注微信公众号:fafu 生信 小蘑菇

往期内容:

《数量生态学:R语言的应用》第三章-R模式

《数量生态学:R语言的应用》第二版第三章-关联测度与矩阵------Q模式

《数量生态学:R语言的应用》第二版笔记2

《数量生态学——R语言的应用》第二版阅读笔记--绪论和第二章(一部分)

R语言 pheatmap 包绘制热图(基础部分)

R语言pheatmap包绘制热图进阶教程

使用PicGo和gitee搭建图床

组间分析—T检验、R语言绘图

Rmarkdown的xaringan包来制作PPT

htlm文件部署到个人网站

感谢你的阅读!!!你的点赞关注转发是对我最大的鼓励。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容