基于R语言的分类、聚类研究

1 分类

1.1 决策树分类

library(party) 
set.seed(2)
data(iris)
#随机抽取训练集和测试集
index<-sample(1:nrow(iris),100)
train<-iris[index,]
test<-iris[-index,]
#建立C4.5决策树模型
ctree.model <- ctree(Species ~ ., data <- train)  
#输出决策树图
plot(ctree.model, type <- "simple")  
决策树
#预测结果
train_predict <- predict(ctree.model)  # 训练数据集
test_predict <- predict(ctree.model, newdata <- test)  # 测试数据集
#输出训练数据的分类结果和混淆矩阵
train_predictdata <- cbind(train, predictedclass=train_predict) 
train_confusion <- table(actual <- train$Species, predictedclass <- train_predict)
#判对率
sum(diag(prop.table(train_confusion)))
#[1] 0.96
#输出测试数据的分类结果和混淆矩阵
test_predictdata <- cbind(test, predictedclass=test_predict)
test_confusion <- table(actual <- test$Species, predictedclass <- test_predict)
#判对率
sum(diag(prop.table(test_confusion)))
#[1] 0.96

1.2 神经网络分类

library(nnet)
data("iris")
set.seed(2)
#抽取训练集和测试集
ind = sample(2,nrow(iris),replace = TRUE,prob = c(0.7,0.3))
trainset = iris[ind == 1,]
testset = iris[ind == 2,]
#预测结果
iris.nn = nnet(Species ~ .,data = trainset,size = 2,rang = 0.1,decay = 5e-4,maxit = 200)
summary(iris.nn)
#输出测试数据的分类结果和混淆矩阵
iris.predict = predict(iris.nn,testset,type = "class")
nn.table = table(testset$Species,iris.predict)
#判对率
sum(diag(prop.table(nn.table)))
#[1] 0.9347826

1.3 贝叶斯分类

data("iris")
set.seed(123) #设置随机种子
#抽取训练集和测试集
ind = sample(2,nrow(iris),replace = TRUE,prob = c(0.7,0.3))
traindata = iris[ind == 1,]
testdata = iris[ind == 2,]
# 使用naiveBayes函数建立朴素贝叶斯分类模型
library(e1071)  # 加载e1071包
naiveBayes.model <- naiveBayes(Species ~ ., data = traindata)  # 建立朴素贝叶斯分类模型
# 预测结果
train_predict <- predict(naiveBayes.model, newdata = traindata)  # 训练数据集
test_predict <- predict(naiveBayes.model, newdata = testdata)  # 测试数据集
# 输出训练数据的分类结果和混淆矩阵
train_predictdata <- cbind(traindata, predictedclass = train_predict) 
train_confusion <- table(actual = traindata$Species, predictedclass = train_predict)
#判对率
sum(diag(prop.table(train_confusion)))
#[1] 0.9811321
# 输出测试数据的分类结果和混淆矩阵
test_predictdata <- cbind(testdata, predictedclass = test_predict)
test_confusion <- table(actual = testdata$Species, predictedclass = test_predict)
#判对率
sum(diag(prop.table(test_confusion)))
#[1] 0.8863636

1.4 总结

1.所有在对iris数据集分(聚)类研究中,setosa均可以完全正确分(聚)类,而另外两类则会出现不同程度的误差,这也是导致整个研究模型出现误差的原因;
2.在使用的三种分类研究方法中,决策树模型的效果最优,因此可以使用该方法进行鸢尾花数据集的分类预测研究。

2 聚类

2.1 K-means

library(cluster)
#去除原有的factor类型的种类变量
df<-iris[,-5]
head(df)
#确定最佳聚类数目
library(factoextra)
fviz_nbclust(df, kmeans, method = "wss") + geom_vline(xintercept = 3, linetype = 2)


#设置随机数种子,保证实验的可重复进行
set.seed(12)
#利用k-means进行聚类
km_result <- kmeans(df,3)
print(km_result)
#提取类标签并且与原始数据进行合并
mydf <- cbind(iris, cluster = km_result$cluster)
head(mydf)
#查看每一类的数目
table(mydf$cluster)
#进行可视化展示
fviz_cluster(km_result, data = df,
             palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#FC4E07"),
             ellipse.type = "euclid",
             star.plot = TRUE, 
             repel = TRUE,
             ggtheme = theme_minimal()
)
k-means
table<-table(mydf$Species,mydf$cluster)
sum(diag(prop.table(table))) #判对率
#[1] 0.8933333

2.2 K-medoids

library(cluster)
#去除原有的factor种类变量
kmedf<-iris[,-5]
head(kmedf)
#分为三类
fit_pam=pam(kmedf,3) 
fit_pam[1:length(fit_pam)] 
#分类情况
summary(fit_pam)
mykmedf <- cbind(iris, cluster =fit_pam$clustering)
head(mykmedf)
#查看每一类的数目
table(mykmedf$cluster)
#进行可视化展示
fviz_cluster(fit_pam, data = mykmedf,
             palette = c("#2E9Fdf", "#00AFBB", "#E7B800", "#FC4E07"),
             ellipse.type = "euclid",
             star.plot = TRUE, 
             repel = TRUE,
             ggtheme = theme_minimal()
)
K-medoids
#判对率
kmetable<-table(mykmedf$Species,mykmedf$cluster)
sum(diag(prop.table(kmetable)))
[1] 0.8933333

2.3 层次聚类

hirisdata<-iris[,-5]
head(hirisdata)
#使用自底向上的聚类方法处理数据集:
hc = hclust(dist(hirisdata,method = "euclidean"),method = "ward.D2")
#调用plot函数绘制聚类树图
plot(hc,hang = -0.01,cex =0.7)
层次聚类
#定义count函数,计算分类准确率
mycount<-function(num,min,max)
{
  count=0
  {
    for (x in num) {
      if(x>=min&x<=max)
        count<-count+1
    }
  }
  count
}
num1<-hc$order[1:50]
count1<-mycount(num1,1,50)
num2<-hc$order[51:100]
count2<-mycount(num2,101,150)
num3<-hc$order[101:150]
count3<-mycount(num3,51,100)
#准确率
correctrate<-(count1+count2+count3)/150
[1] 0.8
#验证标准化之后对聚类结果的影响
hirisdata<-scale(hirisdata)
#准确率
correctrate<-(count1+count2+count3)/150
[1] 0.52

2.4 总结:

1.在对鸢尾花数据集进行聚类时,K-means、K-medoids两种聚类方法的正确率相同,可见在数据集离群点和噪音不大的情况下,二者聚类效果基本相同,但当出现离群点和噪音时,应该考虑K-medoids聚类方法;
2.鸢尾花数据集进行聚类分析时,划分聚类效果优于层次聚类;
3.对于量纲不一致的数据,应进行标准化,但对于量纲一致的数据,标准化之后结果并不一定优于未标准化的数据得到的结果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容