基于R语言的分类、聚类研究

1 分类

1.1 决策树分类

library(party) 
set.seed(2)
data(iris)
#随机抽取训练集和测试集
index<-sample(1:nrow(iris),100)
train<-iris[index,]
test<-iris[-index,]
#建立C4.5决策树模型
ctree.model <- ctree(Species ~ ., data <- train)  
#输出决策树图
plot(ctree.model, type <- "simple")

决策树

#预测结果
train_predict <- predict(ctree.model)  # 训练数据集
test_predict <- predict(ctree.model, newdata <- test)  # 测试数据集
#输出训练数据的分类结果和混淆矩阵
train_predictdata <- cbind(train, predictedclass=train_predict) 
train_confusion <- table(actual <- train$Species, predictedclass <- train_predict)
#判对率
sum(diag(prop.table(train_confusion)))
#[1] 0.96
#输出测试数据的分类结果和混淆矩阵
test_predictdata <- cbind(test, predictedclass=test_predict)
test_confusion <- table(actual <- test$Species, predictedclass <- test_predict)
#判对率
sum(diag(prop.table(test_confusion)))
#[1] 0.96

1.2 神经网络分类

library(nnet)
data("iris")
set.seed(2)
#抽取训练集和测试集
ind = sample(2,nrow(iris),replace = TRUE,prob = c(0.7,0.3))
trainset = iris[ind == 1,]
testset = iris[ind == 2,]
#预测结果
iris.nn = nnet(Species ~ .,data = trainset,size = 2,rang = 0.1,decay = 5e-4,maxit = 200)
summary(iris.nn)
#输出测试数据的分类结果和混淆矩阵
iris.predict = predict(iris.nn,testset,type = "class")
nn.table = table(testset$Species,iris.predict)
#判对率
sum(diag(prop.table(nn.table)))
#[1] 0.9347826

1.3 贝叶斯分类

data("iris")
set.seed(123) #设置随机种子
#抽取训练集和测试集
ind = sample(2,nrow(iris),replace = TRUE,prob = c(0.7,0.3))
traindata = iris[ind == 1,]
testdata = iris[ind == 2,]
# 使用naiveBayes函数建立朴素贝叶斯分类模型
library(e1071)  # 加载e1071包
naiveBayes.model <- naiveBayes(Species ~ ., data = traindata)  # 建立朴素贝叶斯分类模型
# 预测结果
train_predict <- predict(naiveBayes.model, newdata = traindata)  # 训练数据集
test_predict <- predict(naiveBayes.model, newdata = testdata)  # 测试数据集
# 输出训练数据的分类结果和混淆矩阵
train_predictdata <- cbind(traindata, predictedclass = train_predict) 
train_confusion <- table(actual = traindata$Species, predictedclass = train_predict)
#判对率
sum(diag(prop.table(train_confusion)))
#[1] 0.9811321
# 输出测试数据的分类结果和混淆矩阵
test_predictdata <- cbind(testdata, predictedclass = test_predict)
test_confusion <- table(actual = testdata$Species, predictedclass = test_predict)
#判对率
sum(diag(prop.table(test_confusion)))
#[1] 0.8863636

1.4 总结

1.所有在对iris数据集分（聚）类研究中，setosa均可以完全正确分（聚）类，而另外两类则会出现不同程度的误差，这也是导致整个研究模型出现误差的原因；
2.在使用的三种分类研究方法中，决策树模型的效果最优，因此可以使用该方法进行鸢尾花数据集的分类预测研究。

2 聚类

2.1 K-means

library(cluster)
#去除原有的factor类型的种类变量
df<-iris[,-5]
head(df)
#确定最佳聚类数目
library(factoextra)
fviz_nbclust(df, kmeans, method = "wss") + geom_vline(xintercept = 3, linetype = 2)



#设置随机数种子，保证实验的可重复进行
set.seed(12)
#利用k-means进行聚类
km_result <- kmeans(df,3)
print(km_result)
#提取类标签并且与原始数据进行合并
mydf <- cbind(iris, cluster = km_result$cluster)
head(mydf)
#查看每一类的数目
table(mydf$cluster)
#进行可视化展示
fviz_cluster(km_result, data = df,
             palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#FC4E07"),
             ellipse.type = "euclid",
             star.plot = TRUE, 
             repel = TRUE,
             ggtheme = theme_minimal()
)

k-means

table<-table(mydf$Species,mydf$cluster)
sum(diag(prop.table(table))) #判对率
#[1] 0.8933333

2.2 K-medoids

library(cluster)
#去除原有的factor种类变量
kmedf<-iris[,-5]
head(kmedf)
#分为三类
fit_pam=pam(kmedf,3) 
fit_pam[1:length(fit_pam)] 
#分类情况
summary(fit_pam)
mykmedf <- cbind(iris, cluster =fit_pam$clustering)
head(mykmedf)
#查看每一类的数目
table(mykmedf$cluster)
#进行可视化展示
fviz_cluster(fit_pam, data = mykmedf,
             palette = c("#2E9Fdf", "#00AFBB", "#E7B800", "#FC4E07"),
             ellipse.type = "euclid",
             star.plot = TRUE, 
             repel = TRUE,
             ggtheme = theme_minimal()
)

K-medoids

#判对率
kmetable<-table(mykmedf$Species,mykmedf$cluster)
sum(diag(prop.table(kmetable)))
[1] 0.8933333

2.3 层次聚类

hirisdata<-iris[,-5]
head(hirisdata)
#使用自底向上的聚类方法处理数据集：
hc = hclust(dist(hirisdata,method = "euclidean"),method = "ward.D2")
#调用plot函数绘制聚类树图
plot(hc,hang = -0.01,cex =0.7)

层次聚类

#定义count函数,计算分类准确率
mycount<-function(num,min,max)
{
  count=0
  {
    for (x in num) {
      if(x>=min&x<=max)
        count<-count+1
    }
  }
  count
}
num1<-hc$order[1:50]
count1<-mycount(num1,1,50)
num2<-hc$order[51:100]
count2<-mycount(num2,101,150)
num3<-hc$order[101:150]
count3<-mycount(num3,51,100)
#准确率
correctrate<-(count1+count2+count3)/150
[1] 0.8
#验证标准化之后对聚类结果的影响
hirisdata<-scale(hirisdata)
#准确率
correctrate<-(count1+count2+count3)/150
[1] 0.52

2.4 总结：

1.在对鸢尾花数据集进行聚类时，K-means、K-medoids两种聚类方法的正确率相同，可见在数据集离群点和噪音不大的情况下，二者聚类效果基本相同，但当出现离群点和噪音时，应该考虑K-medoids聚类方法；
2.鸢尾花数据集进行聚类分析时，划分聚类效果优于层次聚类；
3.对于量纲不一致的数据，应进行标准化，但对于量纲一致的数据，标准化之后结果并不一定优于未标准化的数据得到的结果。

最后编辑于：2018.11.20 12:38:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342