1 分类
1.1 决策树分类
library(party)
set.seed(2)
data(iris)
#随机抽取训练集和测试集
index<-sample(1:nrow(iris),100)
train<-iris[index,]
test<-iris[-index,]
#建立C4.5决策树模型
ctree.model <- ctree(Species ~ ., data <- train)
#输出决策树图
plot(ctree.model, type <- "simple")
#预测结果
train_predict <- predict(ctree.model) # 训练数据集
test_predict <- predict(ctree.model, newdata <- test) # 测试数据集
#输出训练数据的分类结果和混淆矩阵
train_predictdata <- cbind(train, predictedclass=train_predict)
train_confusion <- table(actual <- train$Species, predictedclass <- train_predict)
#判对率
sum(diag(prop.table(train_confusion)))
#[1] 0.96
#输出测试数据的分类结果和混淆矩阵
test_predictdata <- cbind(test, predictedclass=test_predict)
test_confusion <- table(actual <- test$Species, predictedclass <- test_predict)
#判对率
sum(diag(prop.table(test_confusion)))
#[1] 0.96
1.2 神经网络分类
library(nnet)
data("iris")
set.seed(2)
#抽取训练集和测试集
ind = sample(2,nrow(iris),replace = TRUE,prob = c(0.7,0.3))
trainset = iris[ind == 1,]
testset = iris[ind == 2,]
#预测结果
iris.nn = nnet(Species ~ .,data = trainset,size = 2,rang = 0.1,decay = 5e-4,maxit = 200)
summary(iris.nn)
#输出测试数据的分类结果和混淆矩阵
iris.predict = predict(iris.nn,testset,type = "class")
nn.table = table(testset$Species,iris.predict)
#判对率
sum(diag(prop.table(nn.table)))
#[1] 0.9347826
1.3 贝叶斯分类
data("iris")
set.seed(123) #设置随机种子
#抽取训练集和测试集
ind = sample(2,nrow(iris),replace = TRUE,prob = c(0.7,0.3))
traindata = iris[ind == 1,]
testdata = iris[ind == 2,]
# 使用naiveBayes函数建立朴素贝叶斯分类模型
library(e1071) # 加载e1071包
naiveBayes.model <- naiveBayes(Species ~ ., data = traindata) # 建立朴素贝叶斯分类模型
# 预测结果
train_predict <- predict(naiveBayes.model, newdata = traindata) # 训练数据集
test_predict <- predict(naiveBayes.model, newdata = testdata) # 测试数据集
# 输出训练数据的分类结果和混淆矩阵
train_predictdata <- cbind(traindata, predictedclass = train_predict)
train_confusion <- table(actual = traindata$Species, predictedclass = train_predict)
#判对率
sum(diag(prop.table(train_confusion)))
#[1] 0.9811321
# 输出测试数据的分类结果和混淆矩阵
test_predictdata <- cbind(testdata, predictedclass = test_predict)
test_confusion <- table(actual = testdata$Species, predictedclass = test_predict)
#判对率
sum(diag(prop.table(test_confusion)))
#[1] 0.8863636
1.4 总结
1.所有在对iris数据集分(聚)类研究中,setosa均可以完全正确分(聚)类,而另外两类则会出现不同程度的误差,这也是导致整个研究模型出现误差的原因;
2.在使用的三种分类研究方法中,决策树模型的效果最优,因此可以使用该方法进行鸢尾花数据集的分类预测研究。
2 聚类
2.1 K-means
library(cluster)
#去除原有的factor类型的种类变量
df<-iris[,-5]
head(df)
#确定最佳聚类数目
library(factoextra)
fviz_nbclust(df, kmeans, method = "wss") + geom_vline(xintercept = 3, linetype = 2)
#设置随机数种子,保证实验的可重复进行
set.seed(12)
#利用k-means进行聚类
km_result <- kmeans(df,3)
print(km_result)
#提取类标签并且与原始数据进行合并
mydf <- cbind(iris, cluster = km_result$cluster)
head(mydf)
#查看每一类的数目
table(mydf$cluster)
#进行可视化展示
fviz_cluster(km_result, data = df,
palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#FC4E07"),
ellipse.type = "euclid",
star.plot = TRUE,
repel = TRUE,
ggtheme = theme_minimal()
)
table<-table(mydf$Species,mydf$cluster)
sum(diag(prop.table(table))) #判对率
#[1] 0.8933333
2.2 K-medoids
library(cluster)
#去除原有的factor种类变量
kmedf<-iris[,-5]
head(kmedf)
#分为三类
fit_pam=pam(kmedf,3)
fit_pam[1:length(fit_pam)]
#分类情况
summary(fit_pam)
mykmedf <- cbind(iris, cluster =fit_pam$clustering)
head(mykmedf)
#查看每一类的数目
table(mykmedf$cluster)
#进行可视化展示
fviz_cluster(fit_pam, data = mykmedf,
palette = c("#2E9Fdf", "#00AFBB", "#E7B800", "#FC4E07"),
ellipse.type = "euclid",
star.plot = TRUE,
repel = TRUE,
ggtheme = theme_minimal()
)
#判对率
kmetable<-table(mykmedf$Species,mykmedf$cluster)
sum(diag(prop.table(kmetable)))
[1] 0.8933333
2.3 层次聚类
hirisdata<-iris[,-5]
head(hirisdata)
#使用自底向上的聚类方法处理数据集:
hc = hclust(dist(hirisdata,method = "euclidean"),method = "ward.D2")
#调用plot函数绘制聚类树图
plot(hc,hang = -0.01,cex =0.7)
#定义count函数,计算分类准确率
mycount<-function(num,min,max)
{
count=0
{
for (x in num) {
if(x>=min&x<=max)
count<-count+1
}
}
count
}
num1<-hc$order[1:50]
count1<-mycount(num1,1,50)
num2<-hc$order[51:100]
count2<-mycount(num2,101,150)
num3<-hc$order[101:150]
count3<-mycount(num3,51,100)
#准确率
correctrate<-(count1+count2+count3)/150
[1] 0.8
#验证标准化之后对聚类结果的影响
hirisdata<-scale(hirisdata)
#准确率
correctrate<-(count1+count2+count3)/150
[1] 0.52
2.4 总结:
1.在对鸢尾花数据集进行聚类时,K-means、K-medoids两种聚类方法的正确率相同,可见在数据集离群点和噪音不大的情况下,二者聚类效果基本相同,但当出现离群点和噪音时,应该考虑K-medoids聚类方法;
2.鸢尾花数据集进行聚类分析时,划分聚类效果优于层次聚类;
3.对于量纲不一致的数据,应进行标准化,但对于量纲一致的数据,标准化之后结果并不一定优于未标准化的数据得到的结果。