Python 数据分类与聚类分析(5)

分类问题概述

前面，我们已经讨论了关于数据预处理的一些细节。而在数据分析实战中，我们面对的一项重要工作，就是对数据进行分类。

举个例子，如果你拿到了一份来自电力部门的数据集，里面包含了一个城市的个人及企业每个月的用电数据，缴费数据等。我们就可以使用这份数据去对个人用户进行信用评估分类，调整不同类别用户的电卡授信额度，对高概率拖欠电费用户每月进行短信催缴提醒。我们也可以对企业用电进行分析，根据用电量和用电时段进行分类，然后做一些保障性供电的方案。这里面就涉及到大量的数据分类应用。

除此之外，像深度学习中会遇到的图像识别也是分类问题的应用。判断一张照片中的主体是猫还是狗？这都是典型的分类问题。生活中，像上面例子的情况还非常之多，几乎每个行业都会面临大量需要分类的问题。分类问题也是我们在数据分析中，遇到频率最高的问题。

分类的方法主要有

线性和非线性分类
支持向量机
决策树
随机森林
神经网络

程序如何进行一个简单分类？

在讨论各种分类方法前，我想先讨论一个可以帮助入门用户的问题，那就是程序如何进行一个简单的分类？

首先，我们回想一下人是如何在生活中完成事物分类的。例如区分房子和车？其实，当我们人在区分事物时，一般是抓住了一个或多个特征。例如，车有轮子、金属外壳、挡风玻璃等。所以，特征是对事物分类的关键要素。

当程序在进行分类是，它也是抓住了特征，只是这里的特征和我们所看到的特征有一些区别。一般情况下，我们看到的是图像，而程序看到的是数值。

如果我们想让程序来区分房子和车，最简单的方法就是先确定它们具有的共同特征。例如，物体都包含长度和高度。然后，我们让程序记录下一些数据（训练数据）。

为什么要聚类？

当我们拿到一些原始数据时，这些数据是没有任何规律可循的。聚类，就是发生数据之间内在联系的方法。举个形象一点的例子：动物园里有很多动物，在没有聚类的情况下，每一种动物都是单独的类别。如果我们统计每种动物特点，腿的数量、有无耳朵、皮毛颜色、有无尾巴等。最终，我们就可以使用聚类将所有的动物分成数个大类。除此之外，书籍聚类、文档聚类、房屋类型聚类等，都会使用到聚类算法。

聚类分析与分类的区别

有可能你会在分类和聚类之间疑惑。一般来讲，在一个机器学习任务或者数据分析实例中，我们会先采用聚类算法对数据进行处理。使用聚类算法对历史数据处理之后，就可以人为的给每一种类别打上标签。而这些存在标签的数据，就可以被应用到下一步的分类学习中。简而言之、在执行聚类之前，我们的数据没有任何类别可言。但在执行分类之前，我们应该已经有了类别，才能对新数据进行分类。

下面这张图，可能让你对分类和聚类理解的更加到位：

image.png

K-均值聚类是最常用的聚类方法之一。从它的名字来讲，K 代表最终将全部样本数据集和聚为 K 个类别。而「均值」代表在聚类的过程中，我们计算聚类中心点的特征向量时，需要采用求相邻样本点特征向量均值的方式进行。例如，我们将 X1=(x1, y1), X2=(x2, y2), X3=(x3, y3) 聚为一类时，中心点坐标 O(o1, o1) 为：o1 = (x1+x2+x3)/3, o2=(y1+y2+y3)/3。

在一个标准的 k 均值聚类过程中，我们首先要人为确定 k 值的大小，也就是聚类的数量。然后，我们会使用一种叫Forgy的方法初始化聚类，Forgy 也就是随机地从数据集中选择 k 个观测作为初始的均值点。例如，下图中，我们定 k=3，然后随机选择 3 个数据点初始化聚类。

image.png

然后，我们以这三个样本点（红色）为基准，将剩余的数据点按照与其距离最近的标准进行类别划分。

image.png

这样，就得到了通过绿色线条划分的 A, B, C 三个区域。

接下来，我们求解各区域中数据点集的中心点, 这一步也就是更新。然后得到三个紫色中心点。重复上面的步骤，得到由黄色线条划分的 D, E, F 三个区域。

image.png

重复上面的步骤，直到三个区域的中心点变化非常小或没有变化时，终止迭代。最终，就将全部数据划分为 3 了类别。

k 均值的迭代过程非常简单，但是非常有效。

K 值选择

看完上面的示例，你应该对聚类的过程比较清晰了。简而言之，完成一项聚类任务分为三步：

第一步：选择聚类数量，也就是 K 值的大小。
第二步：实施聚类算法，k-均值等。
第三步：对聚类结果进行人工标注和分析。

接下来，我们就来讨论一下如何选择 k 值。我们要相信，k 值的大小并不是一拍脑袋就随便选一个。一个数据集该聚为多少个类，应该有一个比较合理的选择机制。

当我们在使用 K-Means 聚类时，我们一般通过计算轮廓系数，来确定 k 值的大小。轮廓系数（Silhouette Coefficient），是聚类效果好坏的一种评价方式。轮廓系数结合内聚度（Cohesion）和分离度（Separation）两种因素，可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。

对于某一点 i，我们用 a(i) 表示 i 距离同类中其它点之间的距离的平均值，而 b(i) 表示 i 到所有非同类点的平均距离，然后取最小值。于是，i 的轮廓系数计算如下：

image.png

然后，我们计算数据集中所有点的轮廓系数，最终以平均值作为当前聚类的整体轮廓系数。整体轮廓系数介于 [-1,1] ，越趋近于 1 代表聚类的效果越好。

scikit-learn 中，sklearn.metrics.silhouette_score() 方法可以用来计算所聚类数据集的轮廓系数。

接下来，我们就举一个例子来计算聚类过程中的轮廓系数，这里我们使用 three_class_data.csv 数据集用于演示，你需要先下载该文件：

wget http://labfile.oss.aliyuncs.com/courses/764/three_class_data.csv

轮廓系数计算如下：

from sklearn.cluster import k_means
from sklearn.metrics import silhouette_score
from matplotlib import pyplot as plt
import pandas as pd

# 导入数据
data = pd.read_csv(r"c:\users\clemente\Desktop\three_class_data.csv", header=0)

x = data[["x", "y"]]

# 建立模型
score = []

# 依次计算 2 到 12 类的轮廓系数
for i in range(10):
    model = k_means(x, n_clusters=i + 2)
    score.append(silhouette_score(x, model[1]))

plt.subplot(1, 2, 1)
plt.scatter(data['x'], data['y'])

plt.subplot(1, 2, 2)
plt.plot(range(2, 12, 1), score)
plt.show()

我们可以看到，下方左图为原数据集散点图。而右图是依次计算 2，3，……，12 类的轮廓系数折线图。右图明显看到，当k取3 时，轮廓系数最大。也就是说，推荐我们将原数据集聚为 3 类。这也印证了我们肉眼的观测结果。

image.png

其实，我们在计算轮廓系数时，已经用到了 k 均值算法，将数据集从 2 类依次变化到 12 类。我们将 k 均值算法选择 k=3 时的聚类结果绘制出来。

from sklearn.cluster import k_means
from matplotlib import pyplot as plt
import pandas as pd

# 导入数据
data = pd.read_csv("three_class_data.csv", header=0)

x = data[["x", "y"]]

# 建立模型
model = k_means(x, n_clusters=3)

# 绘图
plt.scatter(data['x'], data['y'], c=model[1])
plt.show()

image.png

同样，我们可以绘制出k-均值聚类的决策边界。

image.png

其他聚类方法

除了我们会经常用到的 K-均值聚类算法，Scikit-learn 还为我们提供了一些常见的聚类算法。

Mini Batch K-Means Mini Batch K-Means 整体上和 K-Means 很相似，它是 K-Means 的一个变种形式。与 K-Means 不同的地方在于，其每次从全部数据集中抽样小数据集进行迭代。Mini Batch K-Means 算法在不对聚类效果造成较大影响的前提下，大大缩短了计算时间。

Affinity Propagation Affinity Propagation 又被称为亲和传播聚类。Affinity Propagation 是基于数据点进行消息传递的理念设计的。与 K-Means 等聚类算法不同的地方在于，亲和传播聚类不需要提前确定聚类的数量，即 K 值。但是运行效率较低。

均值漂移聚类 Mean Shift MeanShift 。Mean Shift 聚类的目的是找出最密集的区域，同样也是一个迭代过程。在聚类过程中，首先算出初始中心点的偏移均值，将该点移动到此偏移均值，然后以此为新的起始点，继续移动，直到满足最终的条件。Mean Shift 也引入了核函数，用于改善聚类效果。除此之外，Mean Shift 在图像分割，视频跟踪等领域也有较好的应用。

谱聚类 Spectral Clustering Spectral Clustering 。谱聚类同样也是一种比较常见的聚类方法，它是从图论中演化而来的。谱聚类一开始将特征空间中的点用边连接起来。其中，两个点距离越远，那么边所对应的权值越低。同样，距离越近，那么边对应的权值越高。最后，通过对所有特征点组成的网络进行切分，让切分后的子图互相连接的边权重之和尽可能的低，而各子图内部边组成的权值和经可能高，从而达到聚类的效果。谱聚类的好处是能够识别任意形状的样本空间，并且可以得到全局最优解。

层次聚类 Agglomerative Clustering Agglomerative Clustering 。层次聚类算法是将所有的样本点自下而上合并组成一棵树的过程，它不再产生单一聚类，而是产生一个聚类层次。层次聚类通过计算各样本数据之间的距离来确定它们的相似性关系，一般情况下，距离越小九代表相似度越高。最后，将相似度越高的样本归为一类，依次迭代，直到生成一棵树。由于层次聚类涉及到循环计算，所以时间复杂度比较高，运行速度较慢。

基于层次方法的平衡迭代规约和聚类 Birch Birch 是英文 Balanced Iterative Reducing and Clustering Using Hierarchies 的简称，名字实在太长。Birch 引入了聚类特征树（CF树），先通过其他的聚类方法将其聚类成小的簇，然后再在簇间采用 CF 树对簇聚类。Birch 的优点是，只需要单次扫描数据集即可完成聚类，运行速度较快，特别适合大数据集。

基于空间密度与噪声应用的聚类方法 DBSCAN DBSCAN 是英文 Density-based spatial clustering of applications with noise 的简称，名字同样很长。DBSCAN 基于密度概念，要求聚类空间中的一定区域内所包含的样本数目不小于某一给定阈值。算法运行速度快，且能够有效处理特征空间中存在的噪声点。但是对于密度分布不均匀的样本集合，DBSCAN 的表现较差。

接下来，我们利用上面的数据集对 8 种不同的聚类方法，来一次简单的横向对比。

image.png

我们可以看出，结果比较理想的有：KMeans, MiniBatchKMeans, MeanShift, SpectralClustering, AgglomerativeClustering。而 Birch 和 DBSCAN 在默认参数下只得到一个有效类别，AffinityPropagation 却得到了太多的类别。从聚类用时来看，AgglomerativeClustering 聚类效果不错，且用时较短。

聚类算法选择

面对上面的对比结果，并不是某几个算法不好，而是每一种方法适用的情况都各不相同。下面，我们就简单地说明一下，聚类算法的选择步骤：

如果已知 K 值，即聚类的数量：
样本数量 < 1 万，首选 Kmeans，效果不好再选择 SpectralClustering。
样本数量 > 1 万，首选 MiniBatch Kmeans。

如果 K 值未知：
样本数量 < 1 万，首选 MeanShift。
样本数量 > 1 万，依靠经验灵活应对了。

最后编辑于：2018.07.08 16:34:19

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,898评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,401评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,058评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,539评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,382评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,319评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,706评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,370评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,664评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,715评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,476评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,326评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,730评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,003评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,275评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,683评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,877评论 2赞 335

Python 数据分类与聚类分析(5)

分类问题概述

分类的方法主要有

程序如何进行一个简单分类？

为什么要聚类？

聚类分析与分类的区别

K 值选择

其他聚类方法

除了我们会经常用到的 K-均值聚类算法，Scikit-learn 还为我们提供了一些常见的聚类算法。

聚类算法选择

推荐阅读更多精彩内容