Unsupervised learning methods(Similarity & Clustering)

Unsupervised learning methods 无监督学习就是直接对输入数据进行建模例如clustering--->给个迭代方程让其自己运行
Clustering method 聚类就是将大量无标签的记录，根据它们的特点把它们分成簇，最后结果应当是相同簇之间相似性要尽可能大，不同簇之间相似性要尽可能小。

1:Similarity matching

1:How to calculate the distance between the two different objects?

Euclidean distance:(欧几里得距离/欧氏距离)
公式（二维）：dis(A,B) = ((Xb-Xa)^2+(Yb-Ya)2)^(1/2)
(多维)：

截屏2022-01-04 22.25.44.png

就其意义而言，欧氏距离越小，两个用户相似度就越大，欧氏距离越大，两个用户相似度就越小。
在日常使用中，一般习惯于将相似度与1类比，相似度在数值上反映为0<=Similarity(X,y)<=1，越接近1，相似度越高；
那么我们在使用欧几里得距离时，可以通过 1/（1+Distance(X,Y)）来贯彻上一理念。

2:数据有不同类型，如何进行数据的规范化进而计算距离：

样本属性可能有的类型有：数值型，命名型，布尔型……在计算样本之间的距离时，需要将不同类型属性分开计算，最后统一相加，得到两个样本之间的距离。下面将介绍不同类型的属性的数据计算方法。

2.1:数值型
对于全部都是连续的数值型的样本来说，首先，对于值相差较大的属性来说，应该进行归一化，变换数据，使其落入较小的共同区间。
2.11:min-max标准化(Min-max normalization)(normalization归一化)

也叫离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下：

image.png

其中Vi 表示在第i条记录在A这个属性上的取值，MINA表示A这个属性上的最小值，new_maxA表示我们希望映射到的区间的右边界，其他同理。

这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

2.22：Z-score 规范化(standardization标准化)
也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：

image.png

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

2.23:小数定标规范化
通过移动小数点的位置来进行规范化。小数点移动的位数取决于该属性数据取值的最大绝对值。
例如：属性A的取值范围是-800到70，那么就可以将数据的小数点整体向左移三位即[-0.8,0.07]

3:计算距离：

3.1：Manhattan distance
在曼哈顿街区要从一个十字路口开车到另一个十字路口，驾驶距离显然不是两点之前的直线距离。这个实际的驾驶距离就是"曼哈顿距离"。曼哈顿距离也称“城市街区距离”。

image.png

图中蓝色和黄色的线代表曼哈顿距离，绿色的线代表欧几里得距离即欧式距离
计算公式:

image.png

3.2:Jaccard distance
Jaccard相似指数用来度量两个集合之间的相似性，它被定义为两个集合交集的元素个数除以并集

Jaccard相似系数

Jaccard距离用来度量两个集合之间的差异性，它是Jaccard的相似系数的补集，被定义为1减去Jaccard相似系数。

Jaccard Distance

3.3:Hellinger Distance
Hellinger Distance 又称 Bhattacharyya distance，因为作者的姓氏叫 Anil Kumar Bhattacharya。在概率和统计学中，Hellinger Distance 被用来衡量两个概率分布之间的相似性，属于 f-divergence 的一种。而 f-divergence 又是什么呢？一个 f-divergence 是一个函数 Df(P||Q) 用来衡量两个概率分布P and Q 之间的不同。
我们假设基于[n]，有两个概率分布 P = {pi}i∈[n], Q = {qi}i∈[n] 。一个很自然的方法来定义两者之间的距离就是考虑两个概率向量 P and Q 之间的 L1-distance:

image.png

总的变换距离（the total variation distance），记为 Δ(P, Q)，是上述等式的一半。
显然：

image.png

对于概率分布 P = {pi}i∈[n], Q = {qi}i∈[n]，两者之间的Hellinger distance 定义为：

image.png

根据定义，Hellinger distance 是一种满足三角不等式（triangle inequality）的度量。根号下2是为了确保对于所有的概率分布，都有 h(P, Q) <= 1。

3.4 Domain-Specific
3.5 For Boolean
对于全是布尔型的样本来说，计算方式如下：

image.png

上表表示对与不同的样本i,j，统计它们布尔型同时为1的属性个数，同时为0的属性个数，分别为1和0的属性个数，它们的距离计算方式如下所示：

image.png

这个公式的含义其实就是两个样本之间，取值不同的属性的数量与所有属性的数量的比值。

4:Clustering

Use'Similarity' measure to group data items.
主要思想：首先人为决定将要将数据集分为k个簇，然后根据簇内部相似性要尽可能大，簇之间相似性要尽可能小的思想，将样本分到不同的簇当中去。

4.1:Hierarchical Clustering(分层聚类)

中心思想：
层次聚类，是一种很直观的算法。顾名思义就是要一层一层地进行聚类，可以从下而上地把小的cluster合并聚集，也可以从上而下地将大的cluster进行分割。似乎一般用得比较多的是从下而上地聚集，因此这里我就只介绍这一种。
所谓从下而上地合并cluster，具体而言，就是每次找到距离最短的两个cluster，然后进行合并成一个大的cluster，直到全部合并为一个cluster。整个过程就是建立一个树结构，类似于下图。

Hierarchical Clustering

那么，如何判断两个cluster之间的距离呢？一开始每个数据点独自作为一个类，它们的距离就是这两个点之间的距离。而对于包含不止一个数据点的 cluster，就可以选择多种方法了。最常用的，就是average-linkage，即计算两个cluster各自数据点的两两距离的平均值。类似的还有single-linkage/complete-linkage，选择两个cluster中距离最短/最长的一对数据点的距离作为类的距离。

公式

image.png

Hierarchical Clustering特点：
1）Start with each node as its own Cluster

Merge Cluster based on Similarity
Iterate until there is only 1 Cluster

4.2: Clustering around Centroids(围绕中心点聚类)

e.g K-means Algorithm
中心思想：

选定 K 个中心Uk的初值。这个过程通常是针对具体的问题有一些启发式的选取方法，或者大多数情况下采用随机选取的办法。因为前面说过 k-means 并不能保证全局最优，而是否能收敛到全局最优解其实和初值的选取有很大的关系，所以有时候我们会多次选取初值跑 k-means ，并取其中最好的一次结果。
2)将每个数据点归类到离它最近的那个中心点所代表的 cluster 中。
3)用公式

image.png

计算出每个 cluster 的新的中心点。
4)重复第二步，一直到迭代了最大的步数或者前后的J的值相差小于一个阈值为止。

Find Points and Calculate centroids

4.3:K-medoids Method

算法过程：
1)随机选择样本集中的k个样本作为中心点。
2)计算剩下的样本到这k个中心点之间的距离，把样本全部分配到不同的cluster中。
3)对于每一个中心点，每次用一个非中心点代替当前中心点，并重新分配cluster，计算代价函数。如果代替之后的代价比之前代价小，那么就用这个非中心点代替当前中心点。
4)重复2-3，直到中心点不再变化。

K-medoid method 相对k-means 来说比较不受离群点的干扰。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,902评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,037评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,978评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,867评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,763评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,104评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,565评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,236评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,379评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,313评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,363评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,034评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,637评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,719评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,952评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,371评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,948评论 2赞 341

Unsupervised learning methods(Similarity & Clustering)

1:Similarity matching

2:数据有不同类型，如何进行数据的规范化进而计算距离：

3:计算距离：

4:Clustering

推荐阅读更多精彩内容