论文粗读“Dual Mutual Information Constraints for Discriminative Clustering”

Li, Hongyu et al. “Dual Mutual Information Constraints for Discriminative Clustering.” AAAI Conference on Artificial Intelligence (2023).

摘要导读

深度聚类是机器学习和数据挖掘中的一项基本任务，旨在学习面向聚类的特征表示。在以往的研究中，大多数的深度聚类方法都遵循自监督表示学习的思想通过最大化相似实例对的一致性，而忽略特征冗余对聚类性能的影响。因此，作者设计了一种基于深度对比聚类结构的双互信息约束聚类方法DMICC，其中双互信息约束给出了坚实的理论保证和实验验证。具体来说，在特征层面上，通过最小化所有维度上的互信息来减少特征之间的冗余，以鼓励神经网络提取更多可辨别的特征。在样本层面，最大化相似实例对的互信息，以获得更无偏和鲁棒的表示。双互信息约束同时作用，相互补充，共同优化适合聚类任务的更好的特征。

具体的概念图如下所示：

粗浅一点解释的话，就是将特征选择和表示学习利用互信息做成了相互促进补充的关系，从而学习适合下游任务的特征表示。

方法浅析

首先通过两个数据增强来构造数据对。然后，使用参数共享网络从不同的数据扩充中提取特征。并且对从两个分支中提取的特征进行IMI约束，然后采用非参数SoftMax，对每个分支进行FMI约束，用于学习可辨别的样本特征。

Feature Redundancy-Minimization Module
该模块的关注重点是特征冗余，在特征层面实现了互信息最小化约束。该模块的目标是通过这种方式有效地减少特征维度之间的冗余性，获得更多的鉴别特征，以提升深度聚类的效率。在信息论中，熵是不确定性的度量，这里将它记为 $H$ 。以下是涉及到的一些互信息计算的公式：(信息熵是考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望)
变量 $X$ 的熵： $H(X)= -\sum_{x \in X} p(x)\log p(x)$ ， $p(x)$ 是 $x$ 发生的概率。
条件熵：

论文中用到的互信息公式： $I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y)\log \frac{p(x, y)}{p(x)p(y)}$
假设由前面的特征抽取器提取的特征矩阵为 $F^1 \in \mathbb{R}^{b \times d}$ 和 $F^2 \in \mathbb{R}^{b \times d}$ ，并使用 $f^1_l$ 和 $f^2_l$ 分别表示 $F^1$ 和 $F^2$ 的第 $l$ 列。忽略下标，给定特征矩阵 $F$ ，可以表示为 $d$ 个列向量，即 $F=[f_1, f_2, \cdots, f_d]$ 。因此，要实现特征层面的互信息的最小化，其目标函数可以写作： $\min \frac{1}{d^2}\sum_{i}^d\sum_j^dI(f_i, f_j)$ 。
--
作者思路：因为要计算特征层面信息的最小化，根据互信息公式，我们需要知道特征维度的联合概率分布 $p(f_i, f_j)$ ，以及边缘分布概率 $p(f_i)$ 和 $p(f_j)$ 。作者认为维度之间相关性的度（degree）和联合概率分布有很强的联系，即，当维度的相关性显著时，联合概率分布的值较高。因此，作者假设联合概率分布 $p(f_i, f_j)$ 可以在一定程度上被维度之间的相关值所代替。具体来说，可以首先构造协方差矩阵 $cov(f_i,f_j)$ 并对其进行归一化，最后的结果作为联合概率分布 $p(f_i, f_j)$ 。
--
具体的操作为：对 $F$ 进行归一化，利用内积得到相关性矩阵 $C =(F^T F)\in \mathbb{R}^{d \times d}$ 。
根据前面的假设，
联合分布 $p(f_i, f_j)$ 可以由以下形式计算： $p(f_i, f_j)=\frac{C(f_i, f_j)}{sum(C)}$ 。其中， $C(f_i, f_j)$ 表示 $f_i$ 和 $f_j$ 的相关性得分， $sum(C)$ 表示矩阵 $C$ 的和。
边缘分布 $p(f_i) = \sum_{j=1}^d p(f_i, f_j)$ ， $p(f_j) = \sum_{i=1}^d p(f_i, f_j)$
由此，该模块的FMI约束损失 $\mathcal{L}_{FMI}$ 可以表示为如下的形式：

其中， $\eta$ 是一个平衡超参数，用来缩放边际概率分布。
--
方法有效性的证明这里不再赘述，可以移步原文
Instance Similarity-Maximization Module
Instance discrimination Backbone 实例识别的关键是：假设每个实例都代表一个不同的类。假设有 $n$ 个图像 $x_1,\cdots,x_n$ 及其对应的特征 $v_1, \cdots, v_n$ 。作者这里使用 $v_i$ 作为权重向量的代替。
因此该模块的重点在于学习一个嵌入映射函数 $f_{\theta}$ ，其中 $v=f_{\theta}(x)$ 。这里 $v$ 通过一层 $L_2$ 正则化层强制 $||v||=1$ 。
根据任务设定，每个样本instance都是一个类别，那么依据给定样本 $x$ 的表示 $v$ 分到第 $i$ 个类别的概率可以表示为如下的形式 $p(i|v)=\frac{\exp(v_i^Tv/\tau)}{\sum_{j=1}^n\exp(v_j^Tv/\tau)}$ ，这里是图中的非参的softmax操作。 $\tau$ 是一个温度超参。（虽然但是，这里的 $v_i$ 和 $v$ 对应的shape写的不是很清楚。按照向量乘法的规则来说， $v_i$ 和 $v$ 应该都是列向量，即其shape应该为 $d \times 1$ 。样本标记 $i$ 对应的是第 $i$ 个类别，因为这里将每个样本分为单独的一类， $v$ 是给定样本 $x$ 对应的表示）
而对于Instance discrimination Backbone ，其优化目标为最大化联合概率分布 $\prod_{i=1}^np(i|f_{\theta}(x_i))=\prod_{i=1}^np(i|v_i)$ 即将每个样本无误地分配到自己特定的类别中。在神经网络中其负对数优化函数如下：

--
附图为带参数的softmax：

以及pyTorch官方的softmax函数定义：

--
IMI Constraint 作者试图引入对比学习来最大限度地提高对由同一组图像生成的增强实例对的MI约束，从而产生更无偏和鲁棒的特征。
假设原始的图像输入为 $X$ ，经过数据增强得到的图像分别为 $X^1$ 和 $X^2$ ，其对应的矩阵为 $F^1=[v^1_1;\cdots;v^1_b]$ 和 $F^2=[v^2_1;\cdots;v^2_b]$ 。其中 $v_i^1=f_{\theta}(x_i^1)$ , $v_i^2=f_{\theta}(x_i^2)$ 。目标是最大化相应表示的MI：

假设在基于参数共享模型的两个分支上的特征表示的大小都是

[b, d]

。
其联合分布可以表示为：

P=\frac{1}{b}\sum_{i=1}^bF^1(F^2)^T

。
边缘分布

P(v_i^1)=\sum_{j=1}^dP(v^1_i, v^2_j)

P(v_j^2)=\sum_{i=1}^dP(v^1_i, v^2_j)

（这里可以想成是

i

来自第一个

b

，而

j

是第二个

b

的索引）。
考虑到矩阵的对称性，

P

由

(P+P^T)/2

进行对称化。所以有如下的IMI形式：

I(F^1, F^2)=\sum_{i=1}^d\sum_{j=1}^dP(v_i^1, v_j^2)\log\frac{P(v_i^1, v_j^2)}{P(v_i^1)P( v_j^2)}

其对应的损失函数形式为：

\mathcal{L}_{IMI}=-\sum_{i=1}^d\sum_{j=1}^dP(v_i^1, v_j^2)\log\frac{P(v_i^1, v_j^2)}{\gamma^2 P(v_i^1)P( v_j^2)}

其中

\gamma

是一个非零常数。在实验中，原始的MI解可能会得到平凡的解。因此，考虑通过放宽边缘分布来进一步增加熵的共享性来避免平凡解。

总体损失
不失一般性，模型整体的目标函数为：

其中三个损失分别为实例判别损失、实例相似度最大化损失和特征冗余最小化损失。
--
目标函数的有界性证明请移步原文，这里不进行赘述
聚类
从模型设计的角度看，应该是使用设计的网络和损失函数进行了表示的学习 $F^1$ 和 $F^2$ 并直接使用 $k$ -means进行聚类。

从论文的整体来看，主要是将特征选择和表示学习利用互信息结合在一起。在笔者看来，无论是否引入实例识别部分（Instance discrimination Backbone ）好像对两种互信息的约束都没有影响，因此，对于模型中为什么一定要存在这一部分交代的不是很明白。可能需要去再阅读下作者引用的idea的原文。。

最后编辑于：2023.10.29 12:45:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,319评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,801评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,567评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,156评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,019评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,090评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,500评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,192评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,474评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,566评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,338评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,212评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,572评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,890评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,169评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,478评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,661评论 2赞 335

论文粗读“Dual Mutual Information Constraints for Discriminative Clustering”

摘要导读

方法浅析

推荐阅读更多精彩内容