Unified Contrastive Learning in Image-Text-Label Space 论文笔记

论文地址：https://arxiv.org/abs/2204.03610
代码地址：https://github.com/microsoft/UniCL
微软的工作，在图像-文本对比学习的基础上引入了标签信息。

摘要

视觉识别目前使用两种类型的方法：基于图像-标签的监督学习，或基于图像-文本的对比学习。由于数据源和学习目标不同，两种学习各有优势，图像-标签的预训练方式能生成更具有判别力的表征，图像-文本的方式具有零样本识别能力。本文介绍一种图像-文本-标签的新学习范式（UniCL），在零样本、线性分类、微调和迁移学习场景都取得了不错的效果。

介绍

图像-标签的监督学习[10]具有强大的迁移学习能力[14，33]，但收集数据和打标签的成本很高。
图像文本的对比学习如CLIP[48]和ALIGN[29]囊括很多语义场景，但抓取的图像文本对存在较多噪声，缺乏迁移学习所需的判别能力。
提出问题：能否用一个模型同时实现判别性表征和广义的语义场景？

图1上：本文定义的图像-文本-标签空间，列出了多个方法如CE、SupCon、CLIP、ALIGN等

图1下：图像-文本-标签样例

图像-标签监督学习[30]将图像映射到离散标签，训练过程中忽略了每个标签相关的文本概念，图像-文本对比学习[48]训练一对图像-文本编码器，则可以隐含假设每个图像-文本对有一个独特的标签。基于这个隐含假设，我们对每个图像-文本对编码唯一标签，如图1下所示。
本文主要贡献：

我们引入了图像-文本-标签空间的新视角，它可以将常用的图像标签和图像-文本数据无缝统一起来。
我们提出了一种在图像-文本-标签空间中的统一的对比学习方法，称为UniCL，它可以从图像标签和图像文本数据中的任何一种学习，也可以从两者中学习。
广泛的实验表明，我们的UniCL可以有效地利用这两种类型的数据，并在标准的zero-shot、线性探测、完全微调和转移学习设置上普遍取得优异的性能。

方法

问题设置：定义数据格式如下。

图2：数据格式
统一图像-文本-标签的对比度。

图3：

分别对图像和文本抽取特征、归一化得到 $u_i, v_i$ ，计算内积 $s_{ij} = u^T_i v_j$ ，分别得到图像-文本的对比损失及文本-图像的对比损失
$min_{\{θ,φ\}} L_{BiC} = L_{i2t} + L_{t2i},$

其中每一行
$L_{i2t} = −\sum_{i∈B}\frac{1}{|P(i)|}\sum_{k∈|P(i)|}log\frac{exp(\tau u_i^T v_k)}{\sum_{j∈B}exp(\tau u_i^T v_k)}$
where $k∈ P(i) = \{k|k ∈ B, y_k = y_i\}.$
同理每一列
$L_{t2i} = −\sum_{j∈B}\frac{1}{|P(j)|}\sum_{k∈|P(j)|}log\frac{exp(\tau u_k^T v_j)}{\sum_{j∈B}exp(\tau u_i^T v_j)}$
where $k∈ P(j) = \{k|k ∈ B, y_k = y_j\}.$

3.3 讨论&性质
图3对比了我们提出的UniCL与CE、SupCon、CLIP几种方法的异同。
3.4 模型训练与优化
Dataloader的定义，图像-文本对的标签暂时全部定义为0，图像-标签对索引为 $y∈ [1, …, K]$ ，之后在函数Target中修改。在训练过程中 $\tau$ 是一个初始化为1的可学习变量。

伪代码

Algorithm 1: Training process for UniCL.
# n: batch size; d: projected feature dim
# The main training loop
1 for x, t, y in loader:
2   target = TargetM(y)
    # Image encoding: n×d
3   u = l2 normalize(fθ(x), dim=-1)
    # Text encoding: n×d
4   v = l2 normalize(fφ(t), dim=-1)
    # Cosine similarities: n×n
5   logits = exp(τ) · u * v.T
    # Bidirectional contrastive loss
6   i2t = SoftCE(logits, target)
7   t2i = SoftCE(logits.T, target.T)
8   loss = (i2t + t2i)/2
9   loss.backward()
# The Target Modification function
10 def TargetM(y):
    # Note y = 0 for image-text in loader
11   cap m = (y == 0).sum()
12   cls m = y[y > 0].max()
13   y[y == 0] = arange(0, cap m) + cls m + 1
14   return y.view(-1, 1) == y.view(1, -1)
# The SoftTargetCrossEntropy function
15 def SoftCE(s, t):
16   s = softmax(s, dim=-1)
17   loss = - (t * log(s)).sum(dim=-1)
18   return (loss/t.sum(dim=-1)).mean()

实验

数据集：前4行是图像分类数据，文本描述来源于标签。后3行是图像-文本数据集，我们使用Spacy[25]抽取名词短语，统计出现次数大于5次的名词实体。

数据集
训练：我们对分类数据使用与CLIP[48]相同的提示策略和标记器，将类名填充到提示模板中，在输入文本编码器之前进行标记化。细节参考CLIP源码。
评估：用于标准图像分类、零样本图像分类、线性分类、目标检测。
本节中我们讨论两个问题：
Q1：与SupCon相比我们的UniCL在图片分类上表现如何？
Q2：我们的图像-文本-标签方法有何独特优势？

表2：提出方法在图像分类上的精度对比

在CIFAR-10、CIFAR-100上优于CE和SupCon，在ImageNet-1K上与SupCon不相上下，且相对于SupCon有以下优势：1）端到端训练，2）可以直接用于零样本学习。

增加额外的图像-文本数据

与CLIP的对比

在多个数据集上的零样本实验

结论

提出了UniCL，一个用于通用多模态表征学习的新的对比性学习范式。它建立在图像-文本-标签空间中，并由我们的统一对比学习方法所支持。这样一个统一的范式促使图像-标签和图像-文本对之间的无缝协同，以进行辨别性和语义丰富的表征学习，这带来了对零点射击、线性探测、微调基准的普遍改进。此外，我们还讨论了它与现有学习方法的联系，并通过经验证明，我们的学习方法在纯图像-标签数据上是一个很好的替代学习者。

讨论：在我们的提交过程中，我们主要关注视觉任务，如图像识别和物体检测，并将我们的模型建立在公共数据集上。然而，我们向读者推荐Florence[72]的大规模预训练以及对包括VQA和视频理解在内的一系列任务的评估。我们注意到Florence使用了大量的私人数据，因此推荐本文中的这套实验作为未来学术研究的基线。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,911评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,014评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 142,129评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,283评论 1赞 264
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,159评论 4赞 357
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,161评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,565评论 3赞 382
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,251评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,531评论 1赞 292
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,619评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,383评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,255评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,624评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,916评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,199评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,553评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,756评论 2赞 335

Unified Contrastive Learning in Image-Text-Label Space 论文笔记

Unified Contrastive Learning in Image-Text-Label Space 论文笔记

摘要

介绍

相关工作

方法

实验

结论

推荐阅读更多精彩内容