Unified Contrastive Learning in Image-Text-Label Space 论文笔记

论文地址:https://arxiv.org/abs/2204.03610
代码地址:https://github.com/microsoft/UniCL
微软的工作,在图像-文本对比学习的基础上引入了标签信息。

摘要

视觉识别目前使用两种类型的方法:基于图像-标签的监督学习,或基于图像-文本的对比学习。由于数据源和学习目标不同,两种学习各有优势,图像-标签的预训练方式能生成更具有判别力的表征,图像-文本的方式具有零样本识别能力。本文介绍一种图像-文本-标签的新学习范式(UniCL),在零样本、线性分类、微调和迁移学习场景都取得了不错的效果。

介绍

图像-标签的监督学习[10]具有强大的迁移学习能力[14,33],但收集数据和打标签的成本很高。
图像文本的对比学习如CLIP[48]和ALIGN[29]囊括很多语义场景,但抓取的图像文本对存在较多噪声,缺乏迁移学习所需的判别能力。
提出问题:能否用一个模型同时实现判别性表征和广义的语义场景?


图1上:本文定义的图像-文本-标签空间,列出了多个方法如CE、SupCon、CLIP、ALIGN等

图1下:图像-文本-标签样例

图像-标签监督学习[30]将图像映射到离散标签,训练过程中忽略了每个标签相关的文本概念,图像-文本对比学习[48]训练一对图像-文本编码器,则可以隐含假设每个图像-文本对有一个独特的标签。基于这个隐含假设,我们对每个图像-文本对编码唯一标签,如图1下所示。
本文主要贡献:

  • 我们引入了图像-文本-标签空间的新视角,它可以将常用的图像标签和图像-文本数据无缝统一起来。
  • 我们提出了一种在图像-文本-标签空间中的统一的对比学习方法,称为UniCL,它可以从图像标签和图像文本数据中的任何一种学习,也可以从两者中学习。
  • 广泛的实验表明,我们的UniCL可以有效地利用这两种类型的数据,并在标准的zero-shot、线性探测、完全微调和转移学习设置上普遍取得优异的性能。

相关工作

  • 监督学习:CNN相关[23, 26, 35, 36, 41, 54, 55],Transformer相关[15, 44, 59, 64, 67, 71, 76],损失函数交叉熵[47],边缘损失[43, 11, 52],监督对比损失[30],零样本分类[9,28,46,65,69,70]。
  • 文本-图像对比学习:主要分为两类,第一类学习通用的多模态融合层,受到BERT启发,基于遮蔽标记预测或者图像-文本匹配建立图像和文本的特征提取器[17,45,40,53,77,31,39,66],用于改善下游任务如VQA[2,27],图像说明[42,1],视觉常识推理[74]。第二类侧重于从自然语言监督中学习可转移的视觉表征,包括生成性方法[12,50]和对比性方法[16,29,48,62,63,78]。以上方法忽略了图像标签。
  • 自监督学习:图像的自监督学习主要是从原始像素中学习通用视觉表征,无需标签和文本的监督[19]。对比学习方法[3,6,8,21,24,57,58],最大限度地提高了同一图像地不同增强view之间的学习表征一致性,最小化了不同view的一致性,这种数据增强方法也扩展到了非对比性方法[4,7,20,38],尽管图像自监督可以无限量利用无标签数据[18],但缺乏语言关联,不适用于零样本任务。

方法

  1. 问题设置:定义数据格式如下。


    图2:数据格式
  2. 统一图像-文本-标签的对比度。
    图3:

    分别对图像和文本抽取特征、归一化得到u_i, v_i,计算内积s_{ij} = u^T_i v_j,分别得到图像-文本的对比损失及文本-图像的对比损失
    min_{\{θ,φ\}} L_{BiC} = L_{i2t} + L_{t2i},
  • 其中每一行
    L_{i2t} = −\sum_{i∈B}\frac{1}{|P(i)|}\sum_{k∈|P(i)|}log\frac{exp(\tau u_i^T v_k)}{\sum_{j∈B}exp(\tau u_i^T v_k)}
    where k∈ P(i) = \{k|k ∈ B, y_k = y_i\}.
  • 同理每一列
    L_{t2i} = −\sum_{j∈B}\frac{1}{|P(j)|}\sum_{k∈|P(j)|}log\frac{exp(\tau u_k^T v_j)}{\sum_{j∈B}exp(\tau u_i^T v_j)}
    where k∈ P(j) = \{k|k ∈ B, y_k = y_j\}.

3.3 讨论&性质
图3对比了我们提出的UniCL与CE、SupCon、CLIP几种方法的异同。
3.4 模型训练与优化
Dataloader的定义,图像-文本对的标签暂时全部定义为0,图像-标签对索引为y∈ [1, …, K],之后在函数Target中修改。在训练过程中\tau是一个初始化为1的可学习变量。

  • 伪代码
Algorithm 1: Training process for UniCL.
# n: batch size; d: projected feature dim
# The main training loop
1 for x, t, y in loader:
2   target = TargetM(y)
    # Image encoding: n×d
3   u = l2 normalize(fθ(x), dim=-1)
    # Text encoding: n×d
4   v = l2 normalize(fφ(t), dim=-1)
    # Cosine similarities: n×n
5   logits = exp(τ) · u * v.T
    # Bidirectional contrastive loss
6   i2t = SoftCE(logits, target)
7   t2i = SoftCE(logits.T, target.T)
8   loss = (i2t + t2i)/2
9   loss.backward()
# The Target Modification function
10 def TargetM(y):
    # Note y = 0 for image-text in loader
11   cap m = (y == 0).sum()
12   cls m = y[y > 0].max()
13   y[y == 0] = arange(0, cap m) + cls m + 1
14   return y.view(-1, 1) == y.view(1, -1)
# The SoftTargetCrossEntropy function
15 def SoftCE(s, t):
16   s = softmax(s, dim=-1)
17   loss = - (t * log(s)).sum(dim=-1)
18   return (loss/t.sum(dim=-1)).mean()

实验

  • 数据集:前4行是图像分类数据,文本描述来源于标签。后3行是图像-文本数据集,我们使用Spacy[25]抽取名词短语,统计出现次数大于5次的名词实体。


    数据集
  • 训练:我们对分类数据使用与CLIP[48]相同的提示策略和标记器,将类名填充到提示模板中,在输入文本编码器之前进行标记化。细节参考CLIP源码。
  • 评估:用于标准图像分类、零样本图像分类、线性分类、目标检测。
    本节中我们讨论两个问题:
    Q1:与SupCon相比我们的UniCL在图片分类上表现如何?
    Q2:我们的图像-文本-标签方法有何独特优势?


    表2:提出方法在图像分类上的精度对比

    在CIFAR-10、CIFAR-100上优于CE和SupCon,在ImageNet-1K上与SupCon不相上下,且相对于SupCon有以下优势:1)端到端训练,2)可以直接用于零样本学习。


    增加额外的图像-文本数据

    与CLIP的对比

    在多个数据集上的零样本实验

结论

提出了UniCL,一个用于通用多模态表征学习的新的对比性学习范式。它建立在图像-文本-标签空间中,并由我们的统一对比学习方法所支持。这样一个统一的范式促使图像-标签和图像-文本对之间的无缝协同,以进行辨别性和语义丰富的表征学习,这带来了对零点射击、线性探测、微调基准的普遍改进。此外,我们还讨论了它与现有学习方法的联系,并通过经验证明,我们的学习方法在纯图像-标签数据上是一个很好的替代学习者。

  • 讨论:在我们的提交过程中,我们主要关注视觉任务,如图像识别和物体检测,并将我们的模型建立在公共数据集上。然而,我们向读者推荐Florence[72]的大规模预训练以及对包括VQA和视频理解在内的一系列任务的评估。我们注意到Florence使用了大量的私人数据,因此推荐本文中的这套实验作为未来学术研究的基线。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,911评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,014评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,129评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,283评论 1 264
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,159评论 4 357
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,161评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,565评论 3 382
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,251评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,531评论 1 292
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,619评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,383评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,255评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,624评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,916评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,199评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,553评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,756评论 2 335

推荐阅读更多精彩内容