CLIP

这篇文章发自OpenAI, 首先给出该文的地址以及对应的代码:
Blog paper code


该模型是zero-shot模式(没有在任务数据集上做训练),迁移能力很强,甚至预训练好的模型可以在任意视觉任务取得不错的效果,作者在30多个训练任务上都做了实验,效果相当显著,效果最好的就是在ImageNet上的结果,Clip在不适用ImageNet数据集(128万张图片)的情况下就能何之前有监督学习的res50取得同样好的效果。下图主要展示clip的模型原理:

Contrastive pre-training

1) 训练

1. 预训练对比学习(Contrastive pre-training)
该模型通过自然语言处理得到一部分监督信号可以训练迁移效果很好的视觉模型,所以这是一篇文字图片的多模态的工作。模型的输入是文字与图片的配对,相对应的图上图是一只小狗,对应的文字pepper也是一只小狗。图片首先通过图片编码器(resnet或transformer等)得到一些特征,文本也通过文本编码器获得文本的特征,假设每个training batch里面有n个这样的图片文本匹配对就能得到n个这种图片特征以及对应的文本特征,clip就是在这些特征上面做对比学习的。这里的正样本就是文字图片匹配对,因为描述的是一个东西所以配对矩阵对角线就是正样本(N个正样本),剩下的不是对角线上的匹配对就不是正样本了(N^2-N个负样本),如下图所示:


这样一旦有了正负样本模型就可以通过对比学习训练出来了。为了训练这个模型,openAI专门收集了这个文字图片匹配数据集有4亿个。

2)推理

2. 从文本标注中制作数据分类器(Create dataset classifier from label text)
这里使用的是prompt template, 这里的prompt在最近的cv以及nlp都比较火,这里可以理解为就是提示,引导的意思,CLIP就是先把ImageNet这1000个类别的名称变成一个句子,这里我们仅仅需要添加我们感兴趣的标签信息。比如说一个图片表述的是一个dog,这里的文字描述句子就是A photo of dog。 ImageNet有1000个类别,这样就会有1000个句子,再将其输入到我们之前预训练好的文本编码器(Text Encoder),就会得到1000个文本特征T_1, T_2, T_3 ... T_N, 这里用prompt template单词生成句子的原因是整个模型在训练预训练模型的时候,图片每次看到的时候都是一个句子,所以在推理的时候也希望保持一致,另外一个原因就是往往一个单词是有多种意思的,比如说remote其实是遥控器的意思,但是会被解读为遥远的的意思,这样就会出现distribution gap问题,关于怎么讲文字变成句子也是很有讲究的,有多种方法,这篇文字在prompt engineering以及prompt ensemble两种方式中也有详细的解释,可以进一步提高模型的准确率。比如说你知道你描述的是数据集是一个描述动物的数据集,那么你提供的prompt template可以是这句话A photo of a {label}, a type of pet, 这种提示模板作者用到了80个, 以下是80个提示模板

prompt template

3. 使用zero-shot进行预测(use for zero-shot prediction)
这样不论任何一张照片,将其传送给图片编码器得到图片特征I_1, 我只需要拿图片特征预所有的文本特征去做匹配(cosine similarity)就是去计算相似性,然后通过softmax得到概率分布,查找相似度即概率最大的,也就是说图像特征与哪个文本特征最相似,我们就把该文本特征所对应的那个句子挑选出来从而来完成这个分类任务,所以在CLIP真正在使用的时候这些标签是可以更改的,不光是ImageNet这1000个类别,你可以换成任何一个单词, 这里的图片也不需要ImageNet里面的图片可以任何图片,依旧可以看出这个图片包括哪些物体,比如一张图片你就不断的问你是不是飞机,你是不是狗,你是不是汽车等,像一个三轮车图片可以分类出,以前监督学习最多只能分类成车或者自行车。

3)效果

下面我们来看下模型效果


效果

在ImageNet数据集上,在第一行中之前训练的ResNet101有76.2%的准确率,在CLip-vit-L的准确率也是76.2%。但是在后面几行中我们发现基于CLIP方法的准确率是由很大的提升的。因为和自然语言结合,导致CLIP学出来的视觉特征和我们用语言描述的某个物体文字的语义联系到了一起所以该模型学习到的特征语义非常强迁移的效果非常好。

4)模型效果

linear probe(冻结抽取特征)训练分类头进行分类

可以看出clip对简单任务效果好,对难的任务(数量计数,纹理识别)效果较差。

5)基于CLIP应用

StyleCLIP

CLIPDraw


目标检测任务



视频检索(检索视频中出现的物体)

6)论文细节

  1. 伪代码


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容