爱可可老师7月到9月的推荐(不包括MLPs和Vision Transformers,这两类单独一个专题)
Effective gene expression prediction from sequence by integrating long-range interactions
Z Avsec, V Agarwal, D Visentin, JR Ledsam...
[DeepMind]
基于长程交互整合的序列基因表达有效预测。非编码DNA如何决定不同类型细胞的基因表达是一个尚未解决的主要问题,人类遗传学的关键下游应用取决于改进的解决方案。本文通过使用一种称为Enformer的深度学习架构,整合基因组中的长程交互(长达100kb)信息,大幅提高DNA序列基因表达预测精度。这一改进产生了对通过大规模平行报告测定的自然遗传变体和饱和突变基因表达的更准确的变体效应预测。此外,Enformer学会了直接从DNA序列中预测增强子-促进子的交互,与直接将实验数据作为输入的方法相比具有竞争力。预计这些进展将使人类疾病关联的精细测绘更加有效,并提供一个框架来解释顺式调控进化。
Exploring the Limits of Large Scale Pre-training
大规模预训练局限性探索
S Abnar, M Dehghani, B Neyshabur, H Sedghi
[Google Research]
Do Self-Supervised and Supervised Methods Learn Similar Visual Representations?
T G Grigg, D Busbridge, J Ramapuram, R Webb
[Apple]
自监督和监督方法学到的视觉表示是否类似?尽管最近一些视觉自监督深度学习的技术取得了成功,但对最终学到的表示的研究仍然有限。通过利用最近在比较神经表示方面的进展,本文在这个方向上进行了探索,在一个共同的架构中,对简单的图像数据的约束性SSL算法(SimCLR)和监督进行比较。发现这两种方法通过不同的方式学习相似的中间表示,并且表示在最后几层迅速发散。对这种分歧进行了研究,发现它是由这些层对不同的学习目标的强烈反应造成的。SimCLR的目标隐含了中间层的监督目标,但反过来却不是这样。SimCLR学习了增强不变性,与监督学习形成了鲜明的对比,监督学习则强烈地投射到类的单纯性。这表明,不是解决SimCLR目标的最终表示结构的相似性促进了强大的经验性能。相反,是中间表示的相似性,即沿途碰巧学到的类信息特征。本文工作特别强调了学习的中间表示的重要性,并提出了辅助任务设计的重要问题。
Stochastic Contrastive Learning
J Ramapuram, D BusBridge, X Suau, R Webb
[Apple]
随机对比学习。虽然最先进的对比学习(Self-Supervised Learning,SSL)模型产生的结果与有监督的同类模型相比具有竞争力,但它们缺乏推断潜变量的能力。相比之下,规定的潜变量(LV)模型能归因于不确定性,诱发特定任务的压缩,并在总体上允许更多的可解释性表示。本文在大规模对比性SSL模型中引入了LV近似值。证明了这一补充可以提高下游性能(在CIFAR10和ImageNet上使用ResNet50的测试top-1微调性能分别达到96.42%和77.49),并产生高度压缩的表示(减少588倍),对可解释性、分类和回归的下游任务很有用。
Localizing Objects with Self-Supervised Transformers and no Labels
O Siméoni, G Puy, H V. Vo, S Roburin, S Gidaris, A Bursuc, P Pérez, R Marlet, J Ponce
[Valeo.ai & Inria and DIENS]
自监督Transformer免标签目标定位。在没有监督的情况下对图像集合中的物体进行定位,有助于避免昂贵的标注。本文为该问题提出一种简单方法,利用以自监督方式预训练的视觉Transformer的激活特征。所提出的方法LOST,不需要任何外部的候选目标,也不需要对图像集进行任何探索;只对一张图像进行操作。然而,在PASCAL VOC 2012上,所提出方法比最先进的目标发现方法多出了8个CorLoc点。在被发现的物体上训练一个与类别无关的检测器可以将结果再提高7分。在无监督目标发现任务上显示了很好的结果。LOST发现的框具有很高的精度,可以作为伪真值来训练一个类别诊断检测器,从而进一步提高物体发现的性能。LOST框也可以用来训练一个无监督目标检测器,与弱监督的同类检测器相比,在几个类别中产生了有竞争力的结果。
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations
M Zolfaghari, Y Zhu, P Gehler, T Brox
[University of Freiburg & Amazon]
CrossCLR:多模态视频表示跨模态对比学习。对比学习能通过从负样本集中对比出正配对来灵活定义强大的损失。最近,这一原则也被用于学习视频和文本的跨模态嵌入,但没有充分挖掘其潜力。特别是,之前的损失没有考虑到模态内部的相似性,导致了低效的嵌入,因为同一内容被映射到嵌入空间的多个点。通过CrossCLR,提出一种对比性损失,解决了该问题。根据输入嵌入定义了高度相关的样本集,并将它们从负样本中排除,以避免出现假阴性问题。这些原则能够持续改善所学到嵌入的质量。用CrossCLR学习的联合嵌入在Youcook2和LSMDC数据集的视频文本检索和Youcook2数据集的视频字幕方面的技术水平有了很大提高。还通过为其他模式对学习改进的联合嵌入来证明这一概念的通用性。
PP-LCNet: A Lightweight CPU Convolutional Neural Network
PP-LCNet:轻量CPU卷积神经网络
A Comprehensive Survey and Performance Analysis of Activation Functions in Deep Learning
S R Dubey, S K Singh, B B Chaudhuri
[Indian Institute of Information Technology & Indian Statistical Institute]
深度学习激活函数全面综述与性能分析。近年来,神经网络在解决众多问题方面有了巨大的发展。各种类型的神经网络已被引入以处理不同类型的问题。然而,所有神经网络的主要目标都是利用层的层次结构将非线性可分的输入数据转化为更线性可分的抽象特征。这些层是线性和非线性函数的组合。最流行和常见的非线性层是激活函数(AF),如Logistic Sigmoid、Tanh、ReLU、ELU、Swish和Mish。本文对深度学习的神经网络中的激活函数做了全面的调研和总结。涵盖了不同类别的激活函数,如基于Logistic Sigmoid和Tanh、基于ReLU、基于ELU和基于学习。还指出了激活函数的几个特点,如输出范围、单调性和平滑性。在不同类型的数据上,对18种先进的激活函数技术与不同的网络进行了性能比较。对激活函数的深入了解有助于研究人员做进一步的研究,也有助于从业人员做出不同的选择。
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
H Xu, G Ghosh, P Huang, D Okhonko, A Aghajanyan, F M L Z C Feichtenhofer
[Facebook AI]
VideoCLIP:面向零样本视频文本理解的对比预训练。本文提出VideoCLIP,一种对比性方法,用于预训练一个统一模型,用于零样本视频-文本理解,不使用下游任务的任何标签。VideoCLIP通过对比时间上重叠的正面视频-文本对和来自近邻检索的硬负面信息,为视频和文本训练一个transformer。在一系列不同的下游任务上进行了实验,包括序列级文本-视频检索、VideoQA、标记级动作定位和动作分割,显示了最先进的性能,超过了之前的工作,在某些情况下甚至超过了有监督方法。
MLIM: Vision-and-Language Model Pre-training with Masked Language and Image Modeling
T Arici, M S Seyfioglu, T Neiman, Y Xu, S Train, T Chilimbi, B Zeng, I Tutar
[Amazon.com Inc]
MLIM: 基于掩码语言和图像建模的视觉及语言模型预训练。视觉及语言预训练(VLP)提高了需要图像和文本输入的下游任务的模型性能。目前的VLP方法在(i)模型结构(尤其是图像嵌入器)、(ii)损失函数和(iii)掩码策略上有所不同。图像嵌入器要么是像ResNet这样的深度模型,要么是通过直接将图像像素送入transformer实现的线性投影。通常,除了掩码语言建模(MLM)损失外,基于对齐的目标用于跨模式的交互,以及RoI特征回归和分类任务用于掩码图像区域建模(MIRM)。对齐和MIRM目标大多没有真值。基于对齐的目标需要图像和文本的配对以及启发式的目标函数。MIRM依赖于目标检测器。掩码策略要么不利用多模态,要么与其他模型产生的对齐方式严格耦合。本文提出用于VLP的掩码语言和图像建模(MLIM),使用掩码语言建模(MLM)损失和图像重建(RECON)损失。提出了模态感知掩码(MAM),以促进跨模态交互,并利用MLM和RECON损失,分别捕捉文本和图像重建质量。使用MLM + RECON任务加上MAM,提出了一种简化的VLP方法,并表明它在一个专有的电子商务多模态数据集上具有更好的下游任务性能。
CC-Cert: A Probabilistic Approach to Certify General Robustness of Neural Networks
CC-Cert:验证神经网络通用鲁棒性的概率方法
Pitfalls in Machine Learning Research: Reexamining the Development Cycle
S Biderman, W J. Scheirer
[The AI Village]
机器学习研究的陷阱:重新审视开发周期。应用机器学习研究有可能推动数据科学的进一步发展,但由于临时的设计过程、数据的肮脏凌乱以及模型评估中缺乏统计学的严谨性,都使其受到了极大的阻碍。最近,这些问题开始引起更多的关注,因为它们在研究和开发中引起了公共和尴尬的问题。根据作为机器学习研究人员的经验,本文遵循应用机器学习的过程,从算法设计到数据收集再到模型评估,提请注意常见的陷阱并提供实用的改进建议。在每个步骤中,都引入了案例研究,以强调这些陷阱在实践中是如何发生的,以及在哪些方面可以改进。
Learning Contrastive Representation for Semantic Correspondence
语义对应对比表示学习
T Xiao, S Liu, S D Mello, Z Yu, J Kautz, M Yang
[University of California, Merced & Nvidia]
An End-to-End Transformer Model for 3D Object Detection
I Misra, R Girdhar, A Joulin
[Facebook AI Research]
端到端Transformer模型3D目标检测。本文提出了3DETR,一种基于3D点云的端到端Transformer的目标检测模型。与现有检测方法相比,3DETR需要对普通Transformer模块进行最小的修改,这些方法采用了一些特定于3D的感应偏置。具有非参数查询和傅里叶位置嵌入的标准Transformer与采用具有手工调整超参数的3D特定运算器库的专门架构相比,具有竞争力。然而,3DETR在概念上很简单,也很容易实现,能通过纳入3D领域知识来进一步改进。通过广泛实验,发现3DETR在具有挑战性的ScanNetV2数据集上的表现比成熟的、高度优化的VoteNet基线高出9.5%。此外,3DETR适用于检测以外的3D任务,并可作为未来研究的基石。
Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers
S Frank, E Bugliarello, D Elliott
[University of Trento & University of Copenhagen]
Vision-and-Language还是Vision-for-Language?多模态转换中的跨模态影响。预训练的视觉语言BERT旨在学习结合两种模态信息的表示。本文提出一种基于跨模态输入消融的诊断方法,以评估这些模型实际整合跨模态信息的程度。这种方法包括完全或有选择地消融一种模式的输入,并对另一种模式的模型预测性能进行评估。模型的表现是由反映模型预训练目标的特定模态任务来衡量的(例如文本的掩码语言建模)。已经学会使用两种模态构建跨模态表示的模型,预计在某一模态的输入缺失时表现会更差。实验发现,预训练的视觉和语言模型具有不对称性:对被掩码的文本的预测受到消融的视觉输入的强烈影响,而在预测被掩码的图像区域时,消融文本输入(几乎)没有影响。这些结果与假设的平衡跨模态激活假设相悖,这些模型并非对称的跨模态。
Bootstrapped Meta-Learning
S Flennerhag, Y Schroecker, T Zahavy, H v Hasselt, D Silver, S Singh
[DeepMind]
Bootstrapped元学习。元学习使AI能够通过学习如何学习来提高其效率。释放这种潜力需要克服一个具有挑战性的元优化问题,该问题通常表现为条件不足和短视元目标。本文提出一种算法,通过让元学习器自己教自己来解决这些问题。该算法首先从元学习器中bootstrap出一个目标,然后通过在一个选定的(伪)度量下最小化与该目标距离来优化元学习器。围绕梯度元学习,建立了保证性能提高的条件,并表明这种提高与目标距离有关。因此,通过控制曲率,距离度量可被用来缓解元优化,例如通过减少不良条件。此外,bootstrapping机制可以扩展有效的元学习范围,而不需要通过所有更新进行反向传播。该算法具有通用性,易于实现。在Atari ALE基准上实现了无模型智能体的新技术水平,在少样本学习中改进了MAML,并证明了该方法是如何通过在ε-贪婪的Q-学习智能体中进行元学习的有效探索来开辟新的可能性。
Data Efficient Masked Language Modeling for Vision and Language
面向视觉和语言的数据高效掩码语言建模
Active label cleaning: Improving dataset quality under resource constraints
主动标签清理:资源受限情况下改善数据集质量
Revisiting 3D ResNets for Video Recognition
再探3D ResNet视频识别
Relating Graph Neural Networks to Structural Causal Models
M Zečević, D S Dhami, P Veličković, K Kersting
[TU Darmstadt & DeepMind]
将图神经网络与结构因果模型相联系。因果关系可用结构性因果模型(SCM)来描述,该模型承载了感兴趣的变量及其机制关系的信息。对于大多数感兴趣的过程,基本的SCM只能是部分可观察的,因此,因果推理试图利用任何暴露的信息。图神经网络(GNN)作为结构化输入的通用近似器,为因果学习提供了一个可行的候选方案,可与SCM更紧密地结合。本文提出一个源自第一性原理的理论分析,在GNN和SCM之间建立了一个新的联系,同时提供了一个关于一般神经-因果模型的扩展观点。为基于GNN的因果推断建立了一个新的模型类,对于因果效应的识别是必要和充分的。
The Power of Scale for Parameter-Efficient Prompt Tuning
B Lester, R Al-Rfou, N Constant
[Google Research]
参数高效的提示微调规模化的力量。本文探索了"提示微调(prompt tuning)",一种简单有效的机制,用于学习"软提示(soft prompts)",以调节冻结的语言模型来执行特定的下游任务。与GPT-3使用的离散文本提示不同,软提示通过反向传播学习,并可进行微调,以纳入来自任意数量标记样本的信号。所提出的端到端学习方法,在很大程度上优于GPT-3的少样本学习。通过使用T5对模型规模的消减,表明了提示微调随着规模的扩大而变得更有竞争力:当模型超过数十亿个参数时,所提方法"缩小了差距",与模型微调(所有模型权重都被微调)的强大性能相匹配。这一发现尤其重要,因为大型模型的共享和服务成本很高,而为多个下游任务重用一个冻结模型的能力可以减轻这一负担。该方法可看作是最近提出的"前缀微调"的简化。用软提示来微调冻结的模型,在领域迁移的鲁棒性方面有好处,并能实现有效的 "提示集成"。
In this work, we explore “prompt tuning,” a simple yet effective mechanism for learning “soft prompts” to condition frozen language models to perform specific downstream tasks. Unlike the discrete text prompts used by GPT-3, soft prompts are learned through backpropagation and can be tuned to incorporate signals from any number of labeled examples. Our end-to-end learned approach outperforms GPT-3’s few-shot learning by a large margin. More remarkably, through ablations on model size using T5, we show that prompt tuning becomes more competitive with scale: as models exceed billions of parameters, our method “closes the gap” and matches the strong performance of model tuning (where all model weights are tuned). This finding is especially relevant because large models are costly to share and serve and the ability to reuse one frozen model for multiple downstream tasks can ease this burden. Our method can be seen as a simplification of the recently proposed “prefix tuning” of Li and Liang (2021) and we provide a comparison to this and other similar approaches. Finally, we show that conditioning a frozen model with soft prompts confers benefits in robustness to domain transfer and enables efficient “prompt ensembling.”
Adapting Language Models for Zero-shot Learning by Meta-tuning on Dataset and Prompt Collections
R Zhong, K Lee, Z Zhang, D Klein
[UC Berkeley]
基于数据集和提示集元微调的零样本学习语言模型自适应。大型预训练语言模型(LM),如GPT-3,已经获得了令人惊讶的能力,可以进行零样本学习。例如,为了在没有任何训练样本的情况下进行情感分类,可以用评论和标签描述"用户喜欢这部电影吗?"来"提示"语言模型,并询问下一个词是"是"还是"不是"。然而,下一个词的预测训练目标仍然与目标的零样本学习目标不一致。为解决这个弱点,本文提出元微调,通过在一系列数据集上对预训练语言模型进行微调,直接优化零样本学习目标。本文专注于分类任务,通过聚合43个现有的数据集和以问答(QA)格式标注441个标签描述来构建元数据集。当对未见过任务进行评估时,元微调模型表现优于相同大小的QA模型和以前基于自然语言推理的SOTA零样本学习系统。此外,将参数数从220M增加到770M,AUC-ROC分数提高了6.3%,更大的模型应该会表现得更好。衡量语言模型开箱即用的零样本学习性能可能会低估它们的真正潜力,而整个社区在聚合数据集和统一格式方面的努力可以帮助建立能更好回答提示的模型。
SLIDE: Single Image 3D Photography with Soft Layering and Depth-aware Inpainting(重点)
V Jampani, H Chang, K Sargent, A Kar, R Tucker, M Krainin, D Kaeser, W T. Freeman, D Salesin, B Curless, C Liu
[Google]
SLIDE:基于软分层和深度感知补全的单图像3D摄影。单一图像3D摄影使观众能从新的视角观看静止图像。最近的方法将单目深度网络与绘画网络结合起来,以达到引人注目的效果。这些技术的一个缺点是使用硬的深度分层,使得它们无法对复杂的外观细节进行建模,如薄的头发状结构。本文提出SLIDE,一种用于单图像3D摄影的模块化统一系统,用简单有效的软分层策略,以更好地保留新视角中的外观细节。为绘画模块提出了一种新的深度感知训练策略,更适合于3D摄影任务。由此产生的SLIDE方法是模块化的,能使用其他组件,如分割和消光来改进分层。同时,SLIDE使用高效的分层深度公式,只需要通过组件网络的一次前向传递就能产生高质量的3D摄影。对三个视图合成数据集的广泛实验分析,以及对真实场景图像集的用户研究,证明了该技术与现有的强大基线相比具有卓越的性能,同时在概念上要简单得多。
Digging into Uncertainty in Self-supervised Multi-view Stereo
自监督多视立体视觉不确定性挖掘
An Empirical Study of Graph Contrastive Learning
图对比学习实证研究
Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation
短训练,长测试:基于线性偏差注意力的输入长度外推
NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo
Y Wei, S Liu, Y Rao, W Zhao, J Lu, J Zhou
[Tsinghua University]
NerfingMVS:面向室内多视立体视觉的神经辐射场指导优化。本文提出一种新的多视图深度估计方法,利用传统SfM重建和基于学习的先验,对最近提出的神经辐射场(NeRF)进行了优化。与现有的基于神经网络的优化方法不同的是,该方法直接对隐性体进行优化,消除了在室内场景中匹配像素的挑战性步骤。关键是利用基于学习的先验因素来指导NeRF的优化过程。通过对其稀疏SfM重建进行微调将单目深度网络适应目标场景,并表明NeRF的形状-辐射模糊性在室内环境中仍然存在,提出通过用自适应的深度先验来监测体渲染的采样过程来解决该问题。通过对渲染图像的误差计算获得的每像素置信图进一步提高深度质量。实验表明,所提出的框架在室内场景中的表现明显优于最先进方法,在基于对应关系的优化和基于NeRF的优化对适应的深度先验的有效性方面有惊人的发现。指导优化方案不会牺牲神经辐射场的原始合成能力,从而提高了在已见和新的视图上的渲染质量。
Learning to Prompt for Vision-Language Models
K Zhou, J Yang, C C Loy, Z Liu
[Nanyang Technological University]
视觉语言模型提示学习。视觉语言预训练最近作为一种有前途的替代方法出现在表示学习领域。它从使用图像和离散标签来学习一组固定权重(被视为视觉概念)的传统范式转变为将图像和原始文本对齐两个独立的编码器。这样的范式得益于更广泛的监督源,并允许零样本迁移到下游任务,因为视觉概念可以直接从自然语言中生成,即所谓的提示(prompt)。本文发现在实践中部署这种模型的一个主要挑战是提示工程。这是因为设计一个适当的提示,特别是围绕着一个类名的上下文词,需要领域的专业知识,并且通常需要大量的时间来进行词的调整,因为措辞的轻微变化可能对性能产生巨大的影响。此外,不同的下游任务需要特定的设计,进一步阻碍了部署的效率。为克服这一挑战,本文提出一种名为上下文优化(CoOp)的新方法。其主要思想是在提示中使用连续的表示对上下文进行建模,并从数据中进行端到端的学习,同时保持预训练的参数固定。通过这种方式,任务相关提示的设计可以完全自动化。在11个数据集上的实验表明,CoOp有效地将预训练好的视觉语言模型变成了具有数据效率的视觉学习者,只需要一两个样本就能以相当大的幅度击败手工生成的提示,在使用更多样本时能够获得显著的改进(例如,在16个样本时,平均收益约为17%,最高达到50%以上)。CoOp还表现出对分布迁移的强大鲁棒性。
Spatio-Temporal Graph Contrastive Learning
X Liu, Y Liang, Y Zheng, B Hooi, R Zimmermann
[National University of Singapore & JD Tech]
时空图对比学习。深度学习模型是用于时空图(STG)预测的现代工具。尽管它们很有效,但需要大规模数据集来实现更好的性能,并且容易受到噪声扰动的影响。为缓解这些限制,一个直观的想法是使用流行的数据增强和对比学习技术。然而,由于三个原因,现有的图对比学习方法不能直接应用于STG预测。首先,从经验上发现,预测任务无法从对比学习得出的预训练表示中获益。第二,用于消除噪声的数据增强对STG数据的探索较少。第三,样本的语义相似性被忽略了。本文提出一种空间-时间图对比学习框架(STGCL)来解决这些问题。通过将预测损失与辅助对比损失相结合来提高性能,而不是用预训练的范式。阐述了四种类型的数据增强,在图结构、时域和频域方面干扰数据。通过一个基于规则的策略扩展了经典的对比损失,过滤掉语义上最相似的否定词。该框架在三个真实世界的数据集和四个最先进的模型上进行了评估。一致的改进表明,STGCL可以作为现有深度模型的现成插件使用。
Self-Calibrating Neural Radiance Fields
Y Jeong, S Ahn, C Choy, A Anandkumar, M Cho, J Park
[POSTECH & NVIDIA]
自校准神经辐射场。本文为具有任意非线性畸变的通用相机提出一种相机自校准算法。联合学习场景的几何形状和准确的相机参数,不需要任何校准对象。该相机模型由针孔模型、四阶径向畸变和通用噪声模型组成,可学习任意的非线性相机畸变。传统的自校准算法大多依赖于几何约束,本文加入了光度测量一致性,用神经辐射场(NeRF)学习场景的几何形状。提出一种新的几何损失函数,投影射线距离损失,以纳入复杂的非线性相机模型的几何一致性。在标准的真实图像数据集上验证了提出的方法,并证明该模型可从头学习相机的内涵和外延(姿态),而不需要COLMAP初始化。以可微的方式学习准确的相机模型,使我们能比基线提高PSNR。所提出模块是一个易于使用的插件,可应用于NeRF变体以提高性能。
ScatSimCLR: self-supervised contrastive learning with pretext task regularization for small-scale datasets
V Kinakh, O Taran, S Voloshynovskiy
[University of Geneva]
ScatSimCLR:小规模数据集的自监督对比学习与前置任务正则化。本文考虑一个基于数据多视图间对比损失的小规模数据集自监督学习问题,在分类任务中展示了最先进的性能。尽管有报告的结果,但诸如需要复杂架构的训练的复杂性、由数据增强产生的所需的视图数量,以及它们对分类准确性的影响等因素都是未研究的问题。为确定这些因素的作用,本文考虑一个对比损失系统架构SimCLR,其中基线模型被几何不变的"手工"网络ScatNet和小型可训练的适配器网络取代,并认为整个系统的参数数量和视图数量可大大减少,同时实际上保持了相同的分类精度。研究了正则化策略的影响,该策略使用了基于对传统基线模型和基于ScatNet模型的旋转和拼图排列等增强变换参数的估计的前置任务学习。证明了所提出的带有前置任务学习正则化的架构在可训练参数数量较少和视图数量减少的情况下达到了最先进的分类性能。
SemIE: Semantically-aware Image Extrapolation
SemIE:语义感知图像外推
B Khurana, S R Dash, A Bhatia, A Mahapatra, H Singh, K Kulkarni
[IIT Kanpur & Adobe Research India]
Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners
基于可微提示改进预训练语言模型少样本学习
ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation
ISNet:整合图像级和语义级上下文的语义分割
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
Z Wang, J Yu, A W Yu, Z Dai, Y Tsvetkov, Y Cao
[CMU & Google Research & University of Washington]
SimVLM:弱监督简单视觉语言模型预训练。随着最近在视觉和文本表示联合建模方面的进展,视觉语言预训练(VLP)在许多多模态下游任务上取得了令人印象深刻的性能。然而,对昂贵的标注(包括干净的图像说明和区域标签)的要求限制了现有方法的可扩展性,并且由于引入了多个特定的数据集目标,使预训练程序变得复杂。本文放宽了这些限制,提出一种最小化的预训练框架——简单视觉语言模型(SimVLM)。与之前工作不同,SimVLM通过利用大规模弱监督来降低训练的复杂度,通过单一前缀语言建模目标进行端到端训练。在不利用额外数据或特定任务定制的情况下,所产生模型明显优于之前的预训练方法,并在广泛的鉴别性和生成性视觉语言基准上取得了新的最先进结果,包括VQA(+3.74% vqa-core)、NLVR2(+1.17%精度)、SNLI-VE(+1.37%精度)和图像描述任务(+10.1%平均CIDEr得分)。证明了SimVLM获得了强大的泛化和迁移能力,能实现包括开放式视觉问答和跨模式迁移在内的零样本行为。
Bag of Tricks for Training Deeper Graph Neural Networks: A Comprehensive Benchmark Study
深度图神经网络训练技巧集:综合基准研究
Generalize then Adapt: Source-Free Domain Adaptive Semantic Segmentation
J N Kundu, A Kulkarni, A Singh, V Jampani, R. V Babu
[Indian Institute of Science & Google Research]
先泛化再适应:无源域自适应语义分割。无监督域自适应(DA)在语义分割领域获得了广泛关注。然而,几乎所有值钱的工作都假定同时访问标记的源和未标记的目标,这使得它们不适合要求无源自适应的场景。本文通过将任务划分为两部分来实现无源DA:a)纯源域泛化 和b)无源目标自适应。对于前者,本文提供了理论上的见解,开发了一个多头框架,用虚拟扩展的多源数据集进行训练,目的是平衡泛化和特定性。对于后者,利用多头框架来提取可靠的目标伪标签进行自训练。引入了一个新的条件先验强制自编码器,阻止了空间不规则性,从而提高了伪标签的质量。
Robust High-Resolution Video Matting with Temporal Guidance
S Lin, L Yang, I Saleemi, S Sengupta
[University of Washington & ByteDance Inc]
基于时间指导的鲁棒高分辨率视频抠图。本文提出一种强大的实时高分辨率人像视频抠图方法,实现了新的最先进性能。该方法比之前方法要轻量得多,可以在Nvidia GTX 1080Ti GPU上以76 FPS的速度处理4K视频、以104 FPS的速度处理高清视频。与大多数现有将视频逐帧作为独立图像进行抠图处理的方法不同,所提方法用递归架构利用视频中的时间信息,在时间一致性和抠图质量方面取得了重大改进。提出了一种新的训练策略,使网络在抠图和分割目标上都得到加强,大大提高了所提出模型的鲁棒性。该方法不需要任何辅助输入,可广泛应用于现有的人物抠图应用。
Shifted Chunk Transformer for Spatio-Temporal Representational Learning
基于移位块Transformer的时空表示学习
YOLOP: You Only Look Once for Panoptic Driving Perception
D Wu, M Liao, W Zhang, X Wang
[Huazhong University Of Science And Technology]
YOLOP:YOLO全景驾驶感知。全景驾驶感知系统是自动驾驶的一个重要组成部分。一个高精度和实时的感知系统可以帮助车辆在行驶中做出合理的决策。本文提出了一种全景驾驶感知网络(YOLOP),可以同时进行交通目标检测、可驾驶区域分割和车道检测。YOLOP由一个用于特征提取的编码器和三个用于处理具体任务的解码器组成。该模型在挑战性的BDD100K数据集上表现非常好,在所有三个任务的精度和速度方面都达到了最先进的水平。通过消融研究验证了多任务学习模型对联合训练的有效性。这是第一个能在嵌入式设备Jetson TX2(23 FPS)上同时实时处理这三个视觉感知任务并保持优秀精度的工作,确保了该网络可以在现实世界的场景中使用。
Conditional DETR for Fast Training Convergence
D Meng, X Chen, Z Fan, G Zeng, H Li, Y Yuan, L Sun, J Wang
[University of Science and Technology of China & Peking University & Microsoft Research Asia]
基于条件DETR的训练快速收敛。最近提出的DETR方法将Transformer编码器和解码器结构应用于目标检测,实现了良好的性能。本文考虑一个关键问题,即缓慢的训练收敛,提出一种用于快速DETR训练的条件性交叉注意力机制DETR,其关键是要从相应的参考点和解码器嵌入中学习一个空间查询。空间查询包含在前一个解码器层中为类和框预测而挖掘的空间信息,并导致空间注意力权重图,缩小了内容查询定位不同区域的空间范围,从而放松了对内容查询的依赖,降低了训练难度。经验结果表明,条件DETR对于骨干R50和R101的收敛速度快6.7倍,对于更强的骨干DC5-R50和DC5-R101快10倍。
TOOD: Task-aligned One-stage Object Detection
C Feng, Y Zhong, Y Gao, M R. Scott, W Huang
[Intellifusion Inc & Meituan Inc & ByteDance Inc & Malong LLC & Alibaba Group]
TOOD:任务对齐的单阶段目标检测。单阶段目标检测通常通过优化两个子任务来实现:目标分类和定位,用具有两个平行分支的头,可能导致两个任务之间的预测出现一定程度的空间错位。本文提出了一种任务对齐的单阶段目标检测(TOOD),以一种基于学习的方式明确对齐这两个任务。设计了一个新的任务对齐头(T-Head),在学习任务交互特征和特定任务特征之间提供了更好的平衡,以及通过任务对齐预测器学习对齐的更大灵活性。提出了任务对齐学习(TAL),通过设计的样本分配方案和任务对齐的损失,在训练期间明确地拉近(甚至统一)两个任务的最佳锚点。在MS-COCO上进行了广泛的实验,其中TOOD在单模型单规模测试中取得了51.1的AP,大大超过了最新的单级检测器,而参数和FLOPs更少。定性结果也证明了TOOD对于更好地调整目标分类和定位任务的有效性。
Learning to Match Features with Seeded Graph Matching Network
基于种子图匹配网络的特征匹配学习
MicroNet: Improving Image Recognition with Extremely Low FLOPs
MicroNet:极低FLOPs下的图像识别改善
Learning Open-World Object Proposals without Learning to Classify
D Kim, T Lin, A Angelova, I S Kweon, W Kuo
[KAIST & Google Brain]
无需分类的开放世界候选目标建议学习。候选目标建议(Object Proposals, OP)已经成为许多视觉管线中不可或缺的预处理步骤,包括目标检测、弱监督检测、目标发现、跟踪等。由于人们对目标检测的兴趣越来越大,与非学习方法相比,基于学习的OP最近变得很流行。常见的范式是,从标有一组物体区域及其相应类别的数据中学习OP。然而,这种方法往往在处理开放世界中不存在于训练集中的新目标时很吃力。本文发现问题在于现有OP方法中的二元分类器倾向于过拟合训练类。因此,本文提出一种无需分类的目标定位网络(OLN),单纯通过一个区域的位置和形状与任意已知真实物体(如centerness和IoU)的重叠程度来估计每个区域的目标性。该简单策略学习了可泛化的目标性,并在COCO上的跨类别泛化方面优于现有的OP方法,在RoboNet、Object365和EpicKitchens上的跨数据集评估方面也是如此。通过实验证明了OLN在大词表数据集LVIS上进行长尾目标检测的优点,在罕见和常见类别中都有明显改进。
Solo-learn: A Library of Self-supervised Methods for Visual Representation Learning
SOTR: Segmenting Objects with Transformers
SOTR:基于Transformers的目标分割
Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual Representations
多任务视觉表示的十亿级视觉Transformer预处理
Instance-wise Hard Negative Example Generation for Contrastive Learning in Unpaired Image-to-Image Translation
W Wang, W Zhou, J Bao, D Chen, H Li
[University of Science and Technology of China (USTC) & Microsoft Research Asia]
未配对图像到图像变换中的逐实例硬负样本生成对比学习。对比学习在非配对图像到图像变换中显示出巨大潜力,但有时变换的结果质量很差,内容也没有得到一致的保留。负样本在图像变换对比学习中起着关键作用。之前方法中的负样本是从源图像中不同位置的图块中随机抽取的,并不能有效地将正样本推到查询样本附近。为解决该问题,本文提出在非配对图像-图像变换中用于对比性学习的逐实例硬负样本生成(NEGCUT),以挖掘具有挑战性的负样本。框架中的两个组成部分,即编码器网络和负样本生成器,被交替更新,以学习区别性的表示来区分正样本和生成的硬负样本。训练的生成器用来在线生成负样本,该生成器:1)是逐实例的,意味着生成的样本是基于输入图像的;2)可以生成硬负样本,因为它是用对抗性损失训练的。使用该生成器,非配对图像-图像变换的性能得到了显著提高。在三个基准数据集上的实验表明,与之前的方法相比,拟议的NEGCUT框架实现了最先进的性能,显示了源图像和生成图像之间更好的对应关系。
Paint Transformer: Feed Forward Neural Painting with Stroke Prediction(重点,ICCV2021Oral,有开源)
S Liu, T Lin, D He, F Li, R Deng, X Li, E Ding, H Wang
[Baidu Inc & Rutgers University]
绘画Transformer:基于笔画预测的前馈神经绘画。神经绘画指的是为给定的图像产生一系列笔画,并用神经网络进行非照片式的真实再现的程序。虽然基于强化学习的智能体可以为该任务一步步生成笔画序列,但要训练一个稳定的强化学习智能体并不容易。另一方面,笔画优化方法在一个大的搜索空间中反复搜索一组笔画参数;这种低效率大大限制了它们的普遍性和实用性。与之前方法不同,本文将任务表述为一个集合预测问题,提出一种新的基于Transformer的框架Paint Transformer,用前馈网络预测笔画集合的参数。该模型可并行生成一组笔画,并在接近实时的情况下获得大小为512*512的最终绘画。由于没有可用的数据集来训练绘画Transformer,设计了一个自训练管道,可以在没有任何现成数据集的情况下进行训练,同时还能实现出色的泛化能力。实验表明,与先进的方法相比,该模型可以在艺术抽象性和真实性之间产生更好的折衷,同时保持高效率。
Impact of Aliasing on Generalization in Deep Convolutional Networks
C Vasconcelos, H Larochelle, V Dumoulin, R Romijnders, N L Roux, R Goroshin
[Google Research & Mila]
深度卷积网络中混叠对泛化的影响。本文研究了混叠对深度卷积网络泛化的影响,由于广泛使用架构的结构限制,仅靠数据增强方案无法防止混叠的产生。本文从频率分析理论中得到启发,仔细研究了ResNet和EfficientNet架构,并回顾了它们每个主要部分的混叠和信息损失之间的权衡。展示了如何通过在关键位置插入非训练的低通滤波器来缓解混叠,特别是在网络缺乏学习能力的地方。这些简单的结构变化导致了泛化性的大幅改善,甚至在分布外的条件下有更大的改善,例如在ImageNet-C的自然损坏下的图像分类和在Meta-Dataset的少样本学习。在这两个数据集上,无需引入额外的可训练参数并使用开源代码库的默认超参数,就能取得最先进的结果。
Single-image Full-body Human Relighting
单幅图像人体全身重打光
How to avoid machine learning pitfalls: a guide for academic researchers
M A. Lones
[Heriot-Watt University]
如何避免机器学习陷阱:学术研究人员指南。本文简要介绍了使用机器学习技术时出现的一些常见错误,以及如何避免这些错误,主要是作为研究学生的指南,并侧重于学术研究中特别关注的问题,例如需要进行严格的比较并得出有效结论。涵盖了机器学习过程的五个阶段:建立模型前要做什么,如何可靠地建立模型,如何鲁棒地评估模型,如何公平地比较模型,以及如何报告结果。这里提到的一些东西可能是错误的,或者至少是可争辩的,这恐怕就是研究的本质。如何做机器学习的理论几乎总是滞后于实践,学者们总是对做事的最佳方法有不同意见,我们今天认为正确的东西明天可能就不正确了。因此,你必须以对待任何其他方面研究的相同方式来对待机器学习:以开放的心态,愿意跟上最新的发展,并谦虚地接受所不知道的一切。
Video Contrastive Learning with Global Context
H Kuang, Y Zhu, Z Zhang, X Li, J Tighe, S Schwertfeger, C Stachniss, M Li
[University of Bonn & Amazon Web Services & ShanghaiTech University]
全局上下文视频对比学习。对比学习已经彻底改变了自监督图像表示学习领域,最近又被应用于视频领域。对比学习的最大优势之一,是允许灵活定义强大的损失目标,只要能找到一个合理的方法来制定正负样本进行对比。然而,现有的方法,在很大程度上依赖于短程时空显著性来形成片段级对比信号,限制了自身对全局上下文的使用。本文提出一种新的基于片段的视频级对比学习方法来制定正向对。该表述能捕捉视频中的全局上下文,对时间内容的变化具有鲁棒性。还加入了一个时间顺序正则化项,以强制执行视频的固有顺序结构。广泛的实验表明,所提出的视频级对比学习框架(VCLR)在五个视频数据集的下游动作分类、动作定位和视频检索方面优于之前的最先进技术。
Fast Convergence of DETR with Spatially Modulated Co-Attention
基于空间调制协同注意力的DETR快速收敛
On The State of Data In Computer Vision: Human Annotations Remain Indispensable for Developing Deep Learning Models
Z Emam, A Kondrich, S Harrison, F Lau, Y Wang, A Kim, E Branson
[Scale AI]
计算机视觉数据现状综述:开发深度学习模型人工标注仍然必不可少。高质量标注数据集在推动机器学习(ML)的发展,特别是深度学习(DL)的发展中起着关键作用。然而,自从2012年ImageNet数据集和AlexNet模型出现后,新的开源标注视觉数据集的规模基本保持不变。在计算机视觉界,只有少数工作解决了比Imagenet大几个数量级的数据集上的监督学习。本文调研了计算机视觉研究领域,在这些领域研究了大数据集对不同视觉任务的模型性能的影响。本文总结了社区目前对这些影响的理解,并强调了一些与海量数据集训练有关的开放性问题。特别的,聚焦于 (a) 目前在计算机视觉研究中使用的最大的数据集,以及在这些数据集上训练的有趣收获;(b) 在大数据集上预训练的有效性;(c) 合成数据集的最新进展和面临的障碍;(d) 双重下降和样本非单调性现象的概述;最后,(e) 对终身/持续学习的简要讨论,以及它与在离线环境下从巨大标注数据集学习相比的表现。总的来说,本文的发现是,关于深度学习的优化研究主要集中在完善训练程序,从而使DL模型的数据饥渴度降低,而关于合成数据集的研究旨在抵消数据标注的成本。然而,就目前而言,获得非合成标记的数据对于提升性能仍然是不可或缺的。
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback
ProtoTransformer:提供学生反馈的元学习方法
Open-World Entity Segmentation
L Qi, J Kuen, Y Wang, J Gu, H Zhao, Z Lin, P Torr, J Jia
[The Chinese University of Hong Kong & Adobe Research & University of Oxford]
开放世界实体分割。本文提出一个新的图像分割任务——实体分割(ES),目的是在不考虑语义类别标签的情况下,分割图像中所有视觉实体,在图像处理/编辑方面有许多实际应用,其中分割掩膜的质量通常很关键,但类别标签却不那么重要。在这种情况下,所有语义上有意义的片段,都被平等地视为无类别的实体,没有事物与物品之间的区别。基于统一的实体表示,提出了一个基于中心的实体分割框架,用两个新模块来提高掩膜质量。实验表明,新任务和框架都显示出与现有工作相比的优势。ES能做到以下几点:(1) 合并多个数据集以形成一个大的训练集,无需解决标签冲突;(2) 任何在一个数据集上训练的模型都可以非常好地泛化到其他未见过领域的数据集。
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing(重点)
P Liu, W Yuan, J Fu, Z Jiang, H Hayashi, G Neubig
[CMU & National University of Singapore]
预训练、提示和预测:自然语言处理中提示方法的系统综述。本文调研并组织了自然语言处理中的一个新范式的研究工作,称为"基于提示的学习"。与传统的监督学习不同,传统的监督学习是训练模型接受输入x并预测输出y,以P(y|x)的形式,基于提示的学习是基于语言模型,直接对文本概率进行建模。为了使用这些模型来执行预测任务,原始输入x用模板修改成一个文本字符串提示x′,其中有一些未填充的槽,语言模型用来概率性地填充未填充的信息,得到最终字符串x̂,从中可以得出最终的输出y。由于以下原因,这个框架是强大和有吸引力的:它允许语言模型在大量原始文本上进行预训练,并且通过定义一个新的提示函数,模型能进行少样本甚至零样本的学习,以适应只有少数或没有标记数据的新场景。本文介绍了这种有前途的范式的基本原理,描述了一套统一的数学符号,可以涵盖现有的各类工作,并沿着几个维度组织现有的工作,如预训练模型、提示和调整策略的选择。
H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction
E Ramon, G Triginer, J Escur, A Pumarola, J Garcia, X Giro-i-Nieto, F Moreno-Noguer
[Crisalix SA & Universitat Politecnica de Catalunya & CSIC-UPC]
H3D-Net: 少样本高保真3D头部重建。最近,用基于坐标的神经表示隐性表示表面几何的学习方法,在多视图3D重建问题上显示了令人印象深刻的结果。然而,这些技术的有效性受制于大量(几十个)场景的输入视图的可用性,以及计算上的优化要求。本文为基于坐标的表示赋予概率形状先验,使其在使用少量输入图像(少于三张)时能更快地收敛和更好地泛化,来突破这些局限性,解决少样本全3D头部重建这一具体问题。提出H3D-Net,一种从带有相关头部掩膜和摄像机姿势的小型真实场景图像集进行高保真3D头部重建的方法。首先,用隐性表示从数千张不完整的原始扫描图像中学习3D头部形状模型。测试时,联合将两个基于坐标的神经网络过拟合到场景,一个用于几何建模,一个用于估计表面辐射,并使用隐性可微渲染。设计了一个两阶段的优化策略,在初始优化阶段,学到的先验被用来初始化和约束几何。然后,先验被解冻并根据场景进行微调。该方法实现了高保真的头部重建,包括头发和肩膀,具有很高的细节水平,在少样本情况下总是优于最先进的3D可变形模型方法,在有大量视图的情况下则优于非参数方法。所提出方法的一个局限性是,它仍然需要几分钟来生成三维重建。
DOVE: Learning Deformable 3D Objects by Watching Videos
S Wu, T Jakab, C Rupprecht, A Vedaldi
[University of Oxford]
DOVE:通过观看视频学习可变形3D物体。从2D图像学习可变形3D物体是一个非常棘手的问题。现有方法依靠显式的监督来建立多视图的对应关系,如模板形状模型和关键点标注,这限制了它们对"真实场景"物体的适用性。本文建议使用单目视频,它自然地提供了跨时间的对应关系,能在没有显式关键点或模板形状的情况下学习可变形物体类别的3D形状。提出DOVE,可从鸟类单一2D图像中学习预测3D典型形状、变形、视角和纹理,给定鸟类视频集以及自动获得的剪影和光流作为训练数据。该方法重建了时间上一致的3D形状和变形,能从单一图像的任意视角对鸟进行动画和重新渲染。
Deep Learning on a Data Diet: Finding Important Examples Early in Training
M Paul, S Ganguli, G K Dziugaite
[Stanford University & Element AI]
深度学习数据"瘦身":在训练早期找到重要样本。最近深度学习的成功部分是由在越来越大的数据集上训练越来越多的过参数化网络所推动的。因此,我们很自然地会问:有多少数据是多余的,哪些样本对归纳来说是重要的,以及我们如何找到它们?本文提出了一个特别的观点:标准视觉基准单个训练样本的初始损失梯度范数,在几次权重初始化取均值后,可用来识别对泛化很重要的较小的训练数据集。此外,只需经过几轮训练,梯度范数中的信息就会反映在规范化误差中——预测概率和独热标签之间的L2距离——可用来裁剪数据集中很大一部分,而不牺牲测试精度。在此基础上,提出了在训练早期只用局部信息的数据修剪方法,并将其与最近的工作联系起来,丢弃训练过程中很少被遗忘的样本来修剪数据。该方法还阐明了底层数据分布是如何形成训练动态的:它们根据样本对泛化的重要性进行排序,检测含噪的样本,并确定模型数据表示的子空间,这些子空间在训练中是相对稳定的。
Understanding self-supervised Learning Dynamics without Contrastive Pairs
Y Tian, X Chen, S Ganguli
[Facebook AI Research]
理解没有对比对的自监督学习动态。虽然自监督学习(SSL)的对比性方法通过最小化同一数据点的两个增强视图(正对)之间的距离和最大化不同数据点的视图(负对)来学习表示,但最近的非对比性SSL(如BYOL和SimSiam),通过额外的可学习预测器和停止梯度操作,在没有负对的情况下表现出了显著的性能。一个基本问题出现了:为什么这些方法没有坍缩成平凡表示?本文通过一个简单的理论研究来回答这个问题,并提出一种新方法DirectPred,直接根据输入的统计数据来设置线性预测器,而不需要梯度训练。在ImageNet上,它的表现与采用BatchNorm的更复杂的两层非线性预测器相当,在300轮的训练中比线性预测器高出2.5%(在60轮中高出5%)。DirectPred是由对简单线性网络中非对比性SSL的非线性学习动态的理论研究所激发的。该研究产生了对非对比性SSL方法如何学习的概念性见解,它们如何避免表示坍缩,以及多种因素,如预测器网络、停止梯度、指数移动平均线和权重衰减都是如何发挥作用的。
ReSSL: Relational Self-Supervised Learning with Weak Augmentation
ReSSL:弱增强的关系自监督学习
Open Problem: Is There an Online Learning Algorithm That Learns Whenever Online Learning Is Possible?
开放问题:有没有一种在线学习算法只要在线学习有可能就会学习?
YOLOX: Exceeding YOLO Series in 2021
Z Ge, S Liu, F Wang, Z Li, J Sun
[Megvii Technology]
YOLOX:2021超越YOLO系列。本文提出对YOLO系列的一些经验性的改进,形成了一个新的高性能检测器——YOLOX。将YOLO检测器切换到无锚方式,并采用其他先进的检测技术,即解耦头和先进的标签分配策略SimOTA,在所有模型大小上,YOLOX在速度和精度之间实现了比其他同类模型更好的权衡,在大规模模型上实现了最先进的结果。对于只有0.91M参数和1.08G FLOPs的YOLONano,在COCO上得到25.3%的AP,超过NanoDet 1.8%的AP;对于YOLOv3,工业界最广泛使用的检测器之一,我们将其在COCO上提升到47.3% AP,比目前的最佳结果高出3.0% AP;而YOLOX-L,其参数数量与YOLOv4CSP、YOLOv5-L大致相同,在Tesla V100上以68.9 FPS的速度在COCO上实现了50.0%的AP,比YOLOv5-L超出1.8%的AP。此外,用单个YOLOX-L模型赢得了流感知挑战赛(CVPR 2021自动驾驶Workshop)的第一名。
Graph Kernel Attention Transformers
K Choromanski, H Lin, H Chen, J Parker-Holder
[Google Brain Robotics & Columbia University & University of Oxford]
图核注意力Transformer。本文提出一种新的图神经网络(GNN),结合了迄今为止单独研究的几个概念:图核、具有结构先验的基于注意力的网络以及最近通过低秩分解技术小内存占用的隐性注意力方法的高效Transformer架构。本文的目标有两方面,所提出的图核注意力Transformer(或GKAT)比SOTA GNN的表现力要强得多,因为它能在单层内模拟较长距离的依赖关系。可以用更浅的架构设计。此外,GKAT注意力层在输入图的节点数量上是线性扩展,而不是二次扩展,即使这些图是密集的,需要的计算量也比普通的图注意力相对应的要少,通过应用新的图核类来实现这一目标,允许通过图上的随机游走进行随机特征图的分解。作为所提出技术的副产品,得到了一类新的可学习的图抽象,称为graphot,紧凑地编码了拓扑图的属性以及节点特征。对该方法与九种不同的GNN类进行了详尽的实证比较,其任务范围从主题检测到社交网络分类,再到生物信息学挑战,显示出GKAT带来的一致收益。
R-Drop: Regularized Dropout for Neural Networks
R-Drop:神经网络的正则化Dropout
Per-Pixel Classification is Not All You Need for Semantic Segmentation
B Cheng, A G. Schwing, A Kirillov
[Facebook AI Research (FAIR) & University of Illinois at Urbana-Champaign]
语义分割不必每像素分类。现代方法通常将语义分割表述为每像素分类任务,而实例级分割则通过另一种掩码分类来处理。掩码分类具有足够的通用性,可以用完全相同的模型、损失和训练程序,以统一方式解决语义层面和实例层面的分割任务。提出了MaskFormer,一种简单的掩码分类模型,预测一组二进制掩码,每个掩码都与一个全局类标签预测有关。所提出的基于掩码分类的方法简化了语义和全景分割任务的有效方法,并显示了出色的经验结果。当类的数量很大时,MaskFormer优于每像素分类基线。基于掩码分类的方法优于目前最先进的语义(ADE20K上的55.6 mIoU)和全景分割(COCO上的52.7 PQ)模型。
The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning
A Andreassen, Y Bahri, B Neyshabur, R Roelofs
[Google Research]
微调过程中分布外鲁棒性的演进。尽管机器学习模型在分布外数据上的性能通常会下降,但在对模型的测试平台进行评估时,普遍观察到分布外数据的准确性遵循某种单一的线性趋势。相对于这个基线,在分布外数据上更准确的模型表现出"有效的鲁棒性",而且非常罕见。识别这样的模型,并了解它们的特性,是提高分布外性能的关键。本文对微调期间的有效鲁棒性进行了彻底的实证调查,发现在较大的数据集上预训练的模型在训练期间表现出有效的鲁棒性,但在收敛时却消失了。研究了数据的属性是如何影响有效鲁棒性的,表明它随着数据集的规模越大、多样性越强、样本难度越高而增加。显示出有效鲁棒性的模型能够正确分类10%的样本,而目前其他的测试平台模型都没有得到正确的分类。最后,讨论了几种将有效鲁棒性扩展到高准确率体系的策略,以提高最先进模型的分布外准确率。
Collaboration of Experts: Achieving 80% Top-1 Accuracy on ImageNet with 100M FLOPs
Y Zhang, Z Chen, Z Zhong
[Huawei]
专家合作:用100M FLOPs在ImageNet上实现80%的Top-1准确率。本文提出一种专家协作(CoE)框架,将多个网络的专业知识汇集到一起,实现一个共同目标。每个专家都是一个单独的网络,在数据集的一个独特部分上有专长,这增强了协同能力。给定一个样本,由委托人选择一个专家,同时输出一个粗预测,以支持早期终止。为了实现这个框架,提出了三个模块来推动每个模型发挥其作用,即权重生成模块(WGM)、标签生成模块(LGM)和方差计算模块(VCM)。所提出方法在ImageNet上取得了最先进的性能,在194M FLOPs的情况下达到了80.7%的top-1精度。结合PWLU激活函数和CondConv,CoE首次在只有100M FLOPs的情况下进一步实现了80.0%的精度。该方法是硬件友好的,与现有的一些有条件计算方法相比,实现了3∼6倍的速度提升。
Depth-supervised NeRF: Fewer Views and Faster Training for Free
K Deng, A Liu, J Zhu, D Ramanan
[CMU & Google]
深度监督NeRF:更少的视图、更快的训练。神经辐射场(NeRF)模型的一个常见失败模式是,当给定的输入视图数量不足时,拟合出不正确的几何。本文提出深度监督神经辐射场(DS-NeRF),一种用来学习神经辐射场的损失,利用了现成的深度监督。其关键是,稀疏的深度监督可以用来正则化学到的几何,这是用NeRF有效渲染新视图的一个关键组成部分。利用了这样一个事实,即目前的NeRF管道需要具有已知摄像机位置的图像,这些位置通常是通过运行从运动中获得的结构(SFM)来估计的。最重要的是,SFM还能产生稀疏的三维点,在训练过程中可作为"免费"的深度监督:只需添加一个损失,以确保沿与这些三维点相交的射线渲染的深度接近观察到的深度。在较少的训练视图下,DS-NeRF可以渲染出更准确的图像,同时训练速度也提高了2-6倍。在真实世界的图像上只有两个训练视图的情况下,DS-NeRF明显优于NeRF以及其他稀疏视图的变体。所提出损失与这些NeRF模型兼容,证明深度是一个廉价且易用的监督信号。DS-NeRF支持其他类型的深度监督,如扫描的深度传感器和RGBD重建输出。
Predicting trends in the quality of state-of-the-art neural networks without access to training or testing data
C H. Martin, T (Serena)Peng, M W. Mahoney
[Calculation Consulting & UC Berkeley]
在无法获得训练数据或测试数据的情况下预测最先进神经网络的质量趋势。在许多应用中,人们使用由其他人训练的神经网络模型工作。对于这种预训练的模型,使用者可能无法获得训练数据或测试数据,也不了解模型的细节,例如,训练数据的具体情况、损失函数、超参数值等。考虑到一个或多个预训练模型,对模型的预期性能或质量有所了解是个挑战。本文通过对数百个公开可用的预训练模型进行详细的元分析来应对这一挑战,研究了基于规范的能力控制指标,以及最近开发的重尾自正则化理论中基于幂律的指标,发现基于规范的指标与报告的经过良好训练的模型的测试精度有很好的相关性,但它们往往不能区分训练良好与训练不足的模型;基于幂律的指标可以做得更好——在数值上可以更好地区分具有特定结构的一系列训练良好的模型,在质量上可以更好地区分训练良好和训练不足的模型。这些方法可用于识别预训练的神经网络何时出现问题,而这些问题不能通过检查训练/测试准确率来检测。
On Robustness and Transferability of Convolutional Neural Networks
J Djolonga, J Yung, M Tschannen, R Romijnders, L Beyer, A Kolesnikov, J Puigcerver, M Minderer, A D'Amour, D Moldovan, S Gelly, N Houlsby, X Zhai, M Lucic
[Google Research]
卷积神经网络的鲁棒性和可迁移性。现代深度卷积网络(CNN)经常被批评为在分布变化的情况下没有泛化能力。然而,最近在迁移学习方面的一些突破表明,这些网络可以应对严重的分布变化,并成功地适应来自少数训练样本的新任务。本文首次研究了现代图像分类CNN的分布外和迁移性能之间的相互作用,并研究了预训练数据大小、模型规模和数据预处理管道的影响。增加训练集和模型规模能明显改善分布迁移的鲁棒性。预处理中的简单变化,如修改图像分辨率,在某些情况下可以大大缓解鲁棒性问题。概述了现有鲁棒性评估数据集的缺点,引入了一个合成数据集SI-SCORE,用它来系统分析视觉数据中常见的变化因素,如物体大小和位置。
Self-Damaging Contrastive Learning
自损式对比学习
Z Jiang, T Chen, B Mortazavi, Z Wang
Visual Conceptual Blending with Large-scale Language and Vision Models
基于大规模语言和视觉模型的视觉概念整合
S Ge, D Parikh
[University of Maryland & Facebook AI Research]