^转摘CLIP: OpenAI 的多模态开山之作

2023-04-03 21:46:16怀南蓉阅读量 31

泻药。最近实验室里在做一些多模态方向的研究，于是回到CLIP好好巩固基础。这是一篇常读常新的文章，第一次读感觉方法很naive，第二遍读发现无监督和zero-shot是亮点，第三遍读发现关键竟然是robustness......

CLIP的方法相当简单，训练阶段用对比学习 拉开正负样本的距离来学习表征，测试阶段用双塔模型召回最匹配的text label。
![](https://pic1.zhimg.com/v2-49b7aed9bcb5662e95e4c866e82a2930_b.jpg) ![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='1440' height='516'></svg>)

乍一看是不是和EBR的思路一模一样？（对EBR还不了解的话，得先读这篇：[推荐系统EBR流派开山鼻祖：Embedding-based Retrieval in Facebook Search （Facebook KDD'20 ）论文精读](https://zhuanlan.zhihu.com/p/597635738)
![](https://pic4.zhimg.com/v2-b68c068e371eaca28b652b57821ae087_b.jpg) ![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='1392' height='1214'></svg>)

没错，思路就是这么简单，但是EBR还是基于用户click rate做的，CLIP直接全网数据爬虫，一图一文完美匹配，数据根本用不完，稍微做筛选即可。这俩工作的最大不同就是，CLIP完全无监督，不需要任何人工标注，因为图文数据在互联网上太多了。GPT系列也是这个思路，标自己的不如用现成的，大幅节约工作量。

如果到此为止，感觉也就是一种新的暴力堆料的方法，真正让我震撼的是这张讲鲁棒性的图......
![](https://pic3.zhimg.com/v2-d461b54e55df8c4a65be6f4a89a8e0aa_b.jpg) ![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='1440' height='579'></svg>)

有时候把数据集的图像稍微变一下（甚至只变几个像素），就会发现预测的结果完全不同。CLIP把这个性能提升了40%～50%，可以说是直接打穿了SOTA......其实业界最关心的就是robustness，如果稍微变一变图片结果就变了，连demo都过不去，别说上线了。专门拿一个section讲robustness的论文真的很少，这一块非常适合仔细研究，详见3.4节。

论文标题：Learning Transferable Visual Models From Natural Language Supervision

论文链接：[http://proceedings.mlr.press/v139/radford21a/radford21a.pdf](https://link.zhihu.com/?target=http://proceedings.mlr.press/v139/radford21a/radford21a.pdf)

0 摘要

SOTA 计算机视觉系统经过训练可以预测一组固定的预定对象类别。这种受限的监督形式限制了它们的通用性和可用性，因为需要额外的标记数据来指定任何其他视觉概念 。直接从有关图像的原始文本中学习是一种很有前途的替代方案，它可以利用更广泛的监督来源。我们证明了预测哪个标题与哪个图像对应的简单预训练任务是一种有效且可扩展的方式，可以在从互联网收集的 4 亿（图像、文本）对数据集上从头开始学习 SOTA 图像表示。预训练后，使用自然语言来引用学习到的视觉概念（或描述新概念），从而实现模型到下游任务的零样本迁移。我们研究了 30 多个不同的计算机视觉数据集的性能，涵盖 OCR、视频中的动作识别、地理定位和多种类型的细粒度对象分类等任务。该模型可以非平凡地迁移到大多数任务，并且通常可以与完全监督的基线相媲美，而无需任何数据集特定的训练。例如，我们在 ImageNet zero-shot 上匹配原始 ResNet50 的准确性，而无需使用它所训练的 128 万个训练示例中的任何一个。我们在 [GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image](https://link.zhihu.com/?target=https://github.com/OpenAI/CLIP) 上发布了我们的代码和预训练模型权重。

1 引入

直接从原始文本中学习的预训练方法在过去几年彻底改变了 NLP（Dai & Le, 2015; Peters et al., 2018; Howard & Ruder, 2018; Radford et al., 2018; Devlin et al., 2018 年；Raffel 等人，2019 年）。 "文本到文本"作为标准化输入输出接口的发展（McCann 等人，2018 年；Radford 等人，2019 年；Raffel 等人，2019 年）使与任务无关的架构能够零距离传输到下游数据集。像 GPT-3（Brown 等人，2020 年）这样的旗舰系统现在在使用定制模型的许多任务中具有竞争力，同时几乎不需要数据集特定的训练数据。

这些结果表明，现代预训练方法在网络规模的文本集合中可获得的总监督超过了高质量人群标记的 NLP 数据集。然而，在计算机视觉等其他领域，在 ImageNet 等人群标记数据集上预训练模型仍然是标准做法（Deng 等人，2009 年）。直接从网络文本中学习的可扩展预训练方法能否在计算机视觉领域取得类似的突破？之前的工作令人鼓舞。

Joulin 等人 (2016) 表明，经过训练以预测图像说明中的单词的 CNN 可以学习与 ImageNet 训练竞争的表征。李等 (2017) 然后将这种方法扩展到预测短语 n-grams 以及单个单词，并展示了他们的系统将零样本转移到其他图像分类数据集的能力。采用更新的架构和预训练方法，VirTex (Desai & Johnson, 2020)、ICMLM (Bulent Sariyildiz et al., 2020) 和 ConVIRT (Zhang et al., 2020) 最近展示了基于Transformer的语言建模的潜力、掩码语言建模和对比目标，以从文本中学习图像表示。

然而，上述模型仍然低于当前的 SOTA 计算机视觉模型，例如 Big Transfer (Kolesnikov et al., 2019) 和弱监督的 ResNeXt (Mahajan et al., 2018)。一个关键的区别是规模。虽然 Mahajan 等人 (2018) 和 Kolesnikov 等人 (2019) 在数百万至数十亿张图像上进行了加速器年训练，VirTex、ICMLM 和 ConVIRT 在 1 到 20 万张图像上进行了加速器日训练。我们缩小了这一差距，研究了大规模自然语言监督训练的图像模型的行为。我们证明了从头开始训练的 ConVIRT 的简化版本，我们称之为 CLIP，用于对比语言图像预训练，是一种从自然语言监督中学习的有效且可扩展的方法。我们发现 CLIP 在预训练期间学习执行一系列广泛的任务，包括 OCR、地理定位、动作识别，并且优于公开可用的最佳 ImageNet 模型，同时计算效率更高。我们还发现零样本 CLIP 模型比同等精度的受监督 ImageNet 模型更稳健。
![](https://pic2.zhimg.com/v2-e2d1f0143d50a4496b033edc41f54add_b.jpg) ![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='2186' height='784'></svg>)

图 1. 我们方法的总结。标准图像模型联合训练图像特征提取器和线性分类器来预测某些标签，而 CLIP 联合训练图像编码器和文本编码器来预测一批（图像、文本）训练示例的正确配对 。在测试时，学习的文本编码器通过嵌入目标数据集类的名称或描述来合成零样本线性分类器。

2 方法

我们工作的核心是从自然语言与图像配对中包含的监督中学习感知的想法。在以下小节中，我们将详细介绍我们的具体方法。

2.1. 创建足够大的数据集

现有工作主要使用了三个数据集，MS-COCO (Lin et al., 2014)、Visual Genome (Krishna et al., 2017) 和 YFCC100M (Thomee et al., 2016)。虽然 MS-COCO 和 Visual Genome 是高质量的人群标记数据集，但按照现代标准，它们很小，每个数据集大约有 100,000 张训练照片。相比之下，其他计算机视觉系统接受了多达 35 亿张 Instagram 照片的训练（Mahajan 等人，2018 年）。拥有 1 亿张照片的 YFCC100M 是一个可能的替代方案，但每张图像的元数据稀疏且质量参差不齐。许多图像使用自动生成的文件名，如 20160716 113957.JPG 作为"标题"或包含相机曝光设置的"描述"。在过滤以仅保留具有自然语言标题和/或英文描述的图像后，数据集缩小了 6 倍，只有 1500 万张照片。这与 ImageNet 的大小大致相同。

自然语言监督的一个主要动机是互联网上公开提供的大量这种形式的数据。 为了对此进行测试，我们构建了一个包含 4 亿对（图像、文本）的新数据集，这些数据集是从 Internet 上的各种公开资源中收集的。为了尝试涵盖尽可能广泛的一组视觉概念，我们搜索（图像，文本）对作为构建过程的一部分，其文本包含一组 500,000 个查询中的一个。我们通过在每个查询中包含多达 20,000 个（图像、文本）对来大致平衡结果。生成的数据集的总字数与用于训练 GPT-2 的 WebText 数据集相似。我们将此数据集称为 WebImageText (WIT)。

2.2. 选择高效的预训练方法

我们最初的方法类似于 VirTex，从头开始联合训练图像 CNN 和文本转换器来预测图像的标题。然而，我们在有效扩展这种方法时遇到了困难。在图 2 中，我们展示了一个 6300 万参数的Transformer语言模型，它已经使用了其 ResNet50 图像编码器两倍的计算，学习识别 ImageNet 类的速度比类似于 Joulin 等人预测同一文本的词袋编码的方法慢三倍 (2016) 。
![](https://pic2.zhimg.com/v2-b57864e7ba51f2b8a0fd4f7c3dbea811_b.jpg) ![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='1022' height='776'></svg>)

图 2.CLIP 在零样本传输方面比我们的图像说明基线更有效。尽管表现力很强，但我们发现基于 Transformer 的语言模型在零样本 ImageNet 分类方面相对较弱。在这里，我们看到它的学习速度比预测文本词袋 (BoW) 编码的基线慢 3 倍 (Joulin et al., 2016)。将预测目标换成 CLIP 的对比目标，进一步将效率提高了 4 倍。

最近在对比表示学习方面的工作发现，对比目标可以胜过等效的预测目标（Tian 等人，2019 年）。注意到这一发现，我们探索了训练一个系统来解决可能更容易的代理任务，即仅预测整个文本与哪个图像配对，而不是预测该文本的确切单词。从相同的词袋编码基线开始，我们将预测目标换成图 2 中的对比目标，观察到 ImageNet 的零样本传输率进一步提高了 4 倍的效率。

给定一批 N（图像，文本）对，CLIP 被训练来预测批次中 N × N可能（图像，文本）对中的哪一个实际发生。为此，CLIP 通过联合训练图像编码器和文本编码器来学习多模态嵌入空间，以最大化批次中 N 个实数对的图像和文本嵌入的余弦相似度，同时最小化 N^2 - N 个不正确的配对。我们优化了这些相似性分数的对称交叉熵损失。在图 3 中，我们包含了 CLIP 实现核心的伪代码。这种批量构建技术和目标首先作为多类 N 对损失 Sohn (2016) 引入，最近被 Zhang 等人改编为医学成像领域的对比（文本、图像）表示学习（2020）。
![](https://pic3.zhimg.com/v2-fcb7bed05c9dd9f03be4b25a110b66d2_b.jpg) ![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='1054' height='956'></svg>) 图 3. CLIP 实现核心的类似 Numpy 的伪代码。

由于过度拟合不是主要问题，因此与 Zhang 等人相比，CLIP 的训练细节得到了简化（2020）。我们从头开始训练 CLIP，而不是使用预训练的权重进行初始化。我们删除了表示和对比嵌入空间之间的非线性投影。我们仅使用线性投影将每个编码器的表示映射到多模态嵌入空间。我们还删除了文本转换函数 tu，它从文本中统一采样单个句子，因为 CLIP 的预训练数据集中的许多（图像，文本）对只是单个句子。我们还简化了图像变换函数 tv。来自调整大小的图像的随机正方形裁剪是训练期间使用的唯一数据增强。最后，控制 softmax 中 logits 范围的温度参数 τ 在训练期间直接优化为对数参数化乘法标量，以避免转为超参数。

2.3. 选择和缩放模型

我们考虑图像编码器的两种不同架构。首先，我们使用 ResNet50 (He et al., 2016a) 作为图像编码器的基础架构，因为它的广泛采用和经过验证的性能。我们使用 He 等人的 ResNetD 改进对原始版本进行了一些修改。 (2019) 和 Zhang (2019) 的抗锯齿 rect-2 模糊池 。我们还用注意力池机制替换了全局平均池层。注意力池被实现为单层"Transformer式"多头 QKV 注意力，其中查询以图像的全局平均池表示为条件。对于第二种架构，我们试验了最近推出的 Vision Transformer (ViT)（Dosovitskiy 等人，2020 年）。我们密切关注它们的实现，只对变换器之前的组合补丁和位置嵌入添加了额外的层归一化，并使用了稍微不同的初始化方案。文本编码器是一个 Transformer（Vaswani 等人，2017），具有 Radford 等人中描述的架构修改（2019）。作为基本尺寸，我们使用具有 8 个注意力头的 12 层 512 宽模型。转换器对文本的小写字节对编码 (BPE) 表示进行操作（Sennrich 等人，2015 年）。文本序列用 [SOS] 和 [EOS] 标记括起来，转换器最高层在 [EOS] 标记处的激活被用作文本的特征表示，该文本被层归一化，然后线性投影到多模态嵌入空间。 Masked self-attention 在文本编码器中使用，以保留添加语言建模作为辅助目标的能力，尽管对此的探索留给未来的工作。

虽然以前的计算机视觉研究通常通过单独增加宽度（Mahajan 等人，2018 年）或深度（He 等人，2016a）来缩放模型，但对于 ResNet 图像编码器，我们采用了 Tan & Le (2019) 的方法来发现在所有宽度、深度和分辨率上分配额外的计算优于仅将其分配给一个维度。我们使用一个简单的变体，它平均分配额外的计算来增加模型的宽度、深度和分辨率。对于文本编码器，我们只缩放模型的宽度，使其与计算出的 ResNet 宽度增加成正比，根本不缩放深度，因为我们发现 CLIP 的性能对文本编码器不太敏感。

2.4. Pre-training

我们训练了一系列的 5 个 ResNets 和 3 个 Vision Transformer。对于 ResNet，我们训练了一个 ResNet50、一个 ResNet101，然后是另外 3 个，它们遵循 EfficientNet 风格的模型缩放，并使用大约 4 倍、16 倍和 64 倍的 ResNet50 计算。它们分别表示为 RN50x4、RN50x16 和 RN50x64。对于 Vision Transformers，我们训练了一个 ViT-B/32、一个 ViT-B/16 和一个 ViT-L/14。最大的 ResNet 模型 RN50x64 在 592 个 V100 GPU 上训练了 18 天，而最大的 Vision Transformer 在 256 个 V100 GPU 上训练了 12 天。对于 ViT-L/14，我们还以更高的 336 像素分辨率对一个额外的 epoch 进行了预训练，以提高类似于 FixRes 的性能（Touvron 等人，2019）。我们将此模型表示为 ViT-L/14@336px。除非另有说明，否则本文中报告为"CLIP"的所有结果均使用我们发现性能最佳的模型。完整的模型超参数和详细信息在补充材料中。

2.5. 使用 CLIP

CLIP 经过预训练，可以预测图像和文本片段是否在 WIT 中配对。为了将 CLIP 应用于下游任务，我们重用了此功能并研究了 CLIP 在标准计算机视觉数据集上的零镜头传输性能。类似于 Radford 等人 (2019) 我们将此作为衡量系统任务学习能力（与其表征学习能力相对）的一种方式。对于每个数据集，我们使用数据集中所有类的名称作为潜在文本对的集合，并根据 CLIP 预测最可能的（图像，文本）对。我们还尝试为 CLIP 提供文本提示以帮助指定任务以及集成多个这些模板以提高性能。然而，由于绝大多数无监督和自监督计算机视觉研究都集中在表示学习上，我们还使用通用线性探针协议针对 CLIP 对此进行了研究。

3 分析

3.1. 与视觉 N-Grams 的初步比较

据我们所知，Visual N-Grams (Li et al., 2017) 首先以上述方式研究了对现有图像分类数据集的零样本迁移。这也是我们所知道的唯一一项使用任务不可知预训练模型研究 zero-shot 迁移到标准图像分类数据集的工作。在表 1 中，我们将 Visual N-Grams 与 CLIP 进行了比较。最好的 CLIP 模型将 ImageNet 上的准确性从概念验证的 11.5% 提高到 76.2%，并且与原始 ResNet50 的性能相匹配，尽管没有使用 128 万个人群标记的训练示例。此外，CLIP 模型的 top-5 准确率明显更高，该模型具有 95% 的 top-5 准确率，与 Inception-V4 相匹配（Szegedy 等人，2016 年）。在零样本设置中匹配强大的、完全监督的基线性能的能力表明 CLIP 是朝着灵活实用的零样本计算机视觉分类器迈出的重要一步。这种比较不是直接的，因为没有控制 CLIP 和 Visual N-Grams 之间的许多差异。作为更仔细的比较，我们在训练 Visual N-Grams 的同一 YFCC100M 数据集上训练了 CLIP ResNet50，发现它在 V100 GPU 日内与他们报告的 ImageNet 性能相匹配。这个基线也是从头开始训练的，而不是像在 Visual N-Grams 中那样从预训练的 ImageNet 权重中初始化。
![](https://pic1.zhimg.com/v2-7e76e407768ad5f2683f9e272bb4d9fc_b.jpg) ![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='1064' height='1166'></svg>)

图 4. 零样本 CLIP 与完全监督的基线相比具有竞争力。在 27 个数据集评估套件中，零样本 CLIP 分类器优于完全监督的线性分类器，该分类器适用于 16 个数据集（包括 ImageNet）上的 ResNet50 特征。

3.2 零样本性能

在计算机视觉中，零样本学习通常是指在图像分类中泛化到不可见对象类别的研究 (Lampert et al., 2009)。相反，我们在更广泛的意义上使用该术语，并研究对未见数据集的泛化。正如 Larochelle 等人的零数据学习论文所期望的那样，我们将其作为执行看不见的任务的代理来激励 (2008)。虽然无监督学习领域的许多研究都集中在机器学习系统的表示学习能力上，但我们鼓励研究零样本迁移作为衡量机器学习系统任务学习能力的一种方式。在此视图中，数据集评估特定分布上任务的性能。然而，许多流行的计算机视觉数据集是由研究社区创建的，主要作为指导通用图像分类方法开发的基准，而不是测量特定任务的性能。据我们所知，Visual N-Grams (Li et al., 2017) 首先以上述方式研究了对现有图像分类数据集的零样本迁移。

为了进行更全面的分析，我们实施了一个更大的评估套件，详见补充材料。总的来说，我们从 Visual N-Grams 中报告的 3 个数据集扩展到包括 30 多个数据集，并与 50 多个现有的计算机视觉系统进行比较以将结果上下文化。首先，我们看看 CLIP 的零样本分类器与简单的现成基线相比的表现如何：在规范 ResNet50 的特征上拟合一个完全监督的、正则化的逻辑回归分类器。在图 4 中，我们展示了 27 个数据集的这种比较。

零样本 CLIP 略微优于该基线，并在 27 个数据集中的 16 个上获胜。数据集零样本 CLIP 改进最多的是 STL10，该数据集旨在通过仅包含有限数量的标记示例来鼓励无监督学习。零样本 CLIP，在不使用任何训练示例的情况下，在这个数据集上达到了 99.3%，这似乎是一个新的 SOTA。在细粒度分类任务中，我们观察到性能差异很大。在其中两个数据集 Stanford Cars 和 Food101 上，零样本 CLIP 在 ResNet50 特征上的表现优于逻辑回归 20% 以上，而在 Flowers102 和 FGVCAircraft 上，zeroshot CLIP 的表现不及 10% 以上。我们怀疑这些差异主要是由于 WIT 和 ImageNet 之间每个任务的监督数量不同。在 ImageNet、CIFAR10 和 PascalVOC2007 等"通用"对象分类数据集上，性能相对相似，零样本 CLIP 略有优势。零样本 CLIP 在两个测量视频动作识别的数据集上明显优于 ResNet50。在 Kinetics700 上，CLIP 比 ResNet50 高出 14.5%。零样本 CLIP 在 UCF101 上的性能也优于 ResNet50 的特性 7.7%。我们推测这是由于与 ImageNet 中以名词为中心的对象监督相比，自然语言为涉及动词的视觉概念提供了更广泛的监督。

查看零样本 CLIP 明显表现不佳的地方，我们发现零样本 CLIP 在卫星图像分类（EuroSAT 和 RESISC45）、淋巴结肿瘤检测（PatchCamelyon）、计数对象等几个专门的、复杂的或抽象的任务上相当薄弱在合成场景（CLEVRCounts）中，自动驾驶相关任务，如德国交通标志识别（GTSRB），识别到最近汽车的距离（KITTI Distance）。这些结果凸显了零样本 CLIP 在更复杂任务上的较差能力。相比之下，非专家人员可以稳健地执行其中的多项任务，例如计数、卫星图像分类和交通标志识别，这表明还有很大的改进空间。然而，我们警告说，与小样本迁移相比，测量零样本迁移是否是对学习者之前没有经验的困难任务的有意义的评估尚不清楚，例如几乎所有人类的淋巴结肿瘤分类（和可能的CLIP）。

虽然将零样本性能与完全监督模型进行比较可以使 CLIP 的任务学习能力情境化，但与少样本方法进行比较是更直接的比较，因为零样本是它的极限。在图 5 中，我们可视化了零样本 CLIP 与少样本逻辑回归在许多图像模型（包括最佳公开可用的 ImageNet 模型、自监督学习方法和 CLIP 本身）的特征上的比较。虽然人们可能认为零样本的表现不如单样本，但我们发现零样本 CLIP 在同一特征空间上与 4 样本逻辑回归的性能相匹配。这可能是由于零样本和少样本方法之间的关键区别。**首先，CLIP 的零样本分类器是通过自然语言生成的，允许直接指定（"交流"）视觉概念。相比之下，"正常"的监督学习必须间接地从训练示例中推断出概念。**无上下文的基于示例的学习的缺点是许多不同的假设可能与数据一致，尤其是在一次性情况下。单个图像通常包含许多不同的视觉概念。尽管有能力的学习者能够利用视觉线索和启发式方法，例如假设正在展示的概念是图像中的主要对象，但这并不能保证。
![](https://pic2.zhimg.com/v2-5fb4a88bc7c62c079787403e7375f23d_b.jpg) ![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='1014' height='722'></svg>)

图 5. 零样本 CLIP 优于少样本线性probe。零样本 CLIP 与在同一特征空间上训练的 4 样本线性分类器的平均性能相匹配，并且几乎与 16 样本线性分类器在公开可用模型中的最佳结果相匹配。对于 BiT-M 和 SimCLRv2，突出显示了性能最佳的模型。浅灰色线是评估套件中的其他模型。该分析使用了 20 个数据集，每个类至少有 16 个示例。

3.3. 表征学习

虽然我们专注于通过零样本迁移研究 CLIP 的任务学习能力，但更常见的是研究模型的表征学习能力。我们使用线性探针评估协议，因为它需要最少的超参数调整并且具有标准化的评估程序。有关评估的更多详细信息，请参阅补充材料。

图 6 总结了我们的发现。为了最大限度地减少可能引起确认或报告偏差担忧的选择效应，我们首先研究了 Kornblith 等人的 12 个数据集评估套件的性能（2019）。使用 CLIP 训练的模型在计算方面表现得非常好，我们最大的模型在总体得分和计算效率方面略优于现有的最佳模型（嘈杂学生 EfficientNet-L2）。我们还发现 CLIP 视觉Transformer的计算效率比 CLIP ResNets 高出约 3 倍，这在我们的计算预算内实现了更高的整体性能。这些结果重复了 Dosovitskiy 等人的报告说，在足够大的数据集上训练时，视觉转换器比卷积神经网络的计算效率更高。我们最好的整体模型 ViT-L/14@336px 比整个评估套件中最好的现有模型平均高出 2.6%。
![](https://pic3.zhimg.com/v2-b9453362803bdbcf3e35316a9110c1d6_b.jpg) ![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='2202' height='1348'></svg>)

图 6. CLIP 模型的线性探测性能与 SOTA 计算机视觉模型的比较，包括 EfficientNet (Tan & Le, 2019; Xie et al., 2020)、MoCo (Chen et al., 2020b)、Instagram 预训练的 ResNeXt 模型 ( Mahajan 等人，2018 年；Touvron 等人，2019 年）、BiT（Kolesnikov 等人，2019 年）、ViT（Dosovitskiy 等人，2020 年）、SimCLRv2（Chen 等人，2020a）、BYOL（Grill 等人， ., 2020) 和原始 ResNet 模型 (He et al., 2016b)。（左）分数是 Kornblith 等人研究的 12 个数据集的平均值。（2019）。（右）分数是 27 个包含更广泛分布的数据集的平均值。虚线表示模型在比预训练更高分辨率的图像上进行微调或评估。 请参阅补充材料以了解每个数据集的各个模型分数。

CLIP 模型学习的任务集比之前在从随机初始化端到端训练的单个计算机视觉模型中展示的任务集更广泛。这些任务包括地理定位、光学字符识别、面部情绪识别和动作识别。这些任务都没有在 Kornblith 等人的评估套件中进行测量（2019）。在 Kornblith 等人中，这可能被认为是一种对与 ImageNet 重叠的任务的研究中的选择偏差 (2019) 。为了解决这个问题，我们还测量了更广泛的 27 个数据集评估套件的性能。附录 A 中详细介绍了该评估套件，包括代表上述任务的数据集、德国交通标志识别基准（Stallkamp 等人，2011 年）以及改编自 VTAB 的其他几个数据集（Zhai 等人，2019 年）。在这个更广泛的评估套件上，CLIP 的优势更加明显。所有 CLIP 模型，无论规模如何，在计算效率方面都优于所有评估的系统。最佳模型的平均得分比以前的系统提高了 2.6% 到 5%。

3.4. 对自然分布变化的稳健性

2015 年，宣布深度学习模型在 ImageNet 测试集上的表现超过了人类（He 等人，2015 年）。然而，随后几年的研究一再发现这些模型仍然会犯许多简单的错误（Dodge & Karam，2017 年；Geirhos 等人，2018 年；Alcorn 等人，2019 年），并且测试这些系统的新基准测试经常发现它们的性能远低于人类精度和 ImageNet 性能（Recht 等人，2019 年；Barbu 等人，2019 年）。陶里等人 (2020) 是一项最近的综合研究，旨在对 ImageNet 模型进行量化和理解。陶里等人 (2020) 研究 ImageNet 模型的性能在评估自然分布变化时如何变化。他们衡量一组 7 个分配班次的绩效。陶里等人 (2020) 发现分布偏移下的准确度随着 ImageNet 准确度的增加而可预测地增加，并且被很好地建模为 logit 转换准确度的线性函数。陶里等人 (2020) 利用这一发现提出稳健性分析应区分有效稳健性和相对稳健性。有效稳健性衡量分布偏移下精度的提高，高于分布内和分布外精度之间记录的关系所预测的精度。相对稳健性捕捉分布外精度的任何改进。陶里等人 (2020) 认为鲁棒性技术应该旨在提高有效鲁棒性和相对鲁棒性。

然而，Taori 等人研究的几乎所有模型 (2020) 在 ImageNet 数据集上都进行了训练或微调。训练或适应 ImageNet 数据集分布是观察到的稳健性差距的原因吗？直觉上，零样本模型不应该能够利用仅适用于特定分布的虚假相关性或模式，因为它没有针对该分布进行训练。因此，零样本模型可能表现出更高的有效鲁棒性。在图 7 中，我们比较了零样本 CLIP 与现有 ImageNet 模型在自然分布偏移方面的性能。所有零样本 CLIP 模型都大大提高了有效鲁棒性，并将 ImageNet 精度与分布偏移下的精度之间的差距降低了高达 75%。零样本 CLIP 模型追踪了与 Taori 等人研究的所有 204 个先前模型完全不同的鲁棒性边界（2020）。这些结果表明，最近向大规模任务和数据集不可知预训练的转变以及对零样本迁移评估的重新定位（如 Yogatama 等人（2019 年）和 Linzen（2020 年）所倡导的那样）促进了更多强大系统的发展，并提供对真实模型性能的更准确评估。
![](https://pic1.zhimg.com/v2-bb7b39d1625b49c8db939de9a2a2c024_b.jpg) ![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='2074' height='834'></svg>)

图 7. 零样本 CLIP 比标准 ImageNet 模型对分布偏移更稳健。（左）理想的稳健模型（虚线）在 ImageNet 分布和其他自然图像分布上表现同样出色。零样本 CLIP 模型将这种"鲁棒性差距"缩小了 75%。对 logit 变换值的线性拟合显示为带有 bootstrap 估计的 95% 置信区间。（右）可视化香蕉的分布变化，这是 7 个自然分布变化数据集中的 5 个共享的一个类。将最佳零样本 CLIP 模型的性能与在 ImageNet 验证集 ResNet101 上具有相同性能的模型进行比较。

复制代码

    ```
    

    ===========================
    【来源： 知乎】
    【作者： HeptaAI】
    【原文链接】 https://zhuanlan.zhihu.com/p/619031497
    声明：转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本网联系，我们将及时更正、删除，谢谢。
    ```

标签：深度学习（Deep Learning）多模态学习机器学习

0/300

全部评论0