当自监督遇上语言-图像预训练，UC伯克利提出多任务框架SLIP( 二 )

评估实验
ImageNet分类任务
该研究在三种不同的设置下评估了模型在ImageNet上的性能：零样本迁移、线性分类和端到端微调。
零样本迁移任务在预训练后直接在分类基准上评估模型性能，而无需更新任何模型权重。通过简单地选择字幕嵌入与输入图像最接近的类，可以将使用对比语言监督训练的模型用作图像分类器；
线性分类，也称为线性探测，是一种用于评估无监督或自监督表征的标准评估方法。训练随机初始化的终极分类层，同时冻结所有其他模型权重；
最后，另一种评估表征质量的方法是，在对模型进行端到端微调时，评估预训练模型是否可以提高监督学习的性能。
自监督学习中一种常见的评估设置是在ImageNet（即ImageNet-1K）上训练模型和线性分类器，即使没有标签，它也是一个高度策划和类平衡的数据集。表1在YFCC15M和ImageNet上使用SimCLR和MoCov3训练ViT-B/16 。在ImageNet上对线性分类和端到端微调进行了模型评估。当在YFCC15M而不是ImageNet上进行预训练时， SimCLR和MoCov3的线性分类准确率下降了10%以上，性能急剧下降。

文章图片
下表2提供了三种尺寸的VisionTransformer和所有三种ImageNet设置的CLIP、SimCLR和SLIP的评估结果。所有模型都在YFCC15M上训练了25个epoch 。该研究发现语言监督和图像自监督在SLIP中建设性地相互作用，单独提高了这两种方法的性能。

文章图片
模型规模和计算量扩展
在这一部分，研究者探索了使用更大的计算量（训练更久）和更大的视觉模型之后， SLIP的表现有何变化。他们注意到， YFCC15M上的100个训练epoch对应着ImageNet1K上的1200个训练epoch 。
下表3的结果表明，无论是增加训练时间，还是增大模型尺寸， SLIP都能实现良好的扩展。

文章图片
其他基准
在下表4中，研究者评估了一组下游图像分类任务上的zero-shot迁移学习性能。这些数据集跨越许多不同的领域，包括日常场景（如交通标志）、专业领域（如医疗和卫星图像）、视频帧、带有或不带有视觉上下文的渲染文本等。
在这些数据集上，我们看到，更大的模型和使用SLIP进行更长时间的训练通常可以提高zero-shot迁移学习的准确性。

文章图片
其他预训练数据集
除了YFCC15M之外，研究者还用另外两个图像-文本数据集——CC12M和CC3M——进行了实验。如下表5所示，他们在CC12M和CC3M上同时使用SLIP和CLIP训练ViT-B/16 ，并与他们之前在YFCC15M上得到的数据进行比较。在所有的ImageNet评估设置中， SLIP都比CLIP有改进的余地。值得注意的是，在CC12M而不是YCC15M上预训练SLIP会产生较低的zero-shot准确率，但实际上会带来较高的线性和微调性能。 CLIP让人看到了更惊艳的1.6%的微调性能提升。

文章图片
其他自监督框架
作者在论文中提到， SLIP允许使用许多不同的自监督方法。他们用SimCLR的不同替代方法——MoCov3、BYOL和BeiT在ViT-B/16上进行了几次实验。
下表6显示，三种替代方法的表现都比不上SLIP-SimCLR 。最令人惊讶的结果是，尽管BEiT是这里测试的最强的自监督方法，但SLIP-BEiT的表现最差。这可能是由于预训练和部署阶段之间的输入差异较大。尽管如此，所有这些次优的SLIP变体仍然比CLIP性能要高。