当自监督遇上语言-图像预训练,UC伯克利提出多任务框架SLIP( 二 )
评估实验
ImageNet分类任务
该研究在三种不同的设置下评估了模型在ImageNet上的性能:零样本迁移、线性分类和端到端微调 。
零样本迁移任务在预训练后直接在分类基准上评估模型性能 , 而无需更新任何模型权重 。 通过简单地选择字幕嵌入与输入图像最接近的类 , 可以将使用对比语言监督训练的模型用作图像分类器;
线性分类 , 也称为线性探测 , 是一种用于评估无监督或自监督表征的标准评估方法 。 训练随机初始化的终极分类层 , 同时冻结所有其他模型权重;
最后 , 另一种评估表征质量的方法是 , 在对模型进行端到端微调时 , 评估预训练模型是否可以提高监督学习的性能 。
自监督学习中一种常见的评估设置是在ImageNet(即ImageNet-1K)上训练模型和线性分类器 , 即使没有标签 , 它也是一个高度策划和类平衡的数据集 。 表1在YFCC15M和ImageNet上使用SimCLR和MoCov3训练ViT-B/16 。 在ImageNet上对线性分类和端到端微调进行了模型评估 。 当在YFCC15M而不是ImageNet上进行预训练时 , SimCLR和MoCov3的线性分类准确率下降了10%以上 , 性能急剧下降 。

文章图片
下表2提供了三种尺寸的VisionTransformer和所有三种ImageNet设置的CLIP、SimCLR和SLIP的评估结果 。 所有模型都在YFCC15M上训练了25个epoch 。 该研究发现语言监督和图像自监督在SLIP中建设性地相互作用 , 单独提高了这两种方法的性能 。

文章图片
模型规模和计算量扩展
在这一部分 , 研究者探索了使用更大的计算量(训练更久)和更大的视觉模型之后 , SLIP的表现有何变化 。 他们注意到 , YFCC15M上的100个训练epoch对应着ImageNet1K上的1200个训练epoch 。
下表3的结果表明 , 无论是增加训练时间 , 还是增大模型尺寸 , SLIP都能实现良好的扩展 。

文章图片
其他基准
在下表4中 , 研究者评估了一组下游图像分类任务上的zero-shot迁移学习性能 。 这些数据集跨越许多不同的领域 , 包括日常场景(如交通标志)、专业领域(如医疗和卫星图像)、视频帧、带有或不带有视觉上下文的渲染文本等 。
在这些数据集上 , 我们看到 , 更大的模型和使用SLIP进行更长时间的训练通常可以提高zero-shot迁移学习的准确性 。

文章图片
其他预训练数据集
除了YFCC15M之外 , 研究者还用另外两个图像-文本数据集——CC12M和CC3M——进行了实验 。 如下表5所示 , 他们在CC12M和CC3M上同时使用SLIP和CLIP训练ViT-B/16 , 并与他们之前在YFCC15M上得到的数据进行比较 。 在所有的ImageNet评估设置中 , SLIP都比CLIP有改进的余地 。 值得注意的是 , 在CC12M而不是YCC15M上预训练SLIP会产生较低的zero-shot准确率 , 但实际上会带来较高的线性和微调性能 。 CLIP让人看到了更惊艳的1.6%的微调性能提升 。

文章图片
其他自监督框架
作者在论文中提到 , SLIP允许使用许多不同的自监督方法 。 他们用SimCLR的不同替代方法——MoCov3、BYOL和BeiT在ViT-B/16上进行了几次实验 。
下表6显示 , 三种替代方法的表现都比不上SLIP-SimCLR 。 最令人惊讶的结果是 , 尽管BEiT是这里测试的最强的自监督方法 , 但SLIP-BEiT的表现最差 。 这可能是由于预训练和部署阶段之间的输入差异较大 。 尽管如此 , 所有这些次优的SLIP变体仍然比CLIP性能要高 。
- 七彩虹|七彩虹Colorfly首款USB解码放大器遇上仲夏夜之梦:只需499元
- 硬盘|华为、小米手环遇上大对手,dido Y1智能手环深度评测,血压心率检测更专业
- “企腾腾”监督在线 助力企业腾退阳光运行
- 当老年人遇上VR,Rendever如何为疗养院带来惊喜?
- 三星|618遇上毕业季,苹果三星OPPO人气机型怎么选?实际体验后秒懂
- 大家注意了:遇上2种纸钞不要收,花不出去,就连银行也不愿收?
- Google|当“哏都”遇上智能
- iqoo|父亲节遇上618,送手机首选iQOO Z5、OPPO K9s
- 网友热议|知名网红粥铺出售口水粥 糟糕卫生让人看吐:员工揭秘内部监督不够
- 华廉领导干部廉政档案管理系统|华廉领导干部廉政档案管理系统,为履行监督职责插上科技“翅膀”
