搜索

MixMIM 创建混合图像,提出新型掩码方案


发布时间: 2023-01-31 19:03:00    浏览次数:19 次

分享时间:2023-01-31 19:03:00
数据来源:网络
提取密码:在线浏览
文件类型:文章

出品人:Towhee 技术团队 顾梦佳

商汤和港中文联合提出一种简单但有效的掩码图像建模(MIM)方法 MixMIM,通过创建混合图像利用BEiT和MAE的优点,又避免了它们的局限性。MixMIM 可以有效地学习高质量的视觉表示,也能被广泛应用于预训练的层次化视觉 Transformer,比如 Swin Transformer、PVT 等。MixMIM 还探索了轻量级架构,将 Swin Transformer 修改为预训练和知识迁移的编码器。由于层次结构,MixMIM 适用于各种下游任务,比如图像分类、目标检测、语义分割任务。实验结果表明,在模型尺寸和 FLOPs 相似的情况下,MixMIM 在广泛的下游任务上始终优于 BEiT 和 MAE,包括公开图像数据集 ImageNet、iNaturalist 和 Places上的图像分类,COCO上的目标检测和实例分割,以及 ADE20K 上的语义分割。

图片

Overview of MixMIM

给定训练集中的两幅随机图像,MixMIM 使用随机混合掩码创建一幅混合图像作为输入。模型会训练一个层次化 ViT 来重建两幅原始图像,用于学习视觉表示。不同于传统方法中用特殊的掩码符号替换输入图像的掩码 token,MixMIM 选择用另一个图像的视觉 token 替换掩码 token。另外,MixMIM 依然采用了编码器-解码器的结构设计。编码器处理混合图像以获得两个部分掩蔽图像的隐藏表示,而解码器则用于重建两个原始图像。

相关资料:
代码地址:https://github.com/Sense-X/Mi...
论文链接:MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning
更多资料:性能超MAE、BEiT和MoCoV3!商汤&港中文提出MixMIM:在混合图像上进行MIM

免责声明 MixMIM 创建混合图像,提出新型掩码方案,资源类别:文本, 浏览次数:19 次, 文件大小:-- , 由本站蜘蛛搜索收录2023-01-31 07:03:00。此页面由程序自动采集,只作交流和学习使用,本站不储存任何资源文件,如有侵权内容请联系我们举报删除, 感谢您对本站的支持。 原文链接:https://segmentfault.com/a/1190000043370509