您的位置:网站首页->聚焦中国 -> 正文

浪潮信息:新型自监督学习框架论文入选CVPR 2022

时间: 2022-07-05 22:13:05 来源: dddddddd

北京2022年7月4日 /美通社/ -- 在近日举办的IEEE国际计算机与模式识别会议CVPR 2022期间,浪潮信息AI团队提交的论文《CoDo: Contrastive Learning with Downstream Background Invariance for Detection (CoDo:在自监督学习中引入下游数据的背景不变性)》成功入选。论文提出了一种新的自监督学习框架,在自监督学习的预训练过程兼顾下游数据的背景不变性,以提升自监督学习在下游目标检测任务的性能,并通过初步实验证明了方法的有效性。CVPR是计算机视觉领域三大世界顶级会议之一,今年线下注册参会人数达到了5641人。在论文方面,CVPR 2022共收到了8161篇投稿,最终接收了2064篇论文,接收率约为25.3%,论文研究方向涵盖目标检测、图像分割、医学影像、模型压缩、图像处理、文本检测等。

自监督学习可以对海量数据进行自主学习,无需像监督学习那样进行复杂的数据标注,有望改变自动驾驶等数据生成量巨大、标注成本高昂行业的工作模式,因此被认为是计算机视觉领域中有望带来突破的重点方向。目前,虽然基于对比学习的自监督学习方法在图像分类任务上取得了与监督型学习相近甚至更优的性能,但是将其应用于下游任务如目标检测时,常常会出现明显的性能差距。

浪潮信息AI团队提出的自监督学习框架CoDo,在预训练中引入上下游任务数据集充当背景,预训练图像的推荐框粘贴到背景图像上,边框经过比例变换及扰动后,作为增强样本参与对比学习。由于背景为上下游数据集,模型实际上获得了前景目标的背景不变性能力。这意味着无论背景如何变化,模型都能够准确定位前景目标,这对于目标检测类人工智能任务尤为重要。

CoDo模型架构图
CoDo模型架构图

论文采用CPJ数据增强方法、目标检测结构对齐及层次对比学习构建,并通过初步实验证明了方法的有效性。在实验中,研究团队使用浪潮AI服务器NF5488A5作为模型训练平台,使用COCO数据集以R50-FPN作为backbone的Mask R-CNN的目标检测与语义分割性能进行分析。结果显示,在1×schedule设置下,CoDo的检测性能相比于基线模型MoCo-v2提升了0.8 AP,在2×schedule设置下,CoDo的检测性能相比于基线模型MoCo-v2提升了0.9AP,而多视角版本的CoDom最终取得了43.1 AP的优异性能。

Mask R-CNN(R50-FPN)在COCO数据集的的下游任务性能

此外,研究团队评估了CoDo中Query Network和Key Network的背景数据集的选择策略。实验发现,相比于两路引入不同数据集,引入相同数据集性能更优,同时引入数据集的多样性也对下游任务的性能有贡献。

该论文已被CVPR 2022 L3D-IVU Workshop接收,本届L3D-IVU Workshop的主题为利用有限标签数据实现图像及视频的学习理解。如想进一步了解这篇论文,请点击链接http://arxiv.org/abs/2205.04617下载全文。


相关阅读