点击上方“3D视觉车间,选择星标
第一时间送达干货
近日,两年一度的国际计算机视觉会议 ICCV 2021( IEEE International Conference on Computer Vision)最终接收论文的决定已经公布。在官方公告中,
作为计算机视觉领域三大顶级会议之一ICCV,每次都会吸引很多人 AI 研究人员参加了会议。今年,由于疫情的影响,原定在加拿大蒙特利尔举行。ICCV 2021 已改为网上举行,时间定为 10 月 11 到 17 日。
不同于在美国每年举行一次。CVPR和只在欧洲举行ECCV,ICCV每两年在世界范围内举行一次。ICCV今年论文录用率很低 6236 有效提交论文,有效提交论文 1617 接收率约为 25.9%。以下是旷视入选论文的亮点解读,enjoy~
DeFRCN:用于小样本目标检测的解耦Faster-RCNN
样本目标检测是一项视觉任务,可以快速检测包含极少数标记信息的新类别中的新目标。目前大部分研究都采用了Faster RCNN 作为一个基本的检测框架,在小样本场景中不考虑目标检测范式的固有矛盾,即多阶段矛盾(RPN vs. RCNN)与多任务冲突(分类) vs. 定位)。为此,我们通过多阶段解耦梯度解耦层和多任务解耦原型校准模块,提出了一种简单有效的小样本目标检测架构 Faster RCNN。在多个Benchmark大量实验表明,本文提到的框架显著提高了小样本目标检测的性能,并跻身行业前列。
目标检测
小样本学习/解耦/迁移学习
非监督视觉表达学习时序知识的一致性
自监督学习算法中的主流比较学习方法通常可以被视为教师-学生结构。教师网络在同一样本上的输出会随着训练周期的推移而显著变化,导致大量噪音和灾难性遗忘。本文首次提出将实例时间的一致性嵌入到当前的自我监督学习范式中,并提出了一种新颖的算法TKC(Temporal Knowledge Consistency)。TKC用多时序教师代替原有的教师网络,同时设计知识迁移模块,从多个教师网络中自适应地学习表征。TKC在标准的线性评估及各类下游任务上相对于基线方法均有明显提升。
自监督学习
表征学习、时空一致性、知识蒸馏
IDM:跨域模块用于域自适应行人重识别
针对ReID本文提出了一个即插即用的跨域问题IDM模块。该模块能产生合理的中间域特征,起到桥接源域和目标域的作用,更好地将源域知识转移到目标域,提高行模型在目标域的判断力。受流型学习的启发,我们假设流型空间存在源域和目标域测量线上的中间域可以起到很好的桥接作用,在学习过程中可以适应地减少源域和目标域的区别。我们目前的方法是跨域ReID任务上远远优于其它最先进的方法。
行人重识别,自适应领域
学习中间域和流型
双目互学,改进少样本分类
现有的小样本学习范式主要是元学习和迁移学习。本文从基本类别空间可见性的角度重新解释了元学习和迁移学习范式的异同,并在此基础上构建了双眼相互学习的新范式BML。BML形式更加统一,有两个平行的视图空间(全局视图) vs 模拟双目系统的局部视图)。与此同时,弹性损失和视图间相互学习进一步平衡了双眼视差。在多个公开基准数据集中,我们的方法超越了现有最先进的方法,对数据粒度的变化更加鲁棒。
分类
小样本学习/相互学习
ELSD:高效线段检测器和描述器
高效描述复杂环境是计算机视觉感知的重要问题。考虑到人工环境中大量的直线段特征,这些特征为上游计算机视觉应用提供了重要的结构化信息,如3D场景重建,视觉重定位,SLAM等。在本文中,我们提出了检测线特征和提取描述子的有效方法,通过改进线段检测和自监督描述子学习,我们的方法在精度和速度上优于其他最先进的方法,同时准确检测和描述线特征,也能达到实时速度。
提取图像特征
直线段检测,描述子提取
OMNet:学习一些重叠点云匹配的点云重叠掩模
3D点云配准是3D计算邻域的基本任务之一。现有的方法只使用点云稀疏的局部信息或不考虑可能部分重叠的点云输入。为了解决这个问题,我们提出了基于点云重叠区域预测的迭代3D估计刚体变换框架。我们的贡献主要有三点:(1)设计了点云重叠区预测模块来屏蔽非重叠区3D估计刚体变换的影响;(2)发现ModelNet40数据集应用于配置任务时的过拟合问题,并提出了更合理的数据生成方法;(3)与多项最新研究工作相比,我们的方法取得了最佳性能,同时,它对噪声和不同的数据集具有良好的鲁棒性。
3D点云配准
3D点云配准,学习重叠掩模
GyroFlow:陀螺仪指导的无监督光流学习
现有的光流估计算法在雾天、雨天、夜景等困难场景中容易出错,主要是因为光流估计的基本假设被打破,如亮度恒定和梯度恒定。为了解决这个问题,我们提出了将陀螺仪信息集成到无监督光流估计的框架。我们的贡献主要有三点:1)第一个基于深度学习集成陀螺仪信息和图像信息,实现无监督光流学习的框架;2)自指导模块集成陀螺仪信息和光流信息;3)包含各种困难场景的光流数据集。
图像对齐/配准
无监督光流、陀螺仪、图像对齐
运动基向量学习用于子空间投影的非监督深度变化估计
本文介绍了一种新的无监督单估计框架。我们的贡献主要有三点:(1)提出了一种单应流表示法,可以通过8个预定义单应流基的加权和表示单应性;(2)考虑到单应性只包含8个自由度,远低于网络中间特征的秩序,我们提出了一个低秩序表示模块来实现特征下降,从而保留与主导相机运动相对应的特征。并提高对于其它噪声的鲁棒性;(3)我们提出了一种特征恒等损失来强制网络学习到具有warp等变性图像特征意味着如果warp操作和特征提取的顺序交换最终结果相同。
:图像对齐/配准
图像对齐、光流基、无监督单应性学习
TokenPose:用于人体姿态估计的关键点标记学习
人体姿态估计是一个高度依赖视觉线索和肢体约束关系来定位关键点的任务。现有的基于CNN的方法在提取视觉表示方面已经做得很好,但缺乏显式地学习关键点之间约束关系的能力。在这篇论文中,我们提出了一种基于令牌(token)表示的新方法用于姿态估计。每个关键点表示成独立的token,从图像中捕捉视觉线索并学习关键点之间的约束关系。我们的模型较于主流模型,以更少的参数量和计算复杂度取得了出色的表现性能。
人体姿态估计
人体姿态估计、Token表征、Transformer、关键点约束关系学习
本文仅做学术分享,如有侵权,请联系删文。
在「3D视觉工坊」公众号后台回复:即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
在「3D视觉工坊」公众号后台回复:即可下载包括等。
在「3D视觉工坊」公众号后台回复:即可下载独家学习课件与视频网址;后台回复:即可下载独家学习课件与视频网址。
扫码添加小助手微信,可
也可申请加入我们的细分方向交流群,目前主要有、、、、、等微信群。
一定要备注:
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题