【AI视野·今日CV 计算机视觉论文速览第244期】Fri, 15 Apr 2022-锐单电子商城

AI视野·今日CS.CV 计算机视觉论文速读 Fri, 15 Apr 2022 Totally 70 papers ??上期速览?更精彩请移动主页

在这里插入图片描述

Daily Computer Vision Papers

A Level Set Theory for Neural Implicit Evolution under Explicit Flows Authors Ishit Mehta, Manmohan Chandraker, Ravi Ramamoorthi基于坐标的神经网络参数隐式表面已成为几何的有效表示。它们有效地充当参数水平集，其中零水平集定义了感兴趣的表面。我们提出了一个框架，允许将三角形网格定义的变形操作应用于此类隐形表面。其中一些操作可视为能量最小化问题，导致显式表面瞬时流场。通过扩展水平集的经典理论，我们的方法使用流场来变形参数的隐藏表面。我们还通过形式化与水平集理论的联系，为现有的可微表面提取和渲染方法得出了一个统一的观点。

Joint Forecasting of Panoptic Segmentations with Difference Attention Authors Colin Graber, Cyril Jazra, Wenjie Luo, Liangyan Gui, Alexander Schwing对安全性和有效自主性的预测非常重要。因此，在最近的工作中，全景分割被研究成一种引人注目的表达。然而，最近全景分割预测的最新技术存在两个问题。首先，每个对象的实例相互独立处理，其次，每个对象的实例预测以启发性的方式合并。为了解决这两个问题，我们研究了一种基于不同注意力的变换器模型联合预测场景中所有对象的新型全景分割预测模型。通过考虑深度估计，进一步细化预测。我们在 Cityscapes 和 AIODrive 评估数据集中提出的模型。由于位置等数量的差异使模型能够清晰地推理速度和加速度，我们发现差异的注意力特别适合预测。

Any-resolution Training for High-resolution Image Synthesis Authors Lucy Chai, Michael Gharbi, Eli Shechtman, Phillip Isola, Richard Zhang即使自然图像有各种尺寸，生成模型也会以固定的分辨率运行。随着高分辨率细节被采样，低分辨率图像被完全丢弃，宝贵的监督被丢失。以原始分辨率收集，我们认为每个像素都很重要，并创建具有可变大小图像的数据集。使用这些数据具有挑战性，高分辨率处理成本高，而当前架构只能处理固定分辨率的数据。我们引入了连续的规模训练，这是一个随机的补丁采样过程，训练具有可变输出分辨率的新生成器。首先，在不向模型添加层的情况下，在目标尺度上调整生成器，使我们能够生成比以前更高的分辨率图像。其次，在连续坐标的条件下，我们可以采样补丁，仍然遵循一致的全局布局，这也允许在更高的分辨率下进行可扩展的训练。受控 FFHQ 实验表明，我们的方法比离散多尺度方法更好地利用了多分辨率训练数据，获得了更好的 FID 分数和更清晰的高频细节。我们还训练了包括教堂、山脉和鸟类在内的其他自然图像领域，并展示了任何比例合成，具有连贯的整体布局和逼真的局部细节，超过了我们的实验 2K 分辨率。

MiniViT: Compressing Vision Transformers with Weight Multiplexing Authors Jinnian Zhang, Houwen Peng, Kan Wu, Mengchen Liu, Bin Xiao, Jianlong Fu, Lu YuanVision Transformer ViT 由于模型能力高，最近在计算机视觉领域引起了广泛关注。然而，ViT 该模型受到大量参数的影响，限制了其在有限内存设备中的适用性。为了缓解这个问题，我们提出了一个新的压缩框架 MiniViT，视觉变换器的参数降低，同时保持相同的性能。 MiniViT 中心思想是多路重用连续变换器块的权重。更具体地说，我们跨层共享权重，转换权重以增加多样性。自注力的权重蒸馏也用于从大规模的知识中提取知识 ViT 模型转移到权重多路复用紧凑模型。综合实验证明 MiniViT 功效表明可以预训练 Swin B 减小变换器的尺寸 48 ，同时在 ImageNet 上的 Top 1 准确率提高 1.0。使用单层参数，MiniViT 能够将 DeiT B 从 86M 压缩到 9M 参数 9.7 性能不会受到严重影响。最后，我们通过报告下游基准测试的性能来验证 MiniViT 可迁移性。

What's in your hands? 3D Reconstruction of Generic Objects in Hands Authors Yufei Ye, Abhinav Gupta, Shubham Tulsiani我们的工作旨在重建给定的个人 RGB 手持物体的图像。通常假设已知 3D 并将问题简化为模板 3D 与之前的工作相比，我们的工作不知道 3D 通用手持对象在模板的情况下重建。我们的主要观点是，手的清晰度可以高度预测物体的形状，我们提出了基于清晰度和视觉输入有条件重建物体的方法。给出一个描绘手持物体的图像，我们首先使用现成的系统来估计潜在的手的姿势，然后在以手为中心的坐标系中推断物体的形状。我们通过具有符号距离的对象进行参数化，由隐藏网络推断，利用视觉特征和关节感知坐标的信息处理查询点。我们对三个数据集进行了实验，表明我们的方法总是优于基线，并且可以重建一组不同的对象。

Deformable Sprites for Unsupervised Video Decomposition Authors Vickie Ye, Zhengqi Li, Richard Tucker, Angjoo Kanazawa, Noah Snavely我们描述了从输入视频中提取动态场景持久元素的方法。我们将每个场景元素表示为一个 emph Deformable Sprite，它由三个组件组成：1 用于整个视频 2D 纹理图像，2 每帧蒙版用于元素，以及 3 将纹理图像映射到每个视频帧的非刚性变形。由此产生的分解允许应用程序，如一致的视频编辑。 Deformable Sprites 它是一种视频自动编码器模型，用于优化单个视频，不需要在大数据集上训练，也不依赖预训练。此外，我们的方法不需要对象隐藏代码或其他用户输入，并比以前更广泛的移动对象。在标准视频数据集中评估我们的方法，并在各种互联网视频中显示定性结果。

Neighborhood Attention Transformer Authors Ali Hassani, Steven Walton, Jiachen Li, Shen Li, Humphrey Shi我们介绍了 Neighborhood Attention Transformer NAT，这是一种高效、准确、可扩展的分层转换器于图像分类和下游视觉任务。它建立在 Neighborhood Attention NA 之上，这是一种简单灵活的注意机制，可将每个查询的感受野定位到其最近的相邻像素。 NA 是自我注意的局部化，随着感受野大小的增加而接近它。考虑到相同的感受野大小，它在 FLOP 和内存使用方面也等同于 Swin Transformer 的移位窗口注意力，同时受到的限制更少。此外，NA 包括局部感应偏差，从而消除了对像素移位等额外操作的需要。 NAT 上的实验结果是具有竞争力的 NAT Tiny 在 ImageNet 上达到了 83.2 的 top 1 准确度，只有 4.3 GFLOPs 和 28M 参数，在 MS COCO 上为 51.4 mAP，在 ADE20k 上为 48.4 mIoU。

GIFS: Neural Implicit Function for General Shape Representation Authors Jianglong Ye, Yuntao Chen, Naiyan Wang, Xiaolong Wang神经隐式函数的最新发展在高质量 3D 形状重建方面取得了巨大成功。然而，大多数作品将空间划分为形状的内部和外部，这将它们的表现力限制在单层和水密的形状上。这种限制导致繁琐的数据处理将非防水原始数据转换为防水以及无法表示现实世界中的一般对象形状。在这项工作中，我们提出了一种新的方法来表示一般形状，包括非防水形状和具有多层表面的形状。我们介绍了 3D 形状 GIFS 的通用隐式函数，它模拟了每两个点之间的关系，而不是点和曲面之间的关系。 GIFS 不是将 3D 空间划分为预定义的内部外部区域，而是编码两个点是否被任何表面隔开。 ShapeNet 上的实验表明，GIFS 在重建质量、渲染效率和视觉保真度方面优于以前最先进的方法。

DeiT III: Revenge of the ViT Authors Hugo Touvron, Matthieu Cord, Herv J gouVision Transformer ViT 是一种简单的神经架构，可以服务于多个计算机视觉任务。与包含输入数据或特定任务的先验的最新架构相比，它具有有限的内置架构先验。最近的工作表明，ViT 受益于自我监督的预训练，特别是像 BeiT 这样的 BerT 预训练。在本文中，我们重新审视了 ViT 的监督训练。我们的程序建立在并简化了为训练 ResNet 50 引入的配方。它包括一个新的简单数据增强程序，只有 3 个增强，更接近自我监督学习的实践。我们对图像分类 ImageNet 1k 的评估，无论是否在 ImageNet 21k 上进行预训练、迁移学习和语义分割，都表明我们的程序大大优于之前针对 ViT 的完全监督训练方案。它还表明，我们经过监督训练的 ViT 的性能与最近的架构相当。

Look Back and Forth: Video Super-Resolution with Explicit Temporal Difference Modeling Authors Takashi Isobe, Xu Jia, Xin Tao, Changlin Li, Ruihuang Li, Yongjie Shi, Jing Mu, Huchuan Lu, Yu Wing Tai时间建模对于视频超分辨率至关重要。大多数视频超分辨率方法采用光流或可变形卷积进行显式运动补偿。然而，这种时间建模技术增加了模型的复杂性，并且在遮挡或复杂运动的情况下可能会失败，从而导致严重的失真和伪影。在本文中，我们建议探索显式时间差异建模在 LR 和 HR 空间中的作用。我们建议计算帧之间的时间差异，并根据差异程度将这些像素分成两个子集，而不是将连续帧直接输入到 VSR 模型中。它们分别用不同感受野的两个分支进行处理，以便更好地提取互补信息。为了进一步提高超分辨率结果，不仅提取了空间残差特征，还计算了高频域连续帧之间的差异。它允许模型利用未来和过去的中间 SR 结果来改进当前的 SR 输出。可以缓存不同时间步长的差异，以便可以将来自更远时间距离的信息传播到当前帧以进行细化。

Residual Swin Transformer Channel Attention Network for Image Demosaicing Authors Wenzhu Xing, Karen Egiazarian图像去马赛克是从原始传感器滤色器阵列数据中插值全分辨率彩色图像的问题。在过去十年中，深度神经网络已广泛用于图像恢复，特别是在去马赛克中，获得了显着的性能提升。近年来，视觉转换器已被设计并成功用于各种计算机视觉应用。最近基于 Swin Transformer ST 的图像恢复方法之一 SwinIR 展示了最先进的性能，其参数数量少于基于神经网络的方法。受 SwinIR 成功的启发，我们在本文中提出了一种新颖的基于 Swin Transformer 的图像去马赛克网络，称为 RSTCANet。为了提取图像特征，RSTCANet 堆叠了几个残差 Swin Transformer 通道注意块 RSTCAB ，为每两个连续的 ST 块引入通道注意。

Detection of Degraded Acacia tree species using deep neural networks on uav drone imagery Authors Anne Achieng Osio, Ho ng n L , Samson Ayugi, Fred Onyango, Peter Odwe, S bastien Lef vre基于深度学习的图像分类和目标检测已成功应用于树木监测。然而，对树冠和倒下的树木的研究，特别是在洪水淹没地区的研究，在很大程度上仍未得到探索。由于混合彩色图像背景，在水、泥滩和天然植被区域等自然环境中检测退化的树干具有挑战性。在本文中，使用带有嵌入式 RGB 摄像头的无人驾驶飞行器 UAV 或无人机从肯尼亚纳库鲁湖周围的六个指定地块捕获倒下的黄合欢树。由于需要检测湖周围倒下的树木，两个成熟的深度神经网络，即 Faster Region based Convolution Neural Network Faster R CNN 和 Retina Net 用于倒下树木检测。本研究共使用了 256 x 256 图像块上的三个类别的 7,590 个注释。

Weakly Supervised Attended Object Detection Using Gaze Data as Annotations Authors Michele Mazzamuto, Francesco Ragusa, Antonino Furnari, Giovanni Signorello, Giovanni Maria Farinella我们考虑检测和识别访问者观察到的对象的问题，即从自我中心的视觉中文化遗址中的参与对象。解决该问题的标准方法包括检测所有对象并选择与访问者的视线最重叠的对象，通过视线跟踪器进行测量。由于标记大量数据来训练标准对象检测器在成本和时间方面是昂贵的，因此我们提出了一个弱监督版本的任务，它仅依赖于注视数据和一个帧级标签，指示被关注对象的类别。为了研究这个问题，我们提出了一个由以自我为中心的视频和参观博物馆的对象的凝视坐标组成的新数据集。因此，我们比较了三个不同的基线，用于在收集的数据上进行弱监督的参与对象检测。结果表明，所考虑的方法以弱监督方式实现了令人满意的性能，相对于基于 Faster R CNN 的完全监督检测器而言，这可以显着节省时间。

SemiMultiPose: A Semi-supervised Multi-animal Pose Estimation Framework Authors Ari Blau, Christoph Gebhardt, Andres Bendesky, Liam Paninski, Anqi Wu多动物姿势估计对于研究神经科学和神经行为学中的动物社会行为至关重要。已经提出了先进的方法来支持多动物估计并实现最先进的性能。然而，这些模型很少在训练期间利用未标记的数据，即使现实世界的应用程序中未标记的帧比标记的帧多得多。为大量图像或视频手动添加密集注释是昂贵且劳动密集型的，尤其是对于多个实例。鉴于这些缺陷，我们提出了一种用于多动物姿势估计的新型半监督架构，利用行为视频中未标记帧中普遍存在的丰富结构来增强训练，这对于稀疏标记问题至关重要。

Panoptic Segmentation using Synthetic and Real Data Authors Camillo Quattrocchi, Daniele Di Mauro, Antonino Furnari, Giovanni Maria Farinella能够理解用户与周围环境之间的关系有助于在工作场所帮助用户。例如，从通过可穿戴设备收集的图像和视频中了解用户正在与哪些对象进行交互可能有助于告知工作人员特定对象的使用情况，从而提高生产力并防止事故发生。尽管现代视觉系统可以依靠先进的算法进行对象检测、语义和全景分割，但这些方法仍然需要大量特定领域的标记数据，这在工业场景中可能难以获得。受此观察的启发，我们提出了一个管道，该管道允许从真实环境和真实物体的 3D 模型生成合成图像。生成的图像会自动标记，因此很容易获得。利用所提出的管道，我们生成了一个数据集，其中包含自动标记为全景分割的合成图像。该集合由少量手动标记的真实图像补充，用于微调。

Egocentric Human-Object Interaction Detection Exploiting Synthetic Data Authors Rosario Leonardi, Francesco Ragusa, Antonino Furnari, Giovanni Maria Farinella我们考虑在工业环境中检测以自我为中心的 HumanObject Interactions EHOI 的问题。由于收集和标记大量真实图像具有挑战性，我们提出了一种管道和工具来生成照片逼真的合成第一人称视觉 FPV 图像，自动标记用于特定工业场景中的 EHOI 检测。为了解决 EHOI 检测问题，我们提出了一种检测手、场景中的对象并确定当前参与交互的对象的方法。我们将我们的方法的性能与一组最先进的基线进行比较。结果表明，使用合成数据集可以提高 EHOI 检测系统的性能，尤其是在可用的真实数据很少的情况下。

CroCo: Cross-Modal Contrastive learning for localization of Earth Observation data Authors Wei Hsin Tseng, Ho ng n L , Alexandre Boulch, S bastien Lef vre, Dirk Tiede在遥感图像上定位基于地面的 LiDAR 点云是很有趣的。在这项工作中，我们解决了这个问题的一个子任务，即在航空图像上映射从航空 LiDAR 点云栅格化的数字高程模型 DEM。我们提出了一种基于对比学习的方法，该方法在 DEM 和高分辨率光学图像上进行训练，并在不同的数据采样策略和超参数上对该框架进行实验。在最好的情况下，获得了 0.71 的 Top 1 得分和 0.81 的 Top 5 得分。所提出的方法有望用于从 RGB 和 DEM 进行特征学习以进行定位，并且也可能适用于其他数据源。

Activation Regression for Continuous Domain Generalization with Applications to Crop Classification Authors Samar Khanna, Bram Wallace, Kavita Bala, Bharath Hariharan卫星图像的地理差异会影响机器学习模型推广到新区域的能力。在本文中，我们将中等分辨率 Landsat 8 卫星图像中的地理泛化建模为连续域适应问题，展示了模型如何通过适当的域知识更好地泛化。我们开发了一个空间分布在整个美国大陆的数据集，提供了宏观洞察地理对多光谱和时间分布卫星图像中作物分类的影响。我们的方法展示了改进的通用性，1 将地理相关的气候变量与卫星数据一起传递到 Transformer 模型，2 回归模型特征以重建这些域变量。结合起来，我们为卫星图像中的地理概括提供了一种新颖的视角，以及一种利用领域知识的简单而有效的方法。

Q-TART: Quickly Training for Adversarial Robustness and in-Transferability Authors Madan Ravi Ganesh, Salimeh Yasaei Sekeh, Jason J. Corso原始深度神经网络 DNN 性能在现实世界中是不够的，计算负载、训练效率和对抗性安全性同样重要，甚至更重要。我们建议使用我们提出的算法 Q TART，快速训练对抗性鲁棒性和可迁移性，同时解决性能、效率和鲁棒性问题。 Q TART 遵循直觉，即高度易受噪声影响的样本会强烈影响 DNN 学习的决策边界，这反过来会降低其性能和对抗敏感性。通过识别和删除此类样本，我们展示了改进的性能和对抗鲁棒性，同时仅使用训练数据的一个子集。

Interpretability of Machine Learning Methods Applied to Neuroimaging Authors Elina Thibeau Sutre, Sasha Collin, Ninon Burgos, Olivier Colliot深度学习方法在处理自然图像方面变得非常流行，然后成功地适应了神经影像领域。由于这些方法是不透明的，因此需要可解释性方法来验证它们并确保它们的可靠性。事实上，已经表明，即使使用不相关的特征，深度学习模型也可以通过利用训练集中的偏差获得高性能。通过使用可解释性方法，可以潜在地检测到此类不良情况。最近，已经提出了许多解释神经网络的方法。但是，这个领域还不成熟。机器学习用户在解释他们的模型时面临两个主要问题，选择哪种方法，以及如何评估其可靠性在这里，我们旨在通过介绍最常见的可解释性方法和为评估其可靠性而开发的指标来回答这些问题，如以及它们在神经影像学方面的应用和基准。

Atmospheric Turbulence Removal with Complex-Valued Convolutional Neural Network Authors Nantheera Anantrasirichai大气湍流扭曲了视觉图像，并且对于人类和机器的信息解释总是有问题的。大多数成熟的消除大气湍流失真的方法都是基于模型的。然而，这些方法需要高计算量和大内存，从而阻碍了它们实时操作的可行性。因此，基于深度学习的方法获得了更多关注，但目前仅在静态场景上有效。本文提出了一种新颖的基于学习的框架，提供短时间跨度来支持动态场景。我们利用复值卷积作为相位信息，由大气湍流改变，比使用普通实值卷积更好地捕获。提出了两个级联模块。第一个模块旨在消除几何失真，如果内存足够，则应用第二个模块来细化视频的微观细节。

Cross-Image Relational Knowledge Distillation for Semantic Segmentation Authors Chuanguang Yang, Helong Zhou, Zhulin An, Xue Jiang, Yongjun Xu, Qian Zhang当前用于语义分割的知识蒸馏 KD 方法经常引导学生模仿教师从单个数据样本中生成的结构化信息。然而，他们忽略了对 KD 有价值的各种图像中像素之间的全局语义关系。本文提出了一种新颖的交叉图像关系KD CIRKD，它专注于将结构化的像素到像素以及像素到区域的关系在整个图像之间传递。动机是一个好的教师网络可以根据全局像素依赖关系构建一个结构良好的特征空间。 CIRKD 使学生从老师那里模仿更好的结构化语义关系，从而提高分割性能。 Cityscapes、CamVid 和 Pascal VOC 数据集的实验结果证明了我们提出的方法对最先进的蒸馏方法的有效性。

HyDe: The First Open-Source, Python-Based, GPU-Accelerated Hyperspectral Denoising Package Authors Daniel Coquelin, Behnood Rasti, Markus G tz, Pedram Ghamisi, Richard Gloaguen, Achim Streit与任何物理仪器一样，高光谱相机在采集的数据中会产生不同类型的噪声。因此，高光谱去噪是分析高光谱图像 HSI 的关键步骤。传统的计算方法很少使用 GPU 来提高效率，并且不是完全开源的。或者，基于深度学习的方法通常是开源的并使用 GPU，但对于许多研究人员来说，它们对现实世界应用程序的训练和利用仍然不是微不足道的。因此，我们提出 HyDe 是第一个开源的、基于 GPU 加速的 Python 的高光谱图像去噪工具箱，旨在提供大量方法和易于使用的环境。 HyDe 包括多种方法，从基于低秩小波的方法到深度神经网络 DNN 模型。 HyDe 的接口极大地提高了这些方法的互操作性和底层功能的性能。事实上，这些方法保持了与其原始实现相似的 HSI 去噪性能，同时消耗的能量减少了近十倍。此外，我们提出了一种训练 DNN 的方法，用于对与训练数据集在空间上不相关的 HSI 进行去噪，即在地面 HSI 上进行训练，以对其他角度的 HSI 进行去噪，包括机载、无人机载和太空载。为了利用经过训练的 DNN，我们展示了一种滑动窗口方法来有效地去噪 HSI，否则这需要超过 40 GB。

The multi-modal universe of fast-fashion: the Visuelle 2.0 benchmark Authors Geri Skenderi, Christian Joppi, Matteo Denitto, Berniero Scarpa, Marco Cristani我们展示了 Visuelle 2.0，这是第一个可用于应对快时尚公司必须日常管理的各种预测问题的数据集。此外，我们展示了计算机视觉在这种情况下的重要性。 Visuelle 2.0 包含意大利著名公司 Nuna Lie 的 6 季 5355 件服装产品的数据，该公司在该国不同地区拥有数百家商店。特别是，我们专注于一个特定的预测问题，即短期观察新产品销售预测 SO for 。 SOfore假设季节已经开始，并且一组新产品在不同商店的货架上。目标是预测特定范围内的销售额，给定过去几周的短暂可用时间，因为没有更早的统计数据可用。为了取得成功，SO 前沿方法应该捕捉到这一短暂的过去并利用其他模式或外生数据。为了实现这些目标，Visuelle 2.0 配备了商品商店级别的分类数据和每个服装商品的多模式信息，允许计算机视觉方法发挥作用。我们传递的主要信息是，使用具有深度网络的图像数据可以提高在长期预测场景中使用时间序列时获得的性能，将 WAPE 提高 8.2，MAE 提高 7.7。

Unsupervised Deep Learning Meets Chan-Vese Model Authors Dihan Zheng, Chenglong Bao, Zuoqiang Shi, Haibin Ling, Kaisheng MaChan Vese CV 模型是图像分割中基于区域的经典方法。然而，它的分段常数假设并不总是适用于实际应用。已经提出了许多改进，但问题仍然远未得到很好的解决。在这项工作中，我们提出了一种将 CV 模型与深度神经网络相结合的无监督图像分割方法，显着提高了原始 CV 模型的分割精度。我们的基本思想是应用深度神经网络将图像映射到潜在空间，以减轻对图像空间中分段常数假设的违反。我们在经典的贝叶斯框架下制定了这个想法，方法是用证据下界 ELBO 项近似似然，同时将前项保留在 CV 模型中。因此，我们的模型只需要输入图像本身，不需要从外部数据集进行预训练。此外，我们将该想法扩展到基于多阶段案例和数据集的无监督图像分割。

BEHAVE: Dataset and Method for Tracking Human Object Interactions Authors Bharat Lal Bhatnagar, Xianghui Xie, Ilya A. Petrov, Cristian Sminchisescu, Christian Theobalt, Gerard Pons Moll对自然环境中人与物体之间的交互进行建模是许多应用的核心，包括游戏、虚拟和混合现实，以及人类行为分析和人类机器人协作。这种具有挑战性的操作场景需要泛化到大量对象、场景和人类行为。不幸的是，不存在这样的数据集。此外，这些数据需要在不同的自然环境中获取，这排除了 4D 扫描仪和基于标记的捕获系统。我们提出了 BEHAVE 数据集，这是第一个具有多视图 RGBD 帧和相应的 3D SMPL 和对象拟合以及它们之间的注释接触的全身人体对象交互数据集。我们在 5 个位置记录了大约 15k 帧，其中 8 个对象与 20 个常见对象进行了广泛的交互。我们使用这些数据来学习一个模型，该模型可以通过易于使用的便携式多摄像头设置共同跟踪自然环境中的人和物体。我们的主要见解是预测从人和物体到统计身体模型的对应关系，以在交互过程中获得人类物体的接触。我们的方法不仅可以记录和跟踪人类和物体，还可以记录和跟踪它们的交互，以 3D 形式建模为表面接触。

SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos Authors Anthony Cioppa, Silvio Giancola, Adrien Deliege, Le Kang, Xin Zhou, Zhiyu Cheng, Bernard Ghanem, Marc Van Droogenbroeck跟踪足球视频中的对象对于收集球员和球队统计数据非常重要，无论是估计总跑动距离、控球权还是球队阵型。视频处理可以帮助自动提取这些信息，而不需要任何侵入式传感器，因此适用于任何体育场的任何球队。然而，用于训练可学习模型和基准以评估通用测试平台上的方法的数据集的可用性非常有限。在这项工作中，我们提出了一个新的多目标跟踪数据集，由 200 个序列组成，每个序列 30 秒，代表具有挑战性的足球场景，以及一个完整的 45 分钟半场时间用于长期跟踪。该数据集使用边界框和 tracklet ID 进行了完全注释，从而能够在足球领域训练 MOT 基线，并在我们的隔离挑战集上对这些方法进行完整的基准测试。

Spatial Likelihood Voting with Self-Knowledge Distillation for Weakly Supervised Object Detection Authors Ze Chen, Zhihang Fu, Jianqiang Huang, Mingyuan Tao, Rongxin Jiang, Xiang Tian, Yaowu Chen, Xian sheng Hua弱监督目标检测 WSOD 是一种仅使用图像级注释来训练目标检测模型的有效方法，引起了研究人员的极大关注。然而，大多数基于多实例学习 MIL 的现有方法倾向于将实例定位到显着对象的判别部分，而不是所有对象的全部内容。在本文中，我们提出了一个名为 Spatial Likelihood Voting with Self Knowledge Distillation Network SLV SD Net 的 WSOD 框架。在这个框架中，我们引入了空间似然投票 SLV 模块来收敛区域建议定位，而无需边界框注释。具体来说，在训练期间的每次迭代中，给定图像中的所有区域提议都充当投票者，对空间维度中每个类别的可能性进行投票。在对似然值较大的区域进行扩张对齐后，将投票结果正则化为边界框，然后将其用于最终分类和定位。基于 SLV，我们进一步提出了一个自知识蒸馏 SD 模块来细化给定图像的特征表示。 SLV 模块生成的似然图用于监督主干网络的特征学习，鼓励网络关注图像中更广泛和更多样化的区域。在 PASCAL VOC 2007 2012 和 MS COCO 数据集上的大量实验证明了 SLV SD Net 的出色性能。

Implicit Sample Extension for Unsupervised Person Re-Identification Authors Xinyu Zhang, Dongdong Li, Zhigang Wang, Jian Wang, Errui Ding, Javen Qinfeng Shi, Zhaoxiang Zhang, Jingdong Wang大多数现有的无监督人员重新识别 Re ID 方法使用聚类生成伪标签用于模型训练。不幸的是，聚类有时会将不同的真实身份混合在一起，或者将相同的身份拆分为两个或多个子集群。在这些嘈杂的集群上进行训练大大阻碍了 Re ID 的准确性。由于每个身份中的样本有限，我们认为可能缺少一些基础信息来很好地揭示准确的聚类。为了发现这些信息，我们提出了一种隐式样本扩展 OurWholeMethod 方法来生成我们所说的围绕集群边界的支持样本。具体来说，我们通过渐进式线性插值 PLI 策略从嵌入空间中的实际样本及其相邻簇生成支持样本。 PLI 用两个关键因素控制生成，即 1 从实际样本到其 K 个最近簇的方向和 2 混合来自 K 个最近簇的上下文信息的程度。同时，在给定支持样本的情况下，ISE 进一步使用标签保留损失将它们拉向对应的实际样本，从而压缩每个集群。因此，ISE 减少了子聚类和混合聚类错误，从而提高了 Re ID 性能。大量实验表明，所提出的方法是有效的，并且在无监督人员 Re ID 方面取得了最先进的性能。

Clothes-Changing Person Re-identification with RGB Modality Only Authors Xinqian Gu, Hong Chang, Bingpeng Ma, Shutao Bai, Shiguang Shan, Xilin Chen解决换衣服人重新识别的关键是提取与衣服无关的特征，例如面部、发型、体型和步态。目前大多数工作主要侧重于从多模态信息（例如剪影和草图）建模身体形状，但没有充分利用原始 RGB 图像中与衣服无关的信息。在本文中，我们提出了一种基于衣服的对抗性损失 CAL，通过惩罚 re id 模型 w.r.t 的预测能力，从原始 RGB 图像中挖掘衣服不相关的特征。衣服。大量实验表明，仅使用 RGB 图像，CAL 在广泛使用的换衣服人员重新识别基准上优于所有最先进的方法。此外，与图像相比，视频包含更丰富的外观和额外的时间信息，可用于建模适当的时空模式以辅助换衣服。由于没有公开可用的换衣服视频 re id 数据集，我们提供了一个名为 CCVID 的新数据集，并表明在建模时空信息方面存在很大的改进空间。

Human Identity-Preserved Motion Retargeting in Video Synthesis by Feature Disentanglement Authors Jingzhe Ma, Shiqi Yu人体动作视频合成中的大多数运动重定向方法将输入视频分解为运动动态信息和形状静态信息。但是，我们观察到如果将动态信息直接传递给另一个主体，则会导致不自然的合成运动。这种现象主要是由于忽略了运动中的主体相关信息造成的。为了解决这个问题，我们提出了一种新颖的运动重定向方法，该方法可以结合来自源视频的独立于主题的公共运动内容信息和来自目标视频的独立于主题的个性化身份运动信息。因此，它可以合成具有非常自然外观和身份保留运动的视频。在所提出的方法中，两个编码器分别用于提取身份和运动内容表示。我们使用生成器中的自适应实例归一化 AdaIN 层和运动内容编码器中的实例归一化 IN 层来合成新的运动。此外，我们还收集了一个名为 Chuang101 的数据集，共有 101 个主题。每个主体都执行相同的舞蹈动作，因此便于对每个主体的运动和身份进行特征解开。此外，通过步态识别设计了一种用于识别信息的有效量化指标。

Semi-Supervised Training to Improve Player and Ball Detection in Soccer Authors Renaud Vandeghen, Anthony Cioppa, Marc Van Droogenbroeck近年来，准确的球员和球检测对于运动分析变得越来越重要。由于大多数最先进的方法都依赖于以监督方式训练深度学习网络，因此它们需要大量注释数据，而这些数据很少可用。在本文中，我们提出了一种新颖的通用半监督方法，通过利用大型未标记的足球广播视频数据集来训练基于标记图像数据集的网络。更准确地说，我们设计了一种教师学生方法，其中教师在未标记的数据上生成代理注释，以便稍后用于训练与教师具有相同架构的学生。此外，我们引入了三种训练损失参数化，允许学生在训练期间根据提案置信度得分怀疑老师的预测。我们表明，在训练过程中包含未标记的数据可以显着提高仅在标记数据上训练的检测网络的性能。最后，我们提供了全面的性能研究，包括不同比例的标记和未标记数据，并在新的 SoccerNet v3 检测任务上建立了第一个基准，mAP 为 52.3。

OmniPD: One-Step Person Detection in Top-View Omnidirectional Indoor Scenes Authors Jingrui Yu, Roman Seidel, Gangolf Hirtz我们提出了一种基于卷积神经网络 CNNs 的用于顶视图全向室内场景的一步式人物检测器。虽然最先进的人体检测器在透视图像上达到了有竞争力的结果，但缺少 CNN 架构以及跟随全向图像失真的训练数据使得当前的方法不适用于我们的数据。该方法直接在全向图像中预测多人的边界框，无需透视变换，减少了前后处理的开销，并实现了实时性能。基本思想是利用迁移学习来微调在透视图像上训练的 CNN，并使用数据增强技术在全向图像中进行检测。我们微调了 Single Shot MultiBox 检测器 SSD 的两种变体。第一个使用 Mobilenet v1 FPN 作为特征提取器 moSSD 。第二个使用 ResNet50 v1 FPN resSSD 。这两个模型都在 Microsoft Common Objects in Context COCO 数据集中进行了预训练。我们在 PASCAL VOC07 和 VOC12 数据集上对两个模型进行微调，特别是在班级人员上。除了原始SSD提出的方法外，还使用随机90度旋转和随机垂直翻转进行数据增强。在评估数据集上，我们使用 moSSD 达到 67.3 的平均精度 AP，使用 resSSD 达到 74.9。为了增强微调过程，我们添加了 HDA Person 数据集的子集和 PIROPO 数据库的子集，并将透视图像的数量减少到 PASCAL VOC07。 moSSD 的 AP 分别上升到 83.2 和 resSSD 的 86.3。使用 Nvidia Quadro P6000，moSSD 的平均推理速度为每张图像 28 毫秒，而 resSSD 的平均推理速度为 38 毫秒。

Modeling Indirect Illumination for Inverse Rendering Authors Yuanqing Zhang, Jiaming Sun, Xingyi He, Huan Fu, Rongfei Jia, Xiaowei Zhou隐式神经表示和可微渲染的最新进展使得从在未知静态照明下捕获的多视图 RGB 图像中同时恢复对象的几何形状和材料成为可能。尽管取得了有希望的结果，但在以前的方法中很少对间接照明进行建模，因为它需要昂贵的递归路径跟踪，这使得逆渲染在计算上难以处理。在本文中，我们提出了一种有效恢复空间变化间接照明的新方法。关键的见解是，间接照明可以方便地从从输入图像中学习到的神经辐射场导出，而不是与直接照明和材料一起估计。通过对直接照明的间接照明和可见性进行适当建模，可以恢复相互反射和无阴影反照率。合成数据和真实数据的实验证明了我们的方法与以前的工作相比具有优越的性能，并且能够在新的视点和光照下合成逼真的渲染。

Deep Vehicle Detection in Satellite Video Authors Roman Pflugfelder, Axel Weissenfeld, Julian Wagner这项工作提出了一种用于卫星视频中车辆检测的深度学习方法。由于车辆 4 10 像素的微小及其与背景的相似性，在单个 EO 卫星图像中可能无法进行车辆检测。相反，我们考虑通过车辆运动的时间一致性来克服空间信息缺乏的卫星视频。提出了一种新的紧凑 3 乘 3 卷积神经网络的时空模型，该模型忽略了池化层并使用了泄漏的 ReLU。然后我们使用输出热图的重新制定，包括非最大抑制 NMS 进行最终分割。两个新的带注释卫星视频的经验结果再次证实了这种方法对车辆检测的适用性。更重要的是，它们表明对 WAMI 数据进行预训练，然后对新视频的少量注释视频帧进行微调就足够了。在我们的实验中，只有五个带注释的图像在显示比拉斯维加斯视频更复杂的交通模式的新视频上产生了 0.81 的 F 1 分数。

YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss Authors Debapriya Maji, Soyeb Nagori, Manu Mathew, Deepak Poddar我们介绍了 YOLO 姿势，一种用于联合检测的新型无热图方法，以及基于流行的 YOLO 对象检测框架的图像中的 2D 多人姿势估计。现有的基于热图的两阶段方法是次优的，因为它们不是端到端可训练的，并且训练依赖于不等于最大化评估指标的替代 L1 损失，即对象关键点相似性 OKS。我们的框架允许我们端到端地训练模型并优化 OKS 指标本身。所提出的模型学习在单次前向传递中联合检测多人的边界框及其相应的 2D 姿势，从而引入自上而下和自下而上方法的最佳效果。所提出的方法不需要对自下而上的方法进行后处理来将检测到的关键点分组到骨架中，因为每个边界框都有一个相关的姿势，从而导致关键点的固有分组。与自上而下的方法不同，多个前向传递被取消了，因为所有的人都在一次推理中与他们的姿势一起被定位。 YOLO 姿势在 COCO 验证 90.2 AP50 和测试开发集 90.3 AP50 上取得了最新的最新结果，在没有翻转测试、多尺度测试或任何其他测试时间增加的情况下，在单次前向传递中超越了所有现有的自下而上方法。与使用翻转测试和多尺度测试来提高性能的传统方法不同，本文报告的所有实验和结果都没有任何测试时间增加。

Pyramidal Attention for Saliency Detection Authors Tanveer Hussain, Abbas Anwar, Saeed Anwar, Lars Petersson, Sung Wook Baik显着对象检测 SOD 从输入图像中提取有意义的内容。基于 RGB 的 SOD 方法缺乏互补的深度线索，因此为复杂场景提供了有限的性能。同样，RGB D 模型处理 RGB 和深度输入，但测试期间深度数据的可用性可能会阻碍模型的实际适用性。本文仅利用 RGB 图像，从 RGB 估计深度，并利用中间深度特征。我们采用金字塔注意结构来提取多级卷积变换器特征来处理初始阶段的表示并进一步增强后续的表示。在每个阶段，主干变压器模型产生全局感受野并并行计算，以获得由我们的残差卷积注意力解码器细化的细粒度全局预测，以实现最佳显着性预测。我们报告了在 8 个 RGB 和 RGB D 数据集上分别针对 21 和 40 种最先进的 SOD 方法显着提高了性能。因此，我们提出了一种新的 SOD 视角，即在训练和测试期间无需获取深度数据即可生成 RGB D SOD，并通过深度线索辅助 RGB 方法以提高性能。

Explainable Analysis of Deep Learning Methods for SAR Image Classification Authors Shenghan Su, Ziteng Cui, Weiwei Guo, Zenghui Zhang, Wenxian Yu深度学习方法在合成孔径雷达 SAR 图像解释任务中表现出色。然而，这些是限制对其预测的理解的黑盒模型。因此，为了应对这一挑战，我们将可解释的人工智能 XAI 方法用于 SAR 图像分类任务。具体来说，我们在 OpenSARUrban 数据集上为每种极化格式训练了最先进的卷积神经网络，然后研究了八种解释方法来分析 SAR 图像的 CNN 分类器的预测。这些 XAI 方法也进行了定性和定量评估，这表明 Occlusion 在 Max Sensitivity 方面实现了最可靠的解释性能，但具有低分辨率的解释热图。

3D Shuffle-Mixer: An Efficient Context-Aware Vision Learner of Transformer-MLP Paradigm for Dense Prediction in Medical Volume Authors Jianye Pang, Cheng Jiang, Yihao Chen, Jianbo Chang, Ming Feng, Renzhi Wang, Jianhua Yao医疗量的密集预测为临床分析提供了丰富的指导。由于缺乏远程依赖和全局上下文建模能力，CNN 主干网遇到了瓶颈。由于其强大的全局捕获能力和学习能力，最近的工作提出将视觉转换器与 CNN 结合起来。然而，大多数工作仅限于简单地应用具有几个致命缺陷的纯变压器，即缺乏归纳偏置、大量计算和很少考虑 3D 数据。因此，设计一个优雅而高效的视觉变换学习器用于医学体积的密集预测是有希望的和具有挑战性的。在本文中，我们提出了一种新的 3D Shuffle Mixer 网络，该网络是一种新的 Local Vision Transformer MLP 范式，用于医学密集预测。在我们的网络中，使用局部视觉转换器块从重新排列的体积的全视图切片中洗牌和学习空间上下文，剩余轴向 MLP 旨在以切片感知方式混合和捕获剩余体积上下文，MLP 视图聚合器是用于以视图感知的方式将学习的完整视图丰富的上下文投影到体积特征。此外，针对局部视觉转换器提出了一种自适应缩放增强快捷方式，以自适应地增强空间和通道维度的特征，并提出了一种交叉合并，以在金字塔架构中适当地跳过连接多尺度特征。

Visual-Inertial Odometry with Online Calibration of Velocity-Control Based Kinematic Motion Models Authors Haolong Li, Joerg Stueckler视觉惯性里程计 VIO 是具有功率和有效载荷约束的自主机器人的一项重要技术。在本文中，我们提出了一种带有立体摄像机的 VIO 新方法，该方法在线集成和校准基于速度控制的轮式移动机器人运动学运动模型。包括这样的运动模型可以帮助提高 VIO 的准确性。与之前提出的几种为此目的集成车轮里程计测量的方法相比，我们的方法不需要车轮编码器，并且可以在机器人运动可以使用基于速度控制的运动学运动模型进行建模时应用。我们使用径向基函数 RBF 内核来补偿控制命令和实际机器人运动之间的时间延迟和偏差。运动模型由VIO系统在线校准，可作为运动控制和规划的前向模型。

ViTOL: Vision Transformer for Weakly Supervised Object Localization Authors Saurav Gupta, Sourav Lakhotia, Abhay Rawat, Rahul Tallamraju弱监督对象定位 WSOL 旨在仅使用图像级类别标签来预测图像中的对象位置。图像分类模型在定位对象时遇到的常见挑战是，a 他们倾向于查看图像中最具辨别力的特征，将定位图限制在一个非常小的区域，b 定位图与类别无关，模型突出显示对象同一图像中的多个类，并且 c 定位性能受背景噪声的影响。为了缓解上述挑战，我们通过我们提出的方法 ViTOL 引入了以下简单的变化。我们利用基于视觉的转换器进行自我注意，并引入基于补丁的注意丢失层 p ADL 来增加定位图的覆盖范围，并使用梯度注意推出机制来生成依赖于类别的注意图。我们对 ImageNet 1K 和 CUB 数据集进行了广泛的定量、定性和消融实验。我们在两个数据集上分别获得了 70.47 和 73.17 的最新 MaxBoxAcc V2 定位分数。

RecurSeed and CertainMix for Weakly Supervised Semantic Segmentation Authors Sang Hyun Jo, In Jae Yu, Kyung Su Kim尽管仅使用图像级标签 WSSS IL 的弱监督语义分割可能有用，但其低性能和实现复杂性仍然限制了其应用。主要原因是 a 未检测和 b 错误检测现象 a 从现有的 WSSS IL 方法提炼的类激活图仍然只表示大尺度物体的部分区域， b 对于小尺度物体，过度激活导致它们偏离物体边缘.我们提出了 RecurSeed，它通过递归迭代交替减少非和错误检测，从而隐含地找到一个最佳连接点，以最小化这两个错误。为了最大化 RecurSeed 的有效性，我们还提出了一种新的数据增强 DA 方法，称为“CertainMix”，它虚拟地创建对象掩码并在结合分割结果时进一步表达它们的边缘，从而获得一种通过空间信息有效反映对象存在可靠性的新 DA 方法.我们在 PASCAL VOC 2012 和 MS COCO 2014 基准 VOC val 72.4 和 COCO val 45.0 上都取得了最新的性能。

Unsupervised Domain Adaptation with Implicit Pseudo Supervision for Semantic Segmentation Authors Wanyu Xu, Zengmao Wang, Wei Bian伪标记是一种用于语义分割的无监督域自适应的流行技术。然而，由于源域和目标域以及训练过程之间的差异，伪标签是嘈杂的，并且不可避免地存在确认偏差。在本文中，我们通过自身隐式产生的伪标签来训练模型，以学习有关目标领域的新补充知识。具体来说，我们提出了一种三学习架构，其中每两个分支产生伪标签来训练第三个。我们根据每两个分支的概率分布的相似性来对齐伪标签。为了进一步隐式利用伪标签，我们最大化不同类别的特征距离，并通过三元组损失最小化相同类别的距离。

Learning Convolutional Neural Networks in Frequency Domain Authors Hengyue Pan在过去的几十年里，卷积神经网络 CNN 在计算机视觉领域取得了令人瞩目的成功。作为 CNN 的核心，图像卷积运算有助于 CNN 在图像相关任务上取得良好的性能。然而，图像卷积很难实现和并行化。在本文中，我们提出了一种新的神经网络模型，即 CEMNet，它可以在频域中进行训练。这项研究最重要的动机是我们可以使用非常简单的元素乘法运算来代替基于互相关定理的频域图像卷积。我们进一步引入了权重固定机制来缓解过拟合，并分析了 Batch Normalization、Leaky ReLU 和 Dropout 在频域中的工作行为，为 CEMNet 设计了它们的对应项。此外，为了处理 DFT 带来的复杂输入，我们为 CEMNet 设计了两个分支网络结构。实验结果表明，CEMNet 在频域上运行良好，在 MNIST 和 CIFAR 10 数据库上取得了良好的性能。

HASA: Hybrid Architecture Search with Aggregation Strategy for Echinococcosis Classification and Ovary Segmentation in Ultrasound Images Authors Jikuan Qian 1,2 and 3 , Rui Li 1,2 and 3 , Xin Yang 1,2 and 3 , Yuhao Huang 1,2 and 3 , Mingyuan Luo 1,2 and 3 , Zehui Lin 1,2 and 3 , Wenhui Hong 1,2 and 3 , Ruobing Huang 1,2 and 3 , Haining Fan 4 , Dong Ni 1,2 and 3 , Jun Cheng 1,2 and 3 1 aNational Regional Key Technology Engineering Laboratory for Medical Ultrasound, School of Biomedical Engineering, Health Science Center, Shenzhen University, Shenzhen, China, 2 Medical Ultrasound Image Computing MUSIC Laboratory, Shenzhen University, Shenzhen, China, 3 Marshall Laboratory of Biomedical Engineering, Shenzhen University, Shenzhen, China, 4 Qinghai University Affiliated Hospital, Xining, Qinghai, China 与手工制作的特征不同，深度神经网络可以从数据中自动学习特定任务的特征。由于这种数据驱动的性质，他们在各个领域都取得了显着的成功。然而，手动设计和选择合适的网络架构非常耗时，并且需要人类专家的大量努力。为了解决这个问题，研究人员提出了神经架构搜索 NAS 算法，该算法可以自动生成网络架构，但如果从头开始搜索，则会面临计算成本高和不稳定的问题。在本文中，我们提出了一种用于超声超声图像分类和分割的混合 NAS 框架。混合框架由一个预训练的主干和几个搜索单元组成，即网络构建块，它利用了 NAS 的优势和现有卷积神经网络的专家知识。具体来说，在候选操作中引入了两种有效且轻量级的操作，即混合深度卷积操作和挤压和激励块，以增强搜索单元的多样性和容量。这两个操作不仅减少了模型参数，而且提高了网络性能。此外，我们为搜索到的细胞提出了一种重新聚合策略，旨在进一步提高不同视觉任务的性能。我们在两个大型美国图像数据集上测试了我们的方法，包括一个包含 9566 个用于分类的图像的 9 类棘球蚴病数据集和一个包含 3204 个用于分割的图像的卵巢数据集。

MINSU (Mobile Inventory And Scanning Unit):Computer Vision and AI Authors Jihoon Ryoo, Byungkon Kang, Dongyeob Lee, Seunghyeon Kim, Youngho KimMINSU Mobile Inventory and Scanning Unit算法采用计算视觉分析方法，记录柜体剩余量满度。为此，它通过五步方法进行对象检测、前景减法、K 均值聚类、百分比估计和计数。输入图像通过物体检测方法，以坐标分析橱柜的具体位置。这样做之后，它通过前景减法方法，通过去除背景，使图像更能聚焦到机柜本身，可能需要做一些手动工作，例如选择未被算法抓取的部分。在 K 均值聚类方法中，多色图像变成了 3 色单调图像，以便更快、更准确地进行分析。最后对图像进行百分比估计和计数。在这两种方法中，以百分比形式找到橱柜内部材料的比例，然后用于近似内部材料的数量。

Geometric Understanding of Sketches Authors Raghav Brahmadesam Venkataramaiyer素描被新手和专家都用作一种无处不在的表达工具。

A deep learning algorithm for reducing false positives in screening mammography Authors Stefano Pedemonte, Trevor Tsue, Brent Mombourquette, Yen Nhi Truong Vu, Thomas Matthews, Rodrigo Morales Hoil, Meet Shah, Nikita Ghare, Naomi Zingman Daniels, Susan Holley, Catherine M. Appleton, Jason Su, Richard L. Wahl筛查乳房 X 光检查通过实现早期发现和治疗来改善乳腺癌的预后。然而，筛查检查中额外成像的假阳性回调会导致不必要的程序、患者焦虑和经济负担。这项工作展示了一种 AI 算法，该算法通过识别不怀疑乳腺癌的乳房 X 线照片来减少误报。我们使用 123,248 份 2D 数字乳房 X 线照片 6,161 种癌症训练了该算法以确定是否存在癌症，并对来自 15 个美国和 3 个英国地点的 14,831 次筛查检查 1,026 种癌症进行了回顾性研究。在美国最大的网站上对算法进行回顾性评估 11,592 张乳房 X 线照片，101 种癌症 a 未影响癌症检出率 p = 0.02，每 1000 次检查非劣效性为 0.25 种癌症，b 与标准临床读数相比，诊断检查的回调减少了 31.1， c 在模拟临床工作流程中，良性穿刺活检减少了 7.4 次，并且 d 将需要放射科医生解释的筛查检查减少了 41.6 次。

A Novel Approach for Optimum-Path Forest Classification Using Fuzzy Logic Authors Renato W. R. de Souza, Jo o V. C. de Oliveira, Leandro A. Passos, Weiping Ding, Jo o P. Papa, Victor Hugo C. de Albuquerque在过去的几十年中，模糊逻辑在许多研究领域都发挥了重要作用。此外，基于图的模式识别已被证明非常重要，因为它可以灵活地使用图论的背景来划分特征空间。几年前，有人提出了一种用于监督、半监督和无监督学习的新框架，名为 Optimum Path Forest OPF，除了计算负担低之外，它在多个应用中都取得了具有竞争力的结果。在本文中，我们提出了模糊最优路径森林，这是标准 OPF 分类器的改进版本，它以无监督的方式学习样本成员资格，并在监督训练期间进一步结合。这些信息用于识别最相关的训练样本，从而改进分类步骤。

Adaptive Memory Management for Video Object Segmentation Authors Ali Pourganjalikhan, Charalambos Poullis基于匹配的网络通过将每 k 帧存储在外部存储库中以供将来推理，实现了视频对象分割 VOS 任务的最先进性能。存储中间帧预测为网络提供了更丰富的线索来分割当前帧中的对象。

Towards Metrical Reconstruction of Human Faces Authors Wojciech Zielonka, Timo Bolkart, Justus Thies人脸重建和跟踪是 AR VR、人机交互以及医疗应用中众多应用的组成部分。这些应用中的大多数依赖于对形状的度量正确预测，特别是当将重建的主体置于度量上下文中时，即当存在已知大小的参考对象时。测量对象的距离和尺寸的任何应用程序也需要度量重建，例如，虚拟地适合眼镜框架。用于从单个图像重建人脸的最先进方法以自我监督的方式在大型 2D 图像数据集上进行训练。然而，由于透视投影的性质，它们无法重建实际的人脸尺寸，甚至预测人脸的平均值在度量意义上也优于其中一些方法。为了学习人脸的实际形状，我们主张采用监督训练方案。由于此任务不存在大规模 3D 数据集，因此我们对中小型数据库进行了注释和统一。生成的统一数据集仍然是具有超过 2k 个身份的中等规模数据集，仅在其上进行训练会导致过度拟合。为此，我们利用在大规模 2D 图像数据集上预训练的人脸识别网络，该网络为不同的人脸提供不同的特征，并且对表情、照明和相机变化具有鲁棒性。使用这些特征，我们以有监督的方式训练我们的人脸形状估计器，继承了人脸识别网络的鲁棒性和泛化性。

Deep Relation Learning for Regression and Its Application to Brain Age Estimation Authors Sheng He, Yanfang Feng, P. Ellen Grant, Yangming Ou大多数时间回归的深度学习模型直接输出基于单个输入图像的估计，忽略不同图像之间的关系。在本文中，我们提出了用于回归的深度关系学习，旨在学习一对输入图像之间的不同关系。四种非线性关系被认为是累积关系、相对关系、最大关系和最小关系。这四种关系是从一个深度神经网络同时学习的，该网络具有特征提取和关系回归两部分。我们使用高效的卷积神经网络从输入图像对中提取深度特征，并应用 Transformer 进行关系学习。所提出的方法在一个包含 6,049

标签： hoa传感器 id压缩型传感器 h1141接近传感器ni4 mu视觉传感器目标跟随功勋高压水密连接器

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

【AI视野·今日CV 计算机视觉论文速览第244期】Fri, 15 Apr 2022

Daily Computer Vision Papers

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

【AI视野·今日CV 计算机视觉论文速览 第244期】Fri, 15 Apr 2022

Daily Computer Vision Papers

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

【AI视野·今日CV 计算机视觉论文速览第244期】Fri, 15 Apr 2022

历史搜索清除历史记录