【AI视野·今日CV 计算机视觉论文速览第192期】Thu, 6 May 2021-锐单电子商城

AI视野·今日CS.CV 计算机视觉论文速读 Thu, 6 May 2021 Totally 61 papers ??上期速览?更精彩请移动主页

在这里插入图片描述

Daily Computer Vision Papers

Self-Supervised Multi-Frame Monocular Scene Flow Authors Junhwa Hur, Stefan Roth由于经济捕获设置简单，估计从一系列单眼图像序列3开始D场景流量一直在增加。由于问题严重，目前方法的准确性有限，特别是高效实时方法的准确性。本文介绍了基于自我监督学习的多帧单曲场景流网络，提高了以往网络的准确性，保持了实时效率。分流解码器设计基于先进的两帧基线。我们使用三帧输入和卷积LSTM连接提出多帧模型，II为了提高精度，提高训练稳定性，阻止感知人口普查损失的梯度分离策略。在基蒂数据集中，我们观察了基于自我监督学习的单眼流动方法的艺术准确性。

Physically Inspired Dense Fusion Networks for Relighting Authors Amirsaeed Yazdani, Tiantong Guo, Vishal Monga图像着色已经成为研究兴趣的一个重要问题，受现实应用的启发。基于物理学的传统方法和黑匣子深度学习模型已经开发出来。现有的深网络利用培训来实现最新的技术状态。然而，当训练有限或不代表问题时，它们可能表现不佳，如添加或去除致密阴影。具有物理洞察力的神经网络丰富的模型。更准确地说，我们的方法通过两种不同的策略生成具有新照明设置的重新图像，然后使用权重图W熔化它们。我们的模型预测了第一个策略Relit图像场景着色材料反射参数Albedo以及照明几何参数，我们称之为内部图像分解IID。第二种策略仅基于黑盒法，其中模型优化了基于地面真理图像和训练阶段丢失术语的权重，并直接生成refit输出，我们直接引用这个策略。虽然我们提出的方法适用于一个到任何记忆问题，但我们介绍了一个特定的组件来解决每种情况下的问题，以丰富模型性能的记忆，我们将曲面的正常矢量融入场景中的正常向量，以调整图像中的光泽和阴影。对于任何回应，我们向架构提出额外的多尺度块来增强特性提取。在NTIRE 2021中使用的Vidit 2020和Vidit 2021年数据集的实验结果表明，在众所周知的保真度指标和感知损失方面，我们的提案往往有许多最新的技术方法。

PD-GAN: Probabilistic Diverse GAN for Image Inpainting Authors Hongyu Liu, Ziyu Wan, Wei Huang, Yibing Song, Xintong Han, Jing Liao我们提出PD GaN，图像修复的概率多样化GaN。鉴于任意孔区域的输入图像，PD GaN各种具有视觉熟化内容的修复结果。我们的PD GaN建在Vanilla GaN上，该GaN图像是基于随机噪声产生的。在图像生成过程中，我们将原始恢复的图像和孔区域注入多个尺度，以调节从粗糙到精细的随机输入噪声的深度特征。我们认为在孔填充期间，孔边界附近的像素应该更确定，具有更高的概率，可靠地信任上下文和最初恢复的图像以产生自然的染色边界，而那些像素位于孔的中心，应该享受更多程度自由即，更有可能取决于随机噪声来增强分集。为此，我们提出了调制内空间概率分集的标准化SPDnorm，在上下文信息中以建模生成像素的概率。 Spdnorm动态平衡孔区的现实主义和多样性，使产生的内容更加多样化，更像是更相邻的图像内容。与此同时，为了进一步赋予感知多样性损失PD GaN不同的内容。基准数据集的实验包括Celeba HQ，Parket2和Paris Street View，表明PD GaN有效恢复多样化、视觉逼真的图像。

Impact of individual rater style on deep learning uncertainty in medical imaging segmentation Authors Olivier Vincent, Charley Gros, Julien Cohen Adad虽然许多研究已经探索了医学细分任务中帧间评估变异性与深度学习模型之间的关系，但对个人律师风格的影响很小。本研究量化了偏见和一致性的律师风格，探讨了培训深度学习模式的影响。由脑多发性硬化病变和脊髓灰质分割组成的两个多评价公共数据集。结果显示在两个数据集上Rater偏置与深度学习不确定性之间的相关性R 2 0.60和0.93。还探讨了标签融合的影响对这种关系的注释，我们表明，多中心共识比单一中心的共识更有效，以减少不确定性，因为速度风格大多是特定的级别。

Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes Authors Dan Xu, Andrea Vedaldi, Joao F. Henriques我们提出了一种培训深网络的方法，将视频分解为3D没有监督几何相机和深度，移动物体及其动作。我们构建了视图综合的理念，利用经典相机几何重新渲染不同相对位置和深度图指定的不同观点的源图像。对视频中相应的真实图像之间的误差进行最小化，无需监控预测姿势和深度。然而，视图合成方程依赖于对象不会移动的强烈假设。这种刚性世界假设限制了预测的力量，并将规定自动理解对象。我们提出了一个简单的解决方案，尽量减少图像小区域的错误。虽然整个场景可能不刚性，但在移动物体内部总能找到类似刚性的小区域。然后，我们的网络可以在滑动窗口中预测每个区域的不同姿势。这代表了一个明显更丰富的模型，包括6D对象动作，几乎没有额外的复杂性。我们建立了新的最先进的结果，导致无人驾驶内径和对基蒂的深入预测。我们还展示了史诗厨房的新能力，这是一个没有深度、内径、对象分割或运动的具有挑战性的室内视频数据集。然而，我们的方法会自动恢复。

Addressing Annotation Imprecision for Tree Crown Delineation Using the RandCrowns Index Authors Dylan Stewart, Alina Zare, Sergio Marconi, Ben Weinstein, Ethan White, Sarah Graves, Stephanie Bohlman, Aditya Singh地面真理数据需要标记遥感对象描述的监督方法。特别是当目标形状不规则或难以区分背景或相邻物体时，很难收集足够的高质量地面真理数据。树冠分为林业，生态和管理遥感图像提供关键信息。然而，由于形状不规则，重叠的檐篷、阴影和模糊的边缘，遥感图像中的树冠通常很难标记和注释。这个字段有很多辅助方法，比如矩形框和凸多边形，进一步有助于注释不准确。然而，目前的评估方法并不考虑注释中的这种不确定性，在多个注释器中，评估的定量度可会有所不同。我们的使用对我们来说叫我们randcrowns弱标记的皇冠描绘rand解决这些限制的索引。 Randcrowns该指数通过调整计算指数中的每个术语来计算rand指数描述标签，以考虑不确定和不准确的对象。对Union Jaccard常用交叉点的定量比较显示了多个注释器之间的差异差异减少。与定性示例相结合，我们的结果表明，这种Radcrowns度量对于在存在于树冠描绘中固有的不确定性和不确定的存在下得分的目标划分是更加强大的。虽然本文的重点是在评估树冠划分时，注释不精确是一种挑战，这些挑战是对环境的遥感和许多计算机视觉问题的常见。

PolarMask++: Enhanced Polar Representation for Single-Shot Instance Segmentation and Beyond Authors Enze Xie, Wenhai Wang, Mingyu Ding, Ruimao Zhang, Ping Luo降低实例分割管道的复杂性对于现实世界应用来说至关重要。这项工作通过引入一个免费的锚盒和单拍实例分段框架，被称为polarmask的Polarmask来解决这个问题，它将实例分段问题重新装述了预测极性坐标中对象的轮廓，具有多种吸引力的好处。 1极性表示将实例分段掩码和对象检测边界框统一到单个框架中，降低了设计和计算复杂度。 2两种模块精心设计，即软的极性中心和极性IOU丢失来样的高质量中心示例，优化极性轮廓回归，使Polarmask的性能不依赖于边界盒预测结果，从而在训练中变得更加有效。 3个Polarmask是完全卷积的，可以轻松嵌入到货架检测方法中的大多数情况下。为了进一步提高框架的准确性，引入了一种精致的特征金字塔，以进一步改善不同尺度的特征表示，称为Polarmask。广泛的实验证明了波兰掩杀和波隆掩码的有效性，这在具有单一模型和单一规模训练和测试的具有趣的Coco DataSet中实现了竞争结果，以及单一规模培训和测试，以及旋转文本检测和单元分割的新状态。我们希望建议的极地表示可以为设计算法提供新的视角来解决单拍实例分段。代码和模型可用

Learning Feature Aggregation for Deep 3D Morphable Models Authors Zhixiang Chen, Tae Kyun Kim3D可线模型广泛用于计算机视觉和图形应用中对象类的形状表示。在这项工作中，我们专注于深度3D可变模型，直接在3D网状数据上对深度学习进行层次结构，以捕获多个尺度的信息。虽然已经进行了巨大的努力来设计卷积运营商，但如何在分层级别的最佳聚合顶点特征值得进一步关注。相反，借助网格抽取，我们提出了一种基于关注的模块来学习跨层级的更好特征聚合的映射矩阵。具体地，映射矩阵由键和查询的兼容性函数生成。键和查询是通过优化目标目标的可培训变量，并由相同对象类的所有数据样本共享。我们所提出的模块可用作列车仅在替代现有架构中的特征聚合的列表，用于下采样和上采样。我们的实验表明，通过结束到映射矩阵的终端训练，我们实现了最新的状态，结果与现有的可线模型相比，各种3D形状数据集。

Visual Composite Set Detection Using Part-and-Sum Transformers Authors Qi Dong, Zhuowen Tu, Haofu Liao, Yuting Zhang, Vijay Mahadevan, Stefano Soatto诸如视觉关系检测和人体对象交互的计算机视觉应用可以作为复合结构设置检测问题，其中部分主体，对象和谓词和整个总和三态以以分层方式检测。在本文中，我们提出了一种新的方法，表示部分和总和检测变压器PST，以执行端到端复合集检测。与现有变形金刚不同，其中查询处于单个级别，我们同时模拟关节部分和与复合查询和注意模块的相互作用。我们明确地纳入了总和查询，以实现标准变压器中不存在的零件和和关系的更好建模。我们的方法还使用基于张于的基于卷的部分查询和矢量的总和查询，以及模拟其联合交互。我们报告了两个视觉任务，视觉关系检测和人体对象交互的实验，并证明PST在单级模型中实现了最新的状态，而几乎匹配定制设计的两个阶段模型的结果。

VoxelContext-Net: An Octree based Framework for Point Cloud Compression Authors Zizheng Que, Guo Lu, Dong Xu在本文中，我们提出了一种称为VoxelContext网的两个阶段深度学习框架，用于静态和动态点云压缩。采用基于Octree的方法和基于体素的方案的优势，我们的方法采用了Voxel上下文来压缩了Octree结构数据。具体地，我们首先提取本地体素表示，其为构造的Octree中的每个节点编码对每个节点的空间相邻上下文信息进行编码。然后，在熵编码阶段，我们提出了一种基于Voxel上下文的深熵模型，以以无损方式压缩非叶节点的符号。此外，对于动态点云压缩，我们还介绍了来自时间相邻点云的本地体素表示来利用时间依赖性。更重要的是，为了缓解来自八辛施工过程的失真，我们提出了一种基于体积的基于3D坐标细化方法，在解码器侧产生更精确的重建点云，这适用于静态和动态点云压缩。静态和动态点云基准数据集的综合实验例如，Scannet和语义基蒂清楚地展示了我们新提出的方法VoxelContext网3D点云几何压缩的有效性。

Pairwise Point Cloud Registration using Graph Matching and Rotation-invariant Features Authors Rong Huang, Wei Yao, Yusheng Xu, Zhen Ye, Uwe Stilla注册是点云处理中的基本但关键任务，通常取决于从两个点云的查找元素对应。然而，找到可靠的对应关系依赖于建立对应元素的稳健和辨别性描述和对应元件的正确匹配。在这封信中，我们开发了一个粗略的注册策略，它利用旋转不变的功能和新的加权图匹配方法，用于迭代地发现对应关系。在图形匹配方法中，配制欧几里德和特征空间中的节点和边的相似性以构造优化功能。使用两个基准数据集来评估所提出的策略，并与若干现有技术的方法进行比较。关于实验结果，我们所提出的方法可以实现具有小于0.2度的旋转误差和低于0.1M的旋转误差的精细配准。

Conditional Invertible Neural Networks for Diverse Image-to-Image Translation Authors Lynton Ardizzone, Jakob Kruse, Carsten L th, Niels Bracher, Carsten Rother, Ullrich K the我们介绍了一个名为条件可逆神经网络Cinn的新架构，并使用它来解决不同图像的任务，以为自然图像的图像转换。由于某些基本限制，现有的Inn模型不易实现这一点。 CINN将纯生成的Inn模型与不受约束的馈线向前网络相结合，这有效地预处理调节图像成分为最大的信息特征。 CINN的所有参数都是通过稳定，最大似然的培训程序共同优化的。尽管基于Inn的模型在文学中受到的关注远不如Gans，但它们已被证明在GAN中缺席了一些显着的性质，例如，缺席。模式崩溃的表观免疫力。我们发现我们的CINNS为图像翻译的图像施作了这些属性，每天都在夜间翻译和图像着色。此外，我们利用我们的双向Cinn架构来探索和操纵潜在空间的紧急属性，例如以直观的方式更改图像样式。

Prototype Memory for Large-scale Face Representation Learning Authors Evgeny Smirnov, Nikita Garaev, Vasiliy Galyuk面部表示使用具有大量标识数的数据集需要适当的培训方法。 Softmax基于现有的方法，在脸上的识别中的状态，在其平时的全部软Max形式中不适合与数百万人的数据集。提出了几种基于采样的Softmax方法的方法，以消除此限制。然而，这些方法具有一系列缺点。其中一个是原型过时的分类器权重的问题很少采样类的原型，接收太少的渐变梯度，并从电流编码器状态脱离并脱离，导致训练信号不正确。在超大型数据集中尤为严重这个问题。在本文中，我们提出了一种名为原型内存的新型面部表示学习模型，可以减轻这个问题并允许在任何大小的数据集上训练。原型内存包括有限尺寸的内存模块，用于存储最近的类原型，并采用一组以适当的方式更新它的算法。使用当前迷你批量中的示例嵌入式生成新的类原型。这些原型被排队到存储器上并用于基于Softmax分类的培训的分类器权重的作用。为防止过时并保持与编码器密切连接的内存，定期刷新原型，并且最旧的是排出和设置。原型内存是计算上高效且独立于数据集大小。它可以与各种丢失功能，硬示例挖掘算法和编码器架构一起使用。我们证明了拟议模型对流行面部识别基准的大量实验的有效性。

Deep Spherical Manifold Gaussian Kernel for Unsupervised Domain Adaptation Authors Youshan Zhang, Brian D. Davison无监督的域适应是一种有效的方法，即在将现有丰富标记的域传输到新域时解决域移位问题。现有的基于歧管的方法是基于传统模型，或者通过最大限度地减少两个域的单个协方差矩阵的差异而大大依赖于基础歧管。此外，现有的伪标记算法不充分考虑伪标签的质量，以对准两个域之间的条件分布。在这项工作中，提出了一种深色球形歧管高斯核DSGK框架，用于将源子空间映射到球形歧管中，并通过嵌入提取的特征和高斯内核来减少它们之间的差异。为了对齐条件分布，我们进一步开发了一种易于硬的伪标签改进过程，可以提高伪标签的质量，然后减少分类球形歧管高斯核静脉损耗。广泛的实验结果表明，DSGK优于现有技术的状态，特别是在挑战跨领域学习任务。

Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention Authors Wei Suo, Mengyang Sun, Peng Wang, Qi Wu引用的表达式理解REC已成为视觉推理中最重要的任务之一，因为它是许多愿景和语言任务，如视觉问题的应答。但是，它尚未在许多下游任务中广泛使用，因为它存在困难的计算成本和不可避免的误差累积，并且2个阶段方法必须依赖于许多超级参数，例如锚点来生成边界盒。在本文中，我们提出了一项免费的一个阶段PFOS模型，它能够基于文本查询来从图像中的感兴趣区域重新播出，以结束到最终方式。除了使用主导的锚度建议时尚，我们直接将图像的密集网直接占据了学习网格词对应关系的跨关注变压器的输入。最终边界框是直接从图像预测的，而不耗时以前的方法遭受占用。我们的模型在四个引用表达式数据集中实现了最先进的表现，效率更高，与之前最好的一个阶段和两级方法相比。

Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images Authors Florian Kluger, Hanno Ackermann, Eric Brachmann, Michael Ying Yang, Bodo Rosenhahn人类认为周围世界作为简单参数模型的安排。特别是，人类的环境通常由诸如长方体或气缸等体积基元组成。推断这些基元是达到高水平的重要步骤，抽象场景描述。以前从2D或3D输入直接估计形状参数，并且只能能够再现简单的对象，但无法准确地解析更多复杂的3D场景。相比之下，我们提出了一种用于原始装配的强大估算器，它可以使用长方体有意义地抽象现实世界环境。由神经网络引导的RANSAC估计器适合这些基元到3D特征，例如深度图。我们在先前检测到场景的部分上调节网络，从而逐个解析它。为了从单个RGB图像获得3D特征，我们另外将特征提取CNN终止于结束方式优化。然而，天真地最小化到原始距离导致大型或虚假的长方体遮挡了后面的场景的部分。因此，我们提出了一种遮挡意识距离度量正确处理不透明场景。该算法不需要劳动密集型标签，例如培训。挑战性的NYU深度V2数据集表明，所提出的算法成功摘要杂乱的现实世界3D场景布局。

MCGNet: Partial Multi-view Few-shot Learning via Meta-alignment and Context Gated-aggregation Authors Yuan Zhou, Yanrong Guo, Shijie Hao, Richang Hong, Meng Wang在本文中，我们提出了一个名为TextBF部分多视图的新具有挑战性的任务，揭示了两个任务，即一些射击学习和部分多视图学习。与传统的少数拍摄学习不同，这项任务旨在解决几次射击学习问题，因为符合现实世界的应用程序的不完整多视图，这符合更多。但是，这在这项任务中带来了两个困难。首先，不同视图之间的间隙可以很大且难以减少，尤其是样本稀缺。其次，由于观点不完整信息，很少有射击学习比传统的拍摄更具挑战性。要处理上述问题，我们通过用部分多视图GNN来提出新的TextBF元对齐和上下文门控聚合网络。具体地，元对齐有效地将不同视图的特征映射到更紧凑的潜像，从而减少视图间隙。此外，上下文门控聚合通过利用横视上下文来减轻视野缺失的影响。广泛的实验是在PIE和ORL数据集上进行的，用于评估我们所提出的方法。通过与其他几个射击学习方法进行比较，我们的方法尤其是缺少遗失的景象的最新性能。

Bayesian Logistic Shape Model Inference: application to cochlea image segmentation Authors Wang Zihao, Demarcy Thomas, Vandersteen Clair, Gnansia Dan, Raffaelli Charles, Guevara Nicolas, Delingette Herv 结合形状信息对于划定许多器官和医学图像中的解剖结构至关重要。虽然以前的工作主要集中在参考模板形状上应用的参数空间转换，但在本文中，我们解决了用于分割医学图像的参数形状模型的贝叶斯推断，其目的是提供可解释的结果。所提出的框架通过逻辑函数基于通用形状函数来定义可能性外观概率和先前标记概率。 Sigmoid中定义的参考长度参数控制形状和外观信息之间的折扣。形状参数的推断在期望最大化方法内执行，其中高斯牛顿优化阶段允许提供形状参数的后验概率的近似。该框架应用于来自10个参数形状模型的临床CT图像的Cochlea结构的分割。它在三个不同的数据集中评估，其中一个包括超过200名患者图像。结果表明，与监督方法相比的表演比先前提出的无监督更好。它还可以分析参数分布和分割不确定性的量化，包括形状模型的效果。

Towards an efficient framework for Data Extraction from Chart Images Authors Weihong Ma, Hesuo Zhang, Shuang Yan, Guangshun Yao, Yichao Huang, Hui Li, Yaqiang Wu, Lianwen Jin在本文中，我们通过采用数据挖掘系统中的数据提取阶段的现有技术视觉技术的状态来填充研究差距。如图1所示，该阶段包含两个子组织，即绘图元素检测和数据转换。为了构建强大的箱体探测器，我们全面比较了基于深度学习的方法，并找到了具有高精度盒的合适方法。对于构建强大的点检测器，采用了一种具有特征融合模块的全卷积网络，与传统方法相比，可以区分接近点。所提出的系统可以有效处理各种图表数据而不制定启发式假设。有关数据转换，我们将检测到的元素转换为具有语义值的数据。建议网络来测量图例匹配阶段中图例和检测到的元素之间的特征相似性。此外，我们为从信息图表收获原始表的竞争提供了基准。已经发现一些关键因素来提高每个阶段的性能。实验结果表明了所提出的系统的有效性。

Contrastive Learning and Self-Training for Unsupervised Domain Adaptation in Semantic Segmentation Authors Robert A. Marsden, Alexander Bartler, Mario D bler, Bin Yang深度卷积神经网络具有显着改善的最新状态，用于语义分割。尽管如此，即使是现代架构缺乏概括到源自不同域的测试数据集的能力。为避免昂贵的解除验证数据的培训数据，无监督域适应UDA试图从标记的源域提供有效的知识传输到未标记的目标域。以前的工作主要集中在通过使用对抗性培训或自我培训来最小化两个域之间的差异。虽然对抗性培训可能无法对齐正确的语义类别，因为它最大限度地减少了全球分布之间的差异，但自我培训提出了如何提供可靠的伪标签的问题。要对齐域的正确语义类别，我们提出了一种对比的学习方法，可以在域中突破类别的虚拟性。此外，我们通过自我培训扩展了我们的方法，在那里我们使用内存有效的时间合奏来生成一致且可靠的伪标签。虽然通过时间合奏的对比学习和自我训练都能使其在两个域之间实现知识转移，但它们是它们导致共生结构的组合。我们验证了我们在两个域适配基准测试GTA5 Rightarrow Citycapes和Synthia Rightarrow Citycapes上的方法。我们的方法比现有技术实现了更好或比较的结果。我们将公开可用的代码。

Instance segmentation of fallen trees in aerial color infrared imagery using active multi-contour evolution with fully convolutional network-based intensity priors Authors Przemyslaw Polewski, Jacquelyn Shelton, Wei Yao, Marco Heurich在本文中，我们通过通过完全卷积网络获得的图像的语义分割映射来介绍一个用于分割公共对象类的分割实例的框架。轮廓演进作为能量最小化问题被投射，其中聚合能量功能包含数据配合项，显式形状模型，并考虑对象重叠。提出了高效的解决方案邻域运算符，通过诸如模拟退火等地式训练实现优化。我们在从高分辨率空中多光谱图像中分割各个堕落茎的上下文中提出了拟议的框架。我们验证了我们在不同复杂性的3个真实世界场景中的方法。测试情节位于德国巴伐利亚森林国家公园的地区，这持续了沉重的树皮甲虫侵扰。在多边形和线段水平上进行评估，表明多轮廓分段可以实现高达0.93的精度和0.82召回。与迭代样本共识线段检测相比，召回和6次召回和6个百分点PP的改善。尽管施加的形状参数化简单，但结合到能量函数的显式形状模型可以通过高达4pp的召回改善了结果。最后，我们展示了使用基于深度学习的语义分割方法作为个体干检测的基础的重要性。我们的方法是增加自动下落树映射的可达性的一步，因为与激光扫描相比，空中图像采集的更高成本效率。精确的下落树图可以进一步用作植物和动物栖息地建模的基础，碳封存研究以及森林生态系统中的土壤质量。

AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss Authors Yangyang Guo, Liqiang Nie, Zhiyong Cheng, Feng Ji, Ji Zhang, Alberto Del Bimbo一些研究指出，当前的视觉问题应答VQA模型受到先前问题的严重影响，这是指基于语言快捷方式盲目地进行预测。有些努力致力于用微妙的模型克服这个问题。然而，尽管存在现有的VQA方法所有将VQA作为分类任务，但是从答案特征空间学习的角度都没有研究。受到这一点的启发，在这项工作中，我们试图从特征空间学习的观点来看先前问题的语言。为此，适应的边缘余弦损耗旨在辨别每个问题类型下的频繁和稀疏答案特征空间。结果，语言模态内的有限模式在很大程度上减少，从而通过我们的方法引入更少的语言前沿。我们将此损失函数应用于几个基线模型，并在两个VQA CP基准上评估其有效性。实验结果表明，我们适应的边缘余弦损失可以大大提高基线模型，平均绩效增益为15，强烈验证了从答案的角度在答案的角度下解决VQA的语言。

Multi-scale Image Decomposition using a Local Statistical Edge Model Authors Kin Ming Wong我们介绍了一种基于名为Sub窗口方差滤波器的新型非线性滤波器的渐进图像分解方法。我们的方法专门为图像细节增强目的而设计该应用需要提取在空间和变化尺度方面的图像细节。我们提出了一种局部统计边缘模型，它使用空间定义的图像统计来发展其边缘意识。我们的分解方法由两个直观参数控制，允许用户定义抑制或增强的图像细节。通过使用Supued区域表加速方法，我们的分解流水线很平行。所提出的过滤器是梯度保存，这允许我们的增强导致梯度逆转人工制品。在我们的评估中，我们将我们的方法与其他主流解决方案进行各种多尺度图像详细操作应用程序。

Towards Self-Supervision for Video Identification of Individual Holstein-Friesian Cattle: The Cows2021 Dataset Authors Jing Gao, Tilo Burghardt, William Andrew, Andrew W. Dowsey, Neill W. Campbell在本文中，我们发布了最大的标识荷斯坦弗里斯牛数据集CORS2021以及用于个体动物的视频鉴定的第一自我监督框架。 DataSet包含10,402个RGB图像，标签用于本地化和身份以及来自同一群体的301个视频。数据在谷仓图像上显示为顶部，从而捕获品种的单独独特的黑白涂层图案。通过涉及构建视觉牛识别系统的标签负担的推动，我们建议利用视频跨越视频作为动物身份学习的自我监督信号。使用屈服的边界盒的单独的无止无止牛检测器，通过通过检测和富集通过增强通过跟踪来形成各个旋转归一化轨迹。这产生了每个轨迹的正样品集，其与从其他视频的随机牛采样的负面集合配对。然后采用框架三联对比度学习来构建度量潜空间。高斯混合模型对该空间的拟合产生了牛身份分类器。结果表明，顶级1 57.0和前4 76.9的准确性，与地面真理相比，调整后的兰特指数0.53。虽然监督培训以大幅度超越这一基准，但我们得出结论，在最初构建监督信息时，自我监督在加快标签努力时可以发挥高度有效作用。我们提供所有数据和全源代码，以及系统的分析和评估。

FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction Authors Brian Gordon, Sigal Raab, Guy Azov, Raja Giryes, Daniel Cohen Or多个摄像机制造的视频录制的可用性越来越多地提供了用于缓解姿势和运动重建方法的遮挡和深度模糊的新方法。然而，多视图算法强烈地依赖于相机参数，特别是相机中的相对位置。在不受控制的设置中，这种依赖性成为一旦转移到动态捕获的障碍。我们介绍Flex Free Multi View重建，结束到结束参数免费多视图模型。 Flex是参数无论是不需要任何相机参数，既不是内在的也不是外在的。我们的关键思想是骨架部件和骨长之间的3D角度是相机位置的不变。因此，学习3D旋转和骨长而不是位置允许预测所有相机视图的公共值。我们的网络采用多个视频流，通过新颖的多视图融合层学习融合的深度特征，并重建单一一致的骨架，其具有时间相干的关节旋转。我们展示了人类3.6M和KTH多视角足球II数据集的定量和定性结果。我们将模型与最先进的方法进行了比较，这些方法没有参数无参数，并在没有相机参数的情况下表明，我们在获得相机参数可用时比较的余量越高。我们的项目页面上可以使用代码，培训的型号，视频演示和其他材料。

QueryInst: Parallelly Supervised Mask Query for Instance Segmentation Authors Yuxin Fang, Shusheng Yang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu最近，基于查询的对象检测框架实现了与先前最先进的对象探测器的态度相当的性能。但是，如何完全利用此类框架执行实例分段仍然是一个打开问题。在本文中，我们呈现QueryInst，一种由动态掩模头上的并行监控驱动的基于查询的实例分段方法。 QueryInst的关键介入是利用不同阶段的对象查询中的内在一个对应关系，以及在同一阶段中的掩模ROI特征和对象查询之间的一个对应关系。该方法消除了基于非查询的多级实例分段方法中固有的显式多级掩模头连接和提案分布不一致问题。我们对三个具有挑战性的基准进行广泛的实验，即Coco，Citycapes和YouTube Vis，以评估QueryInst中的QueryInstionS分段和视频实例分段VIS任务的效力。具体而具体使用Reset 101 FPN骨干网，QueryInst获得48.1盒AP和42.8掩模AP在Coco Test DEV上，这对于盒子AP和掩模AP的任值高于HTC，同时运行速度2.4倍。对于视频实例分割，QueryInst在所有在线VIS方法中实现了最佳性能，并击中了一个体面的速度准确性折衷。 URL可提供代码

Novelty Detection and Analysis of Traffic Scenario Infrastructures in the Latent Space of a Vision Transformer-Based Triplet Autoencoder Authors Jonas Wurst, Lakshman Balasubramanian, Michael Botsch, Wolfgang Utschick检测未知和未经测试的方案对于基于场景的测试至关重要。基于场景的测试被认为是验证自动车辆的可能方法。流量方案由多个组件组成，基础架构是其中之一。在这项工作中，介绍了一种基于其基础架构图像来检测新的交通方案的方法。 AutoEncoder Triplet网络为用于异常检测的基础设施图像提供潜在表示。网络的三联培训基于基础设施的连接图。通过使用所提出的架构，专家知识用于塑造潜在的空间，使得它在AutoEncoder的邻域关系中包含预定定义的相似性。对架构的一个消融研究是突出了Triplet AutoEncoder组合的重要性。最好的架构是基于视觉变形金机，这是一种基于卷积的网络网络。呈现的方法优于其他最先进的艺术异常检测方法。

SeaDronesSee: A Maritime Benchmark for Detecting Humans in Open Water Authors Leon Amadeus Varga, Benjamin Kiefer, Martin Messmer, Andreas Zell由于其灵活性和快速的操作能力，无人驾驶航空公司无人机在海上环境中的搜索和救援任务中的重要性至关重要。现代计算机视觉算法对于辅助此类任务非常兴趣。但是，它们依赖于来自无人机的大量实际案例培训数据，这仅适用于土地上的交通方案。此外，当前对象检测和跟踪数据集仅提供有限的环境信息或根本没有，忽略了有价值的信息来源。因此，本文介绍了一个大的缩放视觉对象检测和跟踪基准Seadronesse，其旨在将来自陆地视觉系统的差距弥合到海上基于海洋。我们收集和注释超过54,000帧，其中40万个实例从各种高度捕获，观察范围为5到260米，0到90度，同时为高度，观看角度和其他元数据提供相应的元信息。我们在新建立的基准作为基准的新建立的基准测试中评估了多种状态。我们提供了一个评估服务器，研究人员可以上传他们的预测并在中央排行榜上比较它们的结果

Weakly Supervised Pseudo-Label assisted Learning for ALS Point Cloud Semantic Segmentation Authors Puzuo Wang, Wei Yao竞争点云语义分割结果通常依赖于大量标记数据。然而，数据注释是一种耗时和劳动密集型任务，特别是对于三维点云数据。因此，通过有限的地面真理获得准确的结果作为训练数据很重要。作为一种简单富有的方法，伪标签可以使用来自未标记数据的信息进行培训神经网络。在这项研究中，我们提出了一种伪标签辅助点云分割方法，其少量稀疏的采样标签通常为每个类随机选择。提出了一种自适应阈值策略以基于预测概率生成伪标签。伪标签学习是一个迭代过程，而伪标签仅在地面真理弱标签上更新，因为该模型融合以提高培训效率。使用ISPRS 3D神出标记基准数据集的实验表明，与使用完整的监控方案仅使用最多2个Unicode X2030从原始训练集中的标记点的X2030相比，我们所提出的方法实现了同样竞争的结果，其总精度为83.7和平均F1得分为70.2。

4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface Authors Yang Li, Hikari Takehara, Takafumi Taketomi, Bo Zheng, Matthias Nie ner使用范围传感器跟踪非刚性变形场景具有许多应用，包括计算机视觉，AR VR和机器人。然而，由于范围传感器的闭塞和物理限制，现有方法仅处理可见表面，从而在运动场中引起不连续性和不完整性。为此，我们介绍4DComplete，一种新型数据驱动方法，估计未观察几何的非刚性运动。 4DCOMPLETE以输入的部分形状和运动观察，提取4D时间空间嵌入，并使用稀疏的完全卷积网络共同推动缺失的几何和运动场。对于网络培训，我们构建了一个名为Deformingthings4D的大规模合成数据集，其由跨越31种不同动物或具有密集4D注释的人形类别的1972个动画序列组成。实验表明，4DCOMPLETE 1从部分观察中重建高分辨率体积形状和运动场，2学习缠绕的4D特征表示，该特征表示有利于形状和运动估计，3产生比诸如刚性的经典非刚性前沿更准确和自然的变形。可能的ARAP变形，4概括为在现实世界序列中的未经看跌对象。

RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition Authors Xiaohan Ding, Xiangyu Zhang, Jungong Han, Guiguang Ding我们提出了一种用于图像识别的多层Perceptron样式神经网络构建块Repmlp，其由一系列完全连接的FC层组成。与卷积层相比，FC层更有效，更好地在建模长距离依赖性和位置模式时，但在捕获局部结构时更差，因此通常不太喜欢图像识别。我们提出了一种结构RE参数化技术，可以在FC中添加本地，以使其成为图像识别的功能。具体而言，在训练期间，我们在REPMLP内构建卷积层，并将它们合并到FC中进行推理。在CIFAR上，简单的纯MLP模型显示出非常接近CNN的性能。通过在传统的CNN中插入REPMLP，我们将RESNET提高1.8在Imagenet上的准确性，2.9对于面部识别，以及2.3 MIOU在Citycapes上具有下拖鞋。我们的有趣调查结果强调，将FC与当地的全局代表能力和定位感知与卷积的本地相结合，可以提高神经网络的性能，以更快的速度对具有转换不变性的任务，例如语义分割和具有对齐图像和位置模式的任务例如，人脸识别。代码和模型可用

DeepPlastic: A Novel Approach to Detecting Epipelagic Bound Plastic Using Deep Visual Models Authors Gautam Tata, Sarah Jeanne Royer, Olivier Poirion, Jay Lowe积极浮动的海洋塑料碎片的量化对于了解垃圾中的垃圾浓度以及识别急动垃圾的垃圾删除需求的浓度，对垃圾的浓度是至关重要的。目前，最常见的监测方法来量化浮动塑料需要使用蝠rawl。需要Manta Trawls或类似表面收集装置的技术利用海洋塑料碎片的物理去除作为第一步，然后作为第二步分析收集的样品。在分析之前，需要进行物理删除，并且需要密集的劳动力，防止整个地球海洋身体的实时海洋塑料监测服务的可扩展部署。如果没有更好的监测和采样方法，整个塑料污染对环境的整体影响以及特定海洋区域内的影响的细节将仍然未知。本研究提出了一种高度可扩展的工作流程，其利用海洋的腰部层内捕获的图像作为输入。它产生了用于准确定量和物理去除的海洋塑料碎片的实时定量。工作流包括创建和预处理域特定数据集，利用深神经网络构建对象检测模型，并评估模型的性能。 YOLOV5 S是最佳性能模型，其平均平均精度映射为0.851，F1分数为0.89，同时保持近实时速度。

MOS: Towards Scaling Out-of-distribution Detection for Large Semantic Space Authors Rui Huang, Yixuan Li检测分配的投入是安全部署现实世界中的机器学习模式的中央挑战。现有解决方案主要由小型数据集驱动，具有低分辨率和极少阶级标签，例如，CIFAR。结果，大规模图像分类任务的检测仍然很大程度上是未开发的。在本文中，我们通过提出基于群体的OOD检测框架来弥合这一临界差距，以及一个名为MOS的小说评分函数。我们的主要思想是将大型语义空间分解为具有相似概念的较小组，这允许简化VS中的决策边界。退出分发数据以进行有效的ood检测。我们的方法比以前的方法高于高维级空间的比例大幅度。我们评估在想象中培训的模型，针对四个仔细策划的OOD数据集，跨越不同的语义。 MOS建立了最先进的性能，减少了平均FPR95的14.33，同时与先前的最佳方法相比，在推理中实现了6倍的加速。

Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors Authors Tao Yu, Zerong Zheng, Kaiwen Guo, Pengpeng Liu, Yebin Liu人类体积捕获是计算机视觉和计算机图形中的长站点。虽然使用复杂的离线系统可以实现高质量的结果，但实时人类体积捕获复杂情景，特别是使用轻量级设置，仍然具有挑战性。在本文中，我们提出了一种人体积捕获方法，该方法结合了时间体积融合和深隐式功能。为实现高质量和时间的连续重建，我们提出了动态滑动融合，使相邻深度观察与拓扑一致性一起。此外，对于详细和完整的表面生成，我们提出了对RGBD输入的深度隐式功能的详细信息，这不仅可以保留深度输入上的几何细节，还可以产生更合理的纹理结果。结果和实验表明，我们的方法在视图稀疏性，泛化容量，重建质量和运行时效率方面优于现有方法。

PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML Authors Jiaquan Ye, Xianbiao Qi, Yelin He, Yihao Chen, Dengyi Gu, Peng Gao, Rong Xiao本文介绍了我对科学文献解析TaskB表识别的ICDAR 2021竞争的解决方案。在我们的方法中，我们将表内容识别任务划分为Foursub任务表结构识别，文本线路检测，文本线识别和框分配。您的表结构识别算法是基于主站1定制的，其鲁棒图像Textrecognion算法。 PSENET 2用于检测表图像中的每个文本线。对于文本绑定识别，我们的模型也是在主设备上构建的。最后，在盒子分配阶段，我们关联由pseNet检测到的pseNet与由表结构预测重建的结构项，并将识别的文本行的内容填充到相应的项目中。我们提出的方法在开发阶段的9,115次验证样本上获得了96.84个TEDS分数，并在最终评估阶段的9,064个样本上获得96.32个TED分数。

PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table Image Recognition to Latex Authors Yelin He, Xianbiao Qi, Jiaquan Ye, Peng Gao, Yihao Chen, Bingcong Li, Xin Tang, Rong Xiao本文介绍了对科学台式图像识别对乳胶的ICDAR 2021竞争的解决方案。该竞争有两个子任务表结构重建TSR和表内容重建TCR。我们将子任务视为两个单独的图像来序列识别问题。我们利用先前提出的算法主CITE LU2019MASTER，最初提出了场景文本识别。我们优化了从多个视角，优化器，归一化方法，预训练模型，输入图像的分辨率，数据增强和型号集合的主模型。我们的方法在TSR任务上实现0.7444精确匹配和0.8765精确匹配95，并在TCR任务上获得0.5586精确匹配和0.7386精确匹配95。

Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation Authors Guang Feng, Zhiwei Hu, Lihe Zhang, Huchuan Lu最近，参考图像分割引起了广泛的兴趣。以前的方法在网络的解码侧执行语言和视觉之间的多模态融合。并且，语言特征单独与每个比例的可视特征交互，这忽略了语言的连续指导到多尺度视觉功能。在这项工作中，我们提出了一个编码器融合网络EFN，它将视觉编码器转换为多模态特征学习网络，并使用语言逐渐改进多模态特征。此外，在EFN中嵌入了CO注意机制，实现了多模态特征的并行更新，这可以促进语义空间中的跨模型信息表示的一致性。最后，我们提出了一个边界增强模块BEM使网络更加关注细结构。在四个基准数据集上的实验结果表明，该方法在没有任何后处理的不同评估指标下实现了最先进的性能。

TransHash: Transformer-based Hamming Hashing for Efficient Image Retrieval Authors Yongbiao Chen 1 , Sheng Zhang 2 , Fangxin Liu 1 , Zhigang Chang 1 , Mang Ye 3 , Zhengwei Qi 1 1 Shanghai Jiao Tong University, 2 University of Southern California, 3 Wuhan University 深汉明散列在近似最近邻的搜索方面取得了越来越多的普及，用于大规模图像检索。到目前为止，图像检索社区的深度散列是由卷积神经网络架构的主导，例如卷积神经网络架构。 Texttt Resnet引用He2016Deep。在本文中，灵感来自近期视觉变形金刚的进步，我们呈现TextBF Transhash，这是一个基于纯变压器的深层散列学习框架。具体而言，我们的框架由两个主要模块1基于Textit Vision变压器Vit，我们设计了一个用于图像特征提取的暹罗视觉变压器骨干。为了学习细粒度的功能，我们在变压器顶部创新了双流特征学习，以学习歧视的全球和本地特征。此外，我们采用贝叶斯学习方案采用动态构造的相似性矩阵来学习紧凑的二进制哈希代码。整个框架连续接受过端的结束方式。据我们所知，这是第一个解决在没有卷积神经网络短信CNNS的情况下解决深层散列学习问题的工作。我们在三个广泛研究的数据集TextBF Cifar 10，TextBF Nus和TextBF Imageenet上进行全面的实验。实验已经证明了我们对现有艺术的深层散列方法的优势。具体而言，我们在三个公共数据集中的不同哈希位长度的平均次数映射方面达到8.2,2.6,12.7性能。

Real-time Face Mask Detection in Video Data Authors Yuchen Ding, Zichen Li, David Yastremsky为了回应持续的Covid 19大流行，我们提出了一种强大的深度学习管道，能够识别从实时视频流识别的正确和不正确的面具。为了实现这一目标，我们设计了两个独立的方法，并评估了它们的性能和运行时间效率。第一方法利用预训练的面部检测器与在大规模合成数据集上训练的掩模佩戴图像分类器结合使用。第二种方法利用现有物体检测网络的状态，以在一次拍摄的一次拍摄中执行面部的本地化和分类，在一小组标记的现实世界图像上进行精细调整。第一管线在合成数据集上实现了99.97的测试精度，并在视频数据上维护了6个FP。第二个管道在现实世界图像上实现了89个映射0.5，而在视频数据上维持52 FPS。我们已经得出结论，如果可以策划具有边界框标签的较大数据集，则由于它们在关键评估度量上的卓越推论速度和令人满意的性能，此任务最适合使用yolo和SSD等对象检测架构。

Real-time Deep Dynamic Characters Authors Marc Habermann, Lingjie Liu, Weipeng Xu, Michael Zollhoefer, Gerard Pons Moll, Christian Theobalt我们提出了一种深度视频型3D人物特征模型，以多视图图像的新弱监督方式显示了高度现实的形状，运动和动态外观。与以前的工作相比，我们可控的3D字符显示动态，例如裙子的摇摆，取决于以有效的数据驱动方式，不需要复杂的物理模拟。我们的角色模型还具有学习的动态纹理模型，可用于照片现实运动依赖性外观细节，以及视图相关的照明效果。在培训期间，我们不需要求难以追求人类的艰难动态3D捕获，而是我们可以完全从多视图视频以弱监督的方式训练我们的模型。为此，我们提出了一种参数和可微分的字符表示，其允许我们模拟粗糙和细致的动态变形，例如衣服皱纹，作为显式空间时间相干网格几何，其增强了依赖于运动和视点的高质量动态纹理。作为模型的输入，只需要一个任意3D骨架运动，使其与已建立的3D动画管道直接兼容。我们使用新颖的图形卷积网络架构来实现身体和衣服的运动依赖变形学习，包括动态，神经生成动态纹理模型创造了相应的动态纹理地图。我们表明，通过仅提供新的骨骼动作，我们的模型会产生运动依赖性表面变形，物理合理的动态衣服变形，以及视频现实表面纹理比以前的最先进的方法，甚至是真实的时间。

Intensity Harmonization for Airborne LiDAR Authors David Jones, Nathan Jacobs为大型地理区域构建点云，例如州或国家，可能需要多年的努力。通常，几个供应商将用于获取LIDAR数据，并且可以通过多个LIDAR扫描捕获单个区域。关键挑战是维持这些扫描之间的一致性，包括点密度，返回数和强度。特别是在扫描之间的强度也可以是非常不同的，即使在重叠的区域也是如此。协调扫描之间的强度以消除这些差异是昂贵且耗时的。本文提出了一种基于深神经网络的点云协调的新方法。我们使用高质量的现实世界LIDAR数据集定量和定性评估我们的方法。我们将方法与几个基线进行比较，包括标准插值方法以及直方图匹配。我们表明，我们的方法在具有相似强度分布的区域中执行以及最佳基线，并且优于不同强度分布的区域中的所有基线。源代码可用

Texture for Colors: Natural Representations of Colors Using Variable Bit-Depth Textures Authors Shumeet Baluja已经提出了许多方法以将颜色和灰度图像转换为每个像素二进制对应物的单个比特。通常，目标是增强原始图像的特定属性，使其更加适合分析。然而，当所得到的二值化图像旨在用于人类观察时，也必须考虑美学。二值化技术，例如半色调，计数和孵化，已广泛用于建模原始图像的强度分布。我们介绍了一种自动化方法，将图像转换为一组二进制纹理，其不仅代表强度，还可以是原始的颜色。我们的方法的基础是信息保存创建一组纹理，允许仅从二值化表示的原始图像S颜色重建。我们提出了技术，以确保所创建的纹理在视觉上不分散注意力，保留图像的强度分布，并且是自然的，因为它们将感知类似于类似模式的颜色映射的颜色。该方法使用深神经网络，完全是自我监督的良好与良好的二值为的例子。当在各种图像源上测试时，系统产生美学上令人愉悦的二进制图像。

3D Vehicle Detection Using Camera and Low-Resolution LiDAR Authors Lin Bai, Yiming Zhao, Xinming Huang如今，光检测和测距LIDAR已被广泛用于自主车辆中的感知和本地化。然而，高分辨率LIDAR的成本仍然非常昂贵，而其低分辨率的对应物更实惠。因此，使用低分辨率激光器进行自主行驶感知任务而不是高分辨率LIDAR是一种经济上可行的解决方案。在本文中，我们提出了一种使用低分辨率激光雷达和单眼相机在鸟眼视图BEV中进行三维物体检测的新框架。采用低分辨率LIDAR点云和单眼图像作为输入，我们的深度完成网络能够产生致密点云，随后由基于Voxel基于Voxel的网络进行3D对象检测。使用基蒂数据集进行评估，实验结果表明，该方法显着地比直接应用16线激光雷云进行对象检测。对于易于中等的情况，我们的检测结果与64线高分辨率LIDAR的检测结果相当。详细分析了网络架构和性能评估。

GANs for Urban Design Authors Stanislava Fedorova机器学习和大数据工具的开发和扩散为建筑师和城市规划人员提供了一种新的工具，可用作分析或设计仪器。本文调查的该主题是在城市块设计中应用生成的对抗性网络。该研究提出了一种能够适应城市的形态特征的灵活模型。该方法没有明确定义一个城市典型的城市块的任何参数，算法从现有的城市上下文中了解它们。这种方法已应用于不同形态学米兰，阿姆斯特丹，塔林，都灵和班加罗尔的城市，以便看到模型的表现和不同城市之间的风格翻译的可能性。数据从OpenStreetMap收集并打开城市的数据门户。本研究提出了实验结果及其定量和定性评估。

A Fast Partial Video Copy Detection Using KNN and Global Feature Database Authors Weijun Tan, Hongwei Guo, Rushuai Liu我们提出了一个快速的部分视频复制检测框架在本文中。在此框架中，参考视频的所有帧特征都在KNN可搜索数据库中组织。查询视频段而不是扫描所有参考视频，而是在全局功能数据库中进行快速knn搜索。返回的结果用于生成候选视频的简短列表。然后使用修改后的时间网络本地化候选视频中的复制段。我们在VCDB数据集上评估了不同选择的CNN功能。我们的基准F1分数超过了最大的艺术状态。

Effectively Leveraging Attributes for Visual Similarity Authors Samarth Mishra, Zhongping Zhang, Yuan Shen, Ranjitha Kumar, Venkatesh Saligrama, Bryan Plummer在两个图像之间测量相似度通常需要沿着不同的轴线进行复杂的推理，例如，颜色，纹理或形状。可以通过注释的属性提供对测量相似性可能重要的洞察，但是通过注释的属性可以提供，但是先前的工作倾向于将这些注释视为完整的，导致它们使用一种简单的方法来预测单个图像上的属性，这些方法依次预测单个图像上的属性。测量相似度。但是，数据集要完全注释每个属性可能很重要的情况是不切实际的。因此，仅基于这些不完整的注释表示图像可能会错过关键信息。为了解决这个问题，我们提出了成对属性通知的相似性网络平移，该相似度网络平移将相似度的学习中断到捕获相似性条件和相关性得分，从两个图像的关节表示。这使我们的模型能够识别两个图像包含相同的属性，但是可以使其被视为无关，例如，由于它们之间的细粒差异并且忽略了两个图像之间的相似性。值得注意的是，虽然使用属性注释的先前方法通常无法优于现有技术，但是PAN获得了49次提高了Polyvore服装上的服装物品之间的兼容性预测的改进，而使用CALTECH UCSD鸟幼崽的图像几次拍摄分类的5增益1提升到店铺衣服的召回1件。

Height Estimation of Children under Five Years using Depth Images Authors Anusua Trivedi, Mohit Jain, Nikhil Kumar Gupta, Markus Hinsche, Prashant Singh, Markus Matiaschek, Tristan Behrens, Mirco Militeri, Cameron Birge, Shivangi Kaushik, Archisman Mohapatra, Rita Chatterjee, Rahul Dodhia, Juan Lavista Ferres营养不良是全球卫生危机，是五岁以下儿童死亡的主要原因。检测营养不良需要体重，高度和中臂周长的人体测量测量。然而，由于资源有限，准确地测量它们是一项挑战，特别是在全球南部。在这项工作中，我们提出了一种基于CNN的方法来估计使用智能手机收集的深度图像来估计五年内的常设儿童的高度。根据智能方法5，高度可接受的精度小于1.4厘米。在87131深度图像上培训我们的深度学习模型，我们的模型在57064测试图像上实现了1.64的平均平均误差。对于70.3测试图像，我们在可接受的1.4厘米范围内精确地估计高度。因此，我们所提出的解决方案可以准确地检测常驻儿童年龄低于5岁以下的年龄的衰退。

Rethinking Ultrasound Augmentation: A Physics-Inspired Approach Authors Maria Tirindelli, Christine Eilers, Walter Simson, Magdalini Paschali, Mohammad Farid Azampour, Nassir NavabMedical Ultrasound US，尽管使用广泛，其特点是伪影和操作员依赖。这些属性

标签：气缸tox传感器

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

【AI视野·今日CV 计算机视觉论文速览第192期】Thu, 6 May 2021

Daily Computer Vision Papers

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

【AI视野·今日CV 计算机视觉论文速览 第192期】Thu, 6 May 2021

Daily Computer Vision Papers

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

【AI视野·今日CV 计算机视觉论文速览第192期】Thu, 6 May 2021

历史搜索清除历史记录