AI视野·今日CS.CV 计算机视觉论文速读 Fri, 1 Oct 2021 Totally 62 papers ???更精彩请移动主页
Daily Computer Vision Papers
Sensor-Guided Optical Flow Authors Matteo Poggi, Filippo Aleotti, Stefano Mattoccia为了在已知或不可见的领域实现卓越的准确性,本文提出了一个框架来指导具有外部线索的光流网络。鉴于外源稀疏但准确的光流提示的可用性,注入调制最先进光流网络计算的相关分数,引导其更准确地预测。虽然没有真正的传感器可以提供稀疏流提示,但我们展示了如何将有源传感器的深度测量与几何和手动光流算法相结合,为我们的目的提供足够准确的提示。 |
Unsupervised Few-Shot Action Recognition via Action-Appearance Aligned Meta-Adaptation Authors Jay Patravali, Gaurav Mittal, Ye Yu, Fuxin Li, Mei Chen我们将 MetaUVFS 无监督元学习算法是第一个用于识别视频少镜头动作的算法。 MetaUVFS 利用超过 550K 未标记视频通过比较学习训练两流 2D 和 3D CNN 为了捕捉特定的外观空间和特定的时空视频特征,架构。 MetaUVFS 包含一个新颖的 Action Appearance Aligned Meta 适配 A3M 该模块通过学习无监督硬挖掘剧集的显式少镜头情节元来学习与外观特征相关的视频特征。我们的动作外观对齐,显式少镜头学习器条件无监督训练,模仿下游少镜头任务,使 MetaUVFS 少镜头基准明显优于所有无监督方法。此外,与之前监督的少数镜头动作识别方法不同,MetaUVFS 既不需要基类标签,也不需要监督预训练骨干。 |
Identity-Disentangled Neural Deformation Model for Dynamic Meshes Authors Binbin Xu, Lingni Ma, Yuting Ye, Tanner Schmidt, Christopher D. Twigg, Steven Lovegrove神经形状模型可以表示具有紧凑潜在空间的复杂性 3D 形状。然而,当应用于动态变形形状(如手)时,它们需要保持变形的时间连贯性和主体的内部身份。手动设计的损失函数很难正则化这些属性。在本文中,我们学习了一种神经变形模型,它利用隐式神经函数将身份引起的形状变形与姿势相关的变形分开。我们对 3D 无模板、无监督学习、无清晰网格对应或跨主题形状语义对应的扫描执行。然后,我们可以应用我们学到的模型来重建新对象的动态部分,以执行看不见的动作 4D 扫描。我们提出了将整体姿态对齐与神经变形模型相结合的两种方法。实验证明了我们身份和姿势的有效性。 |
Unsupervised Domain Adaptation for LiDAR Panoptic Segmentation Authors Borna Be i , Nikhil Gosala, Daniele Cattaneo, Abhinav Valada场景理解是自动驾驶汽车在环境中安全导航的关键任务。深度学习的最新进展可以从 LiDAR 在数据中准确重建周围环境的语义。然而,这些模型配备了不同的模型 LiDAR 在设置的车辆上部署时,存在很大的领域差距,大大降低了其性能。由于记录和手动标记新数据的过程昂贵而繁琐,无法为每个新设置微调模型。因此,无监督域适应 UDA 该技术在没有额外数据标记的情况下,填补该领域的空白,保持新传感器设置中模型的性能至关重要。在本文中,我们提出 AdaptLPS,这是一种用途 LiDAR 新型全景分割 UDA 该方法利用具体的任务知识,考虑扫描线的数量、安装位置、强度分布和环境条件的变化。采用两种互补的域适应策略(基于数据和基于模型)来解决 UDA 任务。尽管通过处理原始数据的适应性 LiDAR 扫描以类似于目标域的扫描来减少域差距,但基于模型的技术指导网络提取代表了两个域的特征。 |
Transferability Estimation for Semantic Segmentation Task Authors Yang Tan, Yang Li, Shao Lun Huang可迁移性估计是迁移学习中的一个基本问题,用于预测将源模型或源任务迁移到目标任务中的性能。在可迁移性分数的指导下,我们可以在实践中有效地选择高度可迁移的源模型。最近对可迁移性指标的分析主要是为图像分类设计的。目前还没有关于语义分割任务可迁移性估计的具体研究,这是自动驾驶和医学图像分析的基本问题。因此,我们进一步扩展了最近对可转移性测量的分析 OTCE 从最佳传输条件熵分数到语义分割任务。应用 OTCE 分数的挑战是高维分割输出,在可接受的计算成本下很难找到这么多像素之间的最佳耦合。因此,建议随机采样 N 计算个像素 OTCE 分数,并将 K 次重复的期望作为最终的可转移性分数。 |
Real-Time Tactile Grasp Force Sensing Using Fingernail Imaging via Deep Neural Networks Authors Navid Fallahinia, Stephen Mascaro本文介绍了一种只通过视觉实时估计人类指尖的应用 3D 新的触觉方法。引入方法完全基于单目视觉,不需要任何物理力传感器。因此,它是可扩展的、非侵入性的,很容易与其他感知系统(如身体姿势估计)集成,使其成为需要力感知的 HRI 理想的应用选择。介绍方法由三个主要模块组成:检测和跟踪每个单独手指的手指跟踪、图像对齐、图像中空间信息保留和图像中着色模式估计 3D 力的力模型。该模型已通过实验实施,结果表明,沿所有三个方向的力水平范围最大 RMS 误差为 8.4。 |
Self-Supervised Out-of-Distribution Detection and Localization with Natural Synthetic Anomalies (NSA) Authors Hannah M. Schl ter, Jeremy Tan, Benjamin Hou, Bernhard Kainz我们引入了一项新的自我监督任务 NSA,仅使用正常数据对训练端到端模型进行异常检测和定位。 NSA 用泊松图像编辑从单个图像中无缝混合各种尺寸的缩放补丁。与以往用于自监督异常检测的数据增强策略相比,这些异常更类似于自然子图像的不规则性。我们使用自然和医学图像评估提出的方法。我们使用 MVTec AD 数据集的实验表明,训练是用来定位的 NSA 异常的模型可以很好地泛化到检测现实世界中的先验未知类型的制造缺陷。 |
Language-Aligned Waypoint (LAW) Supervision for Vision-and-Language Navigation in Continuous Environments Authors Sonia Raychaudhuri, Saim Wani, Shivansh Patel, Unnat Jain, Angel X. Chang在视觉和语言导航 VLN 任务中,实体代理遵循自然语言指令在 3D 环境中导航。此任务中的一个挑战是如何处理代理偏离参考路径的路径场景。先前的工作基于从代理的位置到目标的最短路径来监督代理,但这种面向目标的监督通常与指令不一致。此外,先前工作采用的评估指标并没有衡量代理能够遵循多少语言指令。 |
You Cannot Easily Catch Me: A Low-Detectable Adversarial Patch for Object Detectors Authors Zijian Zhu, Hang Su, Chang Liu, Wenzhao Xiang, Shibao Zheng盲点或彻头彻尾的欺骗可能会欺骗和欺骗机器学习模型。诸如数字贴纸(也称为对抗性补丁)之类的不明物体可以欺骗面部识别系统、监控系统和自动驾驶汽车。幸运的是,大多数现有的对抗性补丁可以被称为对抗性补丁检测器的简单分类网络智取、禁用和拒绝,该网络将对抗性补丁与原始图像区分开来。物体检测器对图像中物体的类型进行分类和预测,例如通过区分摩托车手和摩托车,同时还通过在每个物体周围绘制所谓的边界框来定位每个物体在图像中的位置,再次将摩托车手与摩托车分开摩托车。然而,为了更好地训练检测器,我们需要在探索模型盲点时不断让它们经受令人困惑或欺骗性的对抗性补丁。对于此类探针,我们提出了一种新颖的方法,即低可检测对抗性补丁,该方法使用小且纹理一致的对抗性补丁攻击目标检测器,从而降低这些对手被识别的可能性。具体来说,我们使用几个几何图元来模拟补丁的形状和位置。为了提高我们的攻击性能,我们还根据损失函数为边界框分配了不同的权重。 |
CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation Authors Xiao Wang, Jingen Liu, Tao Mei, Jiebo Luo一些认知研究发现,人类完成事件分割是作为事件预期的副作用。受这一发现的启发,我们提出了一个简单而有效的端到端自监督学习框架,用于事件分割边界检测。与主流的基于聚类的方法不同,我们的框架利用基于变换器的特征重建方案通过重建错误来检测事件边界。这与人类通过利用他们的预测与实际感知之间的偏差来发现新事件的事实是一致的。由于语义上的异质性,边界处的帧通常难以重建,重建误差较大,有利于事件边界检测。此外,由于重建发生在语义特征级别而不是像素级别,我们开发了一个时间对比特征嵌入模块来学习帧特征重建的语义视觉表示。这个过程就像人类建立长期记忆的经验。我们工作的目标是分割通用事件而不是本地化某些特定事件。我们专注于实现准确的事件边界。因此,我们采用 F1 分数 Precision Recall 作为我们的主要评估指标,以便与以前的方法进行公平比较。同时,我们还计算了基于传统框架的 MoF 和 IoU 度量。 |
A Technical Report for ICCV 2021 VIPriors Re-identification Challenge Authors Cen Liu, Yunbo Peng, Yue Lin人员再识别一直是一项热门且具有挑战性的任务。本文介绍了我们在 VIPriors Challenge 2021 中重新识别赛道的解决方案。 在这个挑战中,难点是如何在没有任何预训练权重的情况下从头开始训练模型。在我们的方法中,我们展示了使用最先进的数据处理策略、模型设计和后处理集成方法,可以克服数据短缺的困难并获得有竞争力的结果。 1 遮挡图像的图像增强策略和新颖的预处理方法都可以帮助模型学习更多的判别特征。 2 使用几个强大的主干和多个损失函数来学习更具代表性的特征。 3 后处理技术包括重新排序、自动查询扩展、集成学习等,显着提高最终性能。 |
HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning Authors Shiming Chen, Guo Sen Xie, Qinmu Peng, Yang Liu, Baigui Sun, Hao Li, Xinge You, Ling Shao零镜头学习 ZSL 解决了看不见的类别识别问题,将语义知识从看得见的类别转移到看不见的类别。通常,为了保证理想的知识转移,采用公共潜在空间来关联 ZSL 中的视觉和语义域。然而,现有的通用空间学习方法仅通过一步适应来减轻分布不一致,从而对齐语义和视觉域。由于两个域中特征表示的异质性,这种策略通常是无效的,这两个域本质上包含分布和结构变化。为了解决这个问题并推进 ZSL,我们提出了一种新颖的分层语义视觉适应 HSVA 框架。具体来说,HSVA 通过采用分层的两步适应,即结构适应和分布适应来对齐语义和视觉域。在结构适应步骤中,我们采用两个任务特定的编码器将源数据视觉域和目标数据语义域编码到结构对齐的公共空间中。为此,提出了一种有监督的对抗性差异 SAD 模块,以对抗性地最小化两个特定任务分类器的预测之间的差异,从而使视觉和语义特征流形更加紧密地对齐。在分布适应步骤中,我们直接最小化潜在多元高斯分布之间的 Wasserstein 距离,以使用公共编码器对齐视觉和语义分布。最后,在两个部分对齐的变分自动编码器下,在统一框架中导出结构和分布适应。在四个基准数据集上进行的大量实验表明,HSVA 在传统和广义 ZSL 上都实现了卓越的性能。 |
Motion-aware Self-supervised Video Representation Learning via Foreground-background Merging Authors Shuangrui Ding, Maomao Li, Tianyu Yang, Rui Qian, Haohang Xu, Qingyi Chen, Jue Wang鉴于对比学习在图像领域的成功,当前的自监督视频表示学习方法通常采用对比损失来促进视频表示学习。然而,当天真地将视频的两个增强视图拉近时,该模型倾向于学习常见的静态背景作为捷径,但未能捕获运动信息,这种现象被称为背景偏差。这种偏差使得模型泛化能力较弱,导致在动作识别等下游任务上的性能较差。为了减轻这种偏见,我们提出了前景背景合并 FAME,有意将所选视频的前景区域合成到其他视频的背景上。具体来说,没有任何现成的检测器,我们通过帧差和颜色统计提取前景和背景区域,并在视频之间打乱背景区域。通过利用原始剪辑和融合剪辑之间的语义一致性,该模型更加关注前景运动模式,因此对背景上下文更加鲁棒。大量实验表明,FAME 可以显着提高具有各种主干的不同下游任务的性能。 |
Fake It Till You Make It: Face analysis in the wild using synthetic data alone Authors Erroll Wood, Tadas Baltru aitis, Charlie Hewitt, Sebastian Dziadzio, Matthew Johnson, Virginia Estellers, Thomas J. Cashman, Jamie Shotton我们证明了单独使用合成数据在野外执行与面部相关的计算机视觉是可能的。社区长期以来一直享受着用图形合成训练数据的好处,但真实数据和合成数据之间的领域差距仍然是一个问题,尤其是对于人脸。研究人员试图通过数据混合、领域适应和领域对抗训练来弥合这一差距,但我们表明,以最小的领域差距合成数据是可能的,因此在合成数据上训练的模型可以推广到野外数据集中的真实数据。我们描述了如何将程序生成的参数化 3D 人脸模型与全面的手工资产库相结合,以前所未有的真实感和多样性呈现训练图像。 |
PP-LCNet: A Lightweight CPU Convolutional Neural Network Authors Cheng Cui, Tingquan Gao, Shengyu Wei, Yuning Du, Ruoyu Guo, Shuilong Dong, Bin Lu, Ying Zhou, Xueying Lv, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma我们提出了一个基于 MKLDNN 加速策略的轻量级 CPU 网络,命名为 PP LCNet,它提高了轻量级模型在多个任务上的性能。本文列出了可以在延迟几乎不变的情况下提高网络准确性的技术。通过这些改进,PP LCNet 在分类推理时间相同的情况下,其准确率可以大大超过之前的网络结构。如图 1 所示,它的性能优于最先进的模型。而对于计算机视觉的下游任务,它也表现得非常好,比如物体检测、语义分割等。我们所有的实验都是基于 PaddlePaddle 实现的。 |
iShape: A First Step Towards Irregular Shape Instance Segmentation Authors Lei Yang, Yan Zi Wei, Yisheng HE, Wei Sun, Zhenhang Huang, Haibin Huang, Haoqiang Fan在本文中,我们引入了一个全新的数据集来促进对不规则形状对象的实例分割的研究。我们的主要观察是,虽然不规则形状的物体广泛存在于日常生活和工业场景中,但由于缺乏相应的数据集,它们在实例分割领域很少受到关注。为了填补这一空白,我们提出了 iShape,这是一个用于实例分割的不规则形状数据集。 iShape 包含六个子数据集,一个真实的和五个合成的,每个都代表一个典型的不规则形状的场景。与大多数现有的常规对象实例分割数据集不同,iShape 具有许多挑战现有实例分割算法的特性,例如实例边界框之间的大量重叠、极端的纵横比以及每个实例的大量连接组件。我们在 iShape 上对流行的实例分割方法进行了基准测试,发现它们的性能急剧下降。因此,我们提出了一种基于亲和力的实例分割算法,称为 ASIS,作为更强的基线。 ASIS 明确地结合感知和推理来解决包括不规则物体在内的任意形状实例分割。实验结果表明,ASIS 在 iShape 上的表现优于现有技术。 |
Riedones3D: a celtic coin dataset for registration and fine-grained clustering Authors Sofiane Horache, Jean Emmanuel Deschaud, Fran ois Goulette, Katherine Gruel, Thierry Lejars, Olivier Masson将硬币按模具分类是钱币研究的一个重要组成部分,对于了解部落的经济历史至关重要,尤其是在凯尔特文化中不存在文学作品的情况下。这是一项非常艰巨的任务,需要大量的时间和专业知识。为了聚集数千个硬币,自动方法变得必要。尽管如此,用于硬币模具聚类评估的公共数据集太少了,尽管它们对于新方法的开发非常重要。因此,我们提出了一个新的 2070 次硬币扫描的 3D 数据集。有了这个数据集,我们提出了两个基准,一个用于点云注册,对于硬币骰子识别必不可少,一个用于硬币骰子聚类的基准。我们展示了我们如何自动聚类硬币以帮助专家,并对这两个任务进行初步评估。 |
3D Pose Transfer with Correspondence Learning and Mesh Refinement Authors Chaoyue Song, Jiacheng Wei, Ruibo Li, Fayao Liu, Guosheng Lin3D 姿势转移是最具挑战性的 3D 生成任务之一。它旨在将源网格的姿态转移到目标网格并保持身份,例如目标网格的身体形状。以前的一些工作需要关键点注释来建立源和目标网格之间的可靠对应关系,而其他方法没有考虑源和目标之间的任何形状对应关系,这导致生成质量有限。在这项工作中,我们提出了一个对应细化网络来帮助人类和动物网格的 3D 姿势转移。源网格和目标网格之间的对应关系首先通过求解最优传输问题来建立。然后,我们根据密集对应对源网格进行扭曲,并获得粗扭曲的网格。使用我们建议的 textit Elastic Instance Normalization 可以更好地细化扭曲的网格,这是一个条件规范化层,可以帮助生成高质量的网格。 |
Adversarial Semantic Contour for Object Detection Authors Yichi Zhang, Zijian Zhu, Xiao Yang, Jun Zhu现代物体检测器容易受到对抗样本的影响,这给许多应用带来了潜在风险,例如自动驾驶汽车。在 ell p 范数正则化的攻击中,ell 0 攻击旨在修改尽可能少的像素。然而,这个问题很重要,因为它通常需要同时优化形状和纹理,这是一个 NP 难题。为了解决这个问题,我们提出了一种由对象轮廓作为先验引导的对抗语义轮廓 ASC 的新方法。有了这个先验,我们减少了搜索空间以加速 ell 0 优化,并且还引入了更多应该对检测器产生更大影响的语义信息。基于轮廓,我们通过交替采样和梯度下降的颜色来优化修改像素的选择。大量实验表明,我们提出的 ASC 在消失任务上优于最常见的手动设计模式,例如方形补丁和网格。 |
Revisiting Point Cloud Simplification: A Learnable Feature Preserving Approach Authors Rolandos Alexandros Potamias, Giorgos Bouritsas, Stefanos Zafeiriou3D 传感技术的最新进展使得以显着高分辨率捕获点云成为可能。然而,增加细节通常以高存储为代价,以及处理和可视化操作方面的计算成本。网格和点云简化方法旨在降低 3D 模型的复杂性,同时保留视觉质量和相关显着特征。传统的简化技术通常依赖于解决耗时的优化问题,因此它们对于大规模数据集是不切实际的。为了减轻这种计算负担,我们提出了一种通过学习对显着点进行采样的快速点云简化方法。所提出的方法依赖于经过训练的图神经网络架构,可以从输入空间中选择任意数量的用户定义的点并重新排列它们的位置,以最大限度地减少视觉感知误差。该方法使用多种感知指标在各种数据集上进行了广泛评估。 |
Moving Object Detection for Event-based vision using Graph Spectral Clustering Authors Anindya Mondal, Shashant R, Jhony H. Giraldo, Thierry Bouwmans, Ananda S. Chowdhury移动物体检测一直是计算机视觉中讨论的中心话题,因为它在自动驾驶汽车、视频监控、安全和执法等广泛的应用中。神经形态视觉传感器 NVS 是模仿人眼工作的仿生传感器。与传统的基于帧的相机不同,这些传感器捕获异步事件流,与前者相比具有多种优势,例如高动态范围、低延迟、低功耗和减少运动模糊。然而,这些优势的代价是高昂的,因为事件相机数据通常包含更多的噪声并且分辨率低。此外,由于基于事件的相机只能捕获场景亮度的相对变化,因此事件数据不包含普通相机的视频数据中可用的常见视觉信息,如纹理和颜色。因此,基于事件的相机中的运动物体检测成为一项极具挑战性的任务。在本文中,我们提出了一种无监督的图谱聚类技术,用于基于事件的数据 GSCEventMOD 中的移动对象检测。我们还展示了如何自动确定最佳移动对象数量。 |
Augmented reality navigation system for visual prosthesis Authors Melani Sanchez Garcia, Alejandro Perez Yus, Ruben Martinez Cantin, Jose J. Guerrero视觉假体的视野、分辨率、动态范围等视觉功能严重制约着人在未知环境中的导航能力。植入患者仍然需要不断的帮助才能从一个位置导航到另一个位置。因此,需要一种能够在他们的旅途中安全地协助他们的系统。在这项工作中,我们提出了一种用于视觉假体的增强现实导航系统,该系统结合了反应导航和路径规划软件,可通过方便、无障碍的路线引导受试者。它包括在地图上定位主题、规划主题轨迹、将其显示给主题以及无障碍地重新规划四个步骤。我们还设计了一个模拟假肢视觉环境,使我们能够系统地研究导航性能。 12 名受试者参与了实验。受试者由增强现实导航系统引导,他们的指令是在不同的环境中导航,直到达到两个目标,越过门找到一个物体箱,尽可能快速和准确。 |
Forming a sparse representation for visual place recognition using a neurorobotic approach Authors Sylvain Colomer, Nicolas Cuperlier, Guillaume Bresson, Olivier Romain本文介绍了一种用于视觉信息编码的新型无监督神经网络模型,旨在解决大规模视觉定位问题。受视觉皮层结构的启发,该模型即 HSD 交替拓扑稀疏编码和池化层以构建更紧凑的视觉信息代码。旨在用于使用局部描述符的视觉位置识别 VPR 系统,评估其在生物启发模型中的集成对自我定位 LPMP 的影响。我们在 KITTI 数据集上的实验结果表明,HSD 将 LPMP 的运行速度提高了至少 2 倍,并将其定位精度提高了 10 倍。 |
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations Authors Mohammadreza Zolfaghari, Yi Zhu, Peter Gehler, Thomas Brox对比学习允许我们通过对比来自一组负样本的正对来灵活地定义强大的损失。最近,该原理也被用于学习视频和文本的跨模态嵌入,但没有充分利用其潜力。特别是,先前的损失没有考虑内部模态相似性,这导致嵌入效率低下,因为相同的内容被映射到嵌入空间中的多个点。使用 CrossCLR,我们提出了一个对比损失来解决这个问题。此外,我们根据输入嵌入定义了高度相关的样本集,并将它们从负样本中排除,以避免出现假负例的问题。我们表明,这些原则始终如一地提高了学习嵌入的质量。使用 CrossCLR 学习的联合嵌入大大扩展了 Youcook2 和 LSMDC 数据集上的视频文本检索以及 Youcook2 数据集上的视频字幕的最新技术。 |
Robust Segmentation Models using an Uncertainty Slice Sampling Based Annotation Workflow Authors Grzegorz Chlebus, Andrea Schenk, Horst K. Hahn, Bram van Ginneken, Hans Meine语义分割神经网络需要大量的像素级注释才能达到良好的性能。在医学领域,这样的注释很昂贵,因为它们耗时且需要专业知识。主动学习通过设计策略来选择对模型最有用的标记案例来优化注释工作。在这项工作中,我们提出了一种用于 3D 医学体积语义分割的不确定切片采样 USS 策略,该策略选择 2D 图像切片进行注释,并将其与各种其他策略进行比较。我们使用多站点数据证明了 USS 在 CT 肝脏分割任务上的效率。经过五次迭代,USS 产生的训练数据由数据池中所有切片的 2410 个切片 4 组成,而不确定性体积 UVS 、随机体积 RVS 和随机切片 RSS 采样分别为 8121 13 、8641 14 和 3730 6 。尽管在最少量的数据上进行了训练,但基于 USS 策略的模型在 234 个测试卷上评估的性能明显优于根据其他策略训练的模型,并实现了 0.964 的平均 Dice 指数、4.2 的相对体积误差、平均表面距离1.35 毫米,豪斯多夫距离 23.4 毫米。这仅略逊于使用所有可用数据训练的模型实现的 0.967、3.8、1.18 毫米和 22.9 毫米,但使用 Dice 的第 5 个百分点和其余指标的第 95 个百分点进行的稳健性分析表明,USS 不仅导致 |
HLIC: Harmonizing Optimization Metrics in Learned Image Compression by Reinforcement Learning Authors Baocheng Sun, Meng Gu, Dailan He, Tongda Xu, Yan Wang, Hongwei Qin学习图像压缩近年来取得了很好的进展。峰值信噪比 PSNR 和多尺度结构相似性 MS SSIM 是两个最流行的评估指标。由于不同的指标仅反映人类感知的某些方面,该领域的工作通常分别使用 PSNR 和 MS SSIM 作为损失函数来优化两个模型,这是次优的,并且很难选择具有最佳视觉质量或整体性能的模型。为了解决这个问题,我们建议通过强化学习使用在线损失函数自适应来协调学习图像压缩 HLIC 中的优化指标。通过这样做,我们能够利用 PSNR 和 MS SSIM 的优势,实现更好的视觉质量和更高的 VMAF 分数。 |
AffectGAN: Affect-Based Generative Art Driven by Semantics Authors Theodoros Galanos, Antonios Liapis, Georgios N. Yannakakis本文介绍了一种生成表达特定情感状态的艺术图像的新方法。利用最先进的深度学习方法通过生成对抗网络、OpenAI 的语义模型以及视觉艺术百科全书 WikiArt 的注释数据集进行视觉生成,我们的 AffectGAN 模型能够基于特定或广泛的语义提示和预期情感生成图像结果。由 AffectGAN 生成的 32 张图像的小型数据集由 50 名参与者根据他们引发的特定情感以及质量和新颖性进行注释。结果表明,在大多数情况下,用作图像生成提示的预期情绪与参与者的反应相匹配。 |
IntentVizor: Towards Generic Query Guided Interactive Video Summarization Using Slow-Fast Graph Convolutional Networks Authors Guande Wu, Jianzhe Lin, Claudio T. Silva自动视频摘要的目标是在保留主要内容事件的同时创建原始长视频的短视频。将用户的查询集成到视频摘要或查询驱动的视频摘要中越来越受到关注。这种视频摘要方法根据用户查询预测原始视频的简明概要,通常由输入文本表示。然而,这种查询驱动方式存在两个固有问题。首先,查询文本可能不足以描述用户的确切和多样化需求。其次,一旦生成摘要,用户就不能进行编辑,限制了这种摘要技术的实用价值。我们假设用户的需求应该是微妙的,需要交互调整。为了解决这两个问题,我们提出了一种新颖的 IntentVizor 框架,它是一种由通用多模态查询引导的交互式视频摘要框架。描述用户需求的输入查询不仅限于文本,还包括视频片段。我们进一步将这些多模态细粒度查询总结为用户意图,这是本文中新提出的概念。这种意图是可解释的、可交互的,并且更好地量化描述了用户的需求。更具体地说,我们使用一组意图来表示用户的输入来设计我们新的交互式视觉分析界面。用户可以交互地控制和调整这些混合的主动意图,以获得对这个新提出的界面更满意的总结。此外,由于算法通过视频理解帮助用户实现他们的总结目标,我们为我们的算法部分提出了两种基于慢速特征的新型意图评分网络。我们在两个基准数据集上进行实验。 |
Semantic Dense Reconstruction with Consistent Scene Segments Authors Yingcai Wan, Yanyan Li, Yingxuan You, Cheng Guo, Lijin Fang, Federico Tombari在本文中,提出了一种从 RGB D 序列重建密集语义 3D 场景的方法,以解决高级场景理解任务。首先,每个 RGB D 对都基于相机跟踪主干一致地分割成 2D 语义图,该主干将对象标签以高概率从全扫描传播到相应的局部视图。然后从输入的 RGB D 序列逐步生成未知环境的密集 3D 网格模型。受益于 2D 一致语义段和 3D 模型,提出了一种新颖的语义投影块 SP Block,以从不同视图的 2D 段中提取深度特征量。此外,语义卷从点云编码器融合为深层卷,以进行最终的语义分割。 |
GT U-Net: A U-Net Like Group Transformer Network for Tooth Root Segmentation Authors Yunxiang Li, Shuai Wang, Jun Wang, Guodong Zeng, Wenjun Liu, Qianni Zhang, Qun Jin, Yaqi Wang为了实现对根管治疗的准确评估,一个基本步骤是对口腔 X 射线图像进行牙根分割,因为牙根边界的位置是根管治疗评估中的重要解剖信息。然而,模糊的边界使得牙根分割非常具有挑战性。在本文中,我们提出了一种新颖的端到端 U Net,如 Group Transformer Network GT U Net,用于牙根分割。所提出的网络保留了 U Net 的本质结构,但每个编码器和解码器都被一个组 Transformer 代替,通过使用分组结构和瓶颈结构,大大降低了传统 Transformer 架构的计算成本。此外,提议的 GT U Net 由卷积和 Transformer 的混合结构组成,这使其独立于预训练权重。为了优化,我们还提出了一个形状敏感的傅立叶描述符 FD 损失函数,以利用形状先验知识。实验结果表明,我们提出的网络在我们收集的牙根分割数据集和公共视网膜数据集 DRIVE 上达到了最先进的性能。 |
Improvising the Learning of Neural Networks on Hyperspherical Manifold Authors Lalith Bharadwaj Baru, Sai Vardhan Kanumolu, Akshay Patel Shilhora卷积神经网络 CNN 在监督设置中的影响极大地提高了性能。从 CNN 在超球面流形上学习的表征在人脸识别、人脸识别和其他监督任务中产生了深刻的结果。使用超球体直觉开发了广泛的激活函数,其在欧几里得空间中的表现优于 softmax。这项研究的主要动机是提供见解。首先,暗示立体投影将数据从欧几里得空间 mathbb R n 转换为超球面流形 mathbb S n 以分析角余量损失的性能。其次,从理论上和实践上证明,使用立体投影在超球面上构建的决策边界需要神经网络的学习。实验证明,在现有的最先进的角度边缘目标函数上应用立体投影可以提高标准图像分类数据集 CIFAR 10,100 的性能。 |
The Object at Hand: Automated Editing for Mixed Reality Video Guidance from Hand-Object Interactions Authors Yao Lu, Walterio W. Mayol Cuevas在本文中,我们关注如何自动提取构成现实生活手部活动的步骤的问题。这是在混合现实系统中处理、监控和提供视频指导的关键能力。我们使用以自我为中心的视觉来观察现实世界任务中的手部对象交互,并自动将视频分解为其组成步骤。我们的方法结合了手部对象交互 HOI 检测、对象相似性测量和有限状态机 FSM 表示,以自动将视频编辑为步骤。我们结合使用卷积神经网络 CNN 和 FSM 来发现、编辑剪切和合并片段,同时观察真实的手部活动。我们在 GTEA 引用 li2015delving 的两个数据集以及我们为中国制茶引入的新数据集上对我们的算法进行了定量和定性评估。 |
Egocentric Hand-object Interaction Detection and Application Authors Yao Lu, Walterio W. Mayol Cuevas在本文中,我们提出了一种从以自我为中心的角度检测手部对象交互的方法。与 cite Shan20 等基于海量数据驱动的鉴别器的方法相比,我们提出了一种利用手和物体线索的新颖工作流程。具体来说,我们训练预测手部姿势、手部掩码和手中对象掩码的网络,以共同预测手部对象交互状态。我们将我们的方法与 Shan 等人的最新工作进行了比较。在来自 EPIC KITCHENS 的选定图像上引用 Shan20 引用 damen2018scaling 数据集并在 HOI 手部对象交互检测上达到 89 的准确率,与 Shan s 92 相当。然而,对于实时性能,在同一台机器上,我们的方法可以在 textbf 30 FPS 上运行,这比 Shan 的 textbf 1 sim textbf 2 FPS 高效得多。此外,通过我们的方法,我们能够从我们使用 HOI 状态检测提取帧的位置分割脚本较少的活动。 |
Targeted Gradient Descent: A Novel Method for Convolutional Neural Networks Fine-tuning and Online-learning Authors Junyu Chen, Evren Asma, Chung Chan卷积神经网络 ConvNet 通常经过训练,然后使用来自相同分布的图像进行测试。要将 ConvNet 推广到各种任务,通常需要一个完整的训练数据集,其中包含从不同任务中提取的图像。在大多数情况下,几乎不可能预先收集所有可能的代表性数据集。只有在临床实践中部署 ConvNet 后,新数据才可用。然而,ConvNet 可能会在分布外测试样本上生成工件。在这项研究中,我们提出了 Targeted Gradient Descent TGD,这是一种新颖的微调方法,可以将预训练的网络扩展到新任务,而无需重新访问先前任务的数据,同时保留从先前训练中获得的知识。在进一步的程度上,所提出的方法还可以实现患者特定数据的在线学习。该方法建立在重用预训练的 ConvNet 的冗余内核来学习新知识的思想之上。我们将 TGD 的性能与几种常用的正电子发射断层扫描 PET 图像去噪任务的训练方法进行了比较。临床图像的结果表明,TGD 生成的结果与从头开始训练的结果相当,同时显着减少了数据准备和网络训练时间。 |
USIS: Unsupervised Semantic Image Synthesis Authors George Eskandar, Mohamed Abdelsamad, Karim Armanious, Bin Yang语义图像合成 SIS 是图像到图像转换的一个子类,其中从分割掩码合成逼真的图像。 SIS 主要作为一个有监督的问题来解决。然而,最先进的方法依赖于大量的标记数据,不能应用于未配对的环境中。另一方面,通用的未配对图像到图像的翻译框架相比之下表现不佳,因为它们对语义布局进行了颜色编码,并将它们提供给传统的卷积网络,然后学习外观而不是语义内容的对应关系。在这项初步工作中,我们为语义图像合成 USIS 提出了一种新的无监督范式,作为缩小配对和未配对设置之间性能差距的第一步。值得注意的是,该框架部署了一个 SPADE 生成器,该生成器使用自监督的分割损失学习输出具有视觉可分离语义类的图像。此外,为了在不丢失高频信息的情况下匹配真实图像的颜色和纹理分布,我们建议使用基于整幅图像小波的判别。 |
Convolutional Neural Network Compression through Generalized Kronecker Product Decomposition Authors Marawan Gamal Abdel Hameed, Marzieh S. Tahaei, Ali Mosleh, Vahid Partovi Nia现代卷积神经网络 CNN 架构尽管在解决各种问题方面具有优势,但通常太大而无法部署在资源受限的边缘设备上。在本文中,我们减少了 CNN 中卷积层所需的内存使用和浮点运算。我们通过将 Kronecker Product Decomposition 推广到多维张量来压缩这些层,从而得到 Generalized Kronecker Product Decomposition GKPD 。我们的方法产生了一个即插即用模块,可以用作任何卷积层的替代品。使用 ResNet、MobileNetv2 和 SeNet 架构在 CIFAR 10 和 ImageNet 数据集上进行图像分类的实验结果证实了我们提出的方法的有效性。 |
End-to-End Image Compression with Probabilistic Decoding Authors Haichuan Ma, Dong Liu, Cunhui Dong, Li Li, Feng Wu有损图像压缩是多对一的过程,因此一个比特流对应多个可能的原始图像,尤其是在低比特率时。然而,在以前的图像压缩研究中很少考虑这种性质,通常选择一个可能的图像作为重建,例如具有最大后验概率的那个。我们提出了一个学习图像压缩框架来原生支持概率解码。压缩的比特流被解码为一系列参数,这些参数实例化一个预先选择的分布,然后解码器使用该分布来采样和重建图像。解码器可能采用不同的采样策略,产生不同的重构,其中一些具有更高的信号保真度,而另一些具有更好的视觉质量。所提出的框架依赖于基于可逆神经网络的变换,以将像素转换为尽可能遵守预选分布的系数。 |
Spark in the Dark: Evaluating Encoder-Decoder Pairs for COVID-19 CT's Semantic Segmentation Authors Bruno A. Krinski, Daniel V. Ruiz, Eduardo Todt随着 COVID 19 全球大流行,医学图像的计算机辅助诊断得到了很多关注,计算机断层扫描 CT 语义分割的强大方法变得非常可取。 CT 的语义分割是 Covid 19 自动检测的众多研究领域之一,自 Covid19 爆发以来就得到了广泛的探索。在机器人领域,器官和CT的语义分割广泛应用于为手术任务而开发的机器人中。随着新方法和新数据集的快速提出,对这些方法进行广泛评估的必要性变得显而易见。为了提供跨多个最近提出的数据集的不同架构的标准化比较,我们在本文中提出了多个编码器和解码器的广泛基准,在五个数据集中评估了总共 120 个架构,每个数据集都通过五折交叉验证策略进行验证,总共 3.000 次实验。 |
Unsupervised Landmark Detection Based Spatiotemporal Motion Estimation for 4D Dynamic Medical Images Authors Yuyu Guo, Lei Bi, Dongming Wei, Liyun Chen, Zhengbin Zhu, Dagan Feng, Ruiyan Zhang, Qian Wang, Jinman Kim运动估计是动态医学图像处理中用于评估目标器官解剖结构和功能的基本步骤。然而,现有的基于图像的运动估计方法通过评估局部图像相似性来优化运动场,容易产生不合理的估计,尤其是在存在大运动的情况下。在这项研究中,我们提供了一种新颖的 Dense Sparse Dense DSD 运动估计框架,它包括两个阶段。在第一阶段,我们处理原始密集图像以提取稀疏地标来表示目标器官解剖拓扑,并丢弃运动估计不需要的冗余信息。为此,我们引入了一个无监督的 3D 地标检测网络来提取空间稀疏但具有代表性的地标,用于目标器官运动估计。在第二阶段,我们从不同时间点的两幅图像的提取稀疏标志中推导出稀疏运动位移。然后,我们提出了一个运动重建网络,通过将稀疏地标位移投影回密集图像域来构建运动场。此外,我们采用来自两阶段 DSD 框架的估计运动场作为初始化,并以轻量级但有效的迭代优化提高运动估计质量。我们在两个动态医学成像任务上评估我们的方法,分别对心脏运动和肺呼吸运动进行建模。与现有的比较方法相比,我们的方法产生了卓越的运动估计精度。此外,大量的实验结果表明,我们的解决方案可以提取具有代表性的解剖标志,而无需任何手动注释。 |
Automated airway segmentation by learning graphical structure Authors Yihua Yang在这个研究项目中,我们基于现有的卷积神经网络 CNN 和图神经网络 GNN 提出了一种先进的气道分割方法。该方法源于血管分割,但我们对其进行了改进,并使新模型能够更好地处理来自计算机断层扫描 CT 扫描的数据集。当前的气道分割方法仅考虑规则网格。无论详细模型是什么,包括三个方向的 3 维 CNN 或 2 维 CNN,都没有考虑整体图结构。在我们的模型中,考虑到气道的邻域,结合了图形结构,与传统的 CNN 方法相比,改进了气道的分割。我们对胸部 CT 扫描进行了实验,其中手动生成了真实的分割标签。所提出的模型表明,与仅使用 CNN 的方法相比,CNN 和 GNN 的组合具有更好的性能,因为在大多数情况下可以检测到胸部 CT 扫描中的支气管。此外,我们提出的模型具有广泛的扩展性,因为该架构在实现其他数据集中的类似目标方面也是功利的。 |
A Prior Knowledge Based Tumor and Tumoral Subregion Segmentation Tool for Pediatric Brain Tumors Authors Silu Zhang, Angela Edwards, Shubo Wang, Zoltan Patay, Asim Bag, Matthew A. Scoggins在过去的几年中,深度学习 DL 模型引起了极大的关注,并在脑肿瘤和子区域分割任务中表现出了卓越的性能。然而,成功仅限于成人神经胶质瘤的分割,其中已经收集了足够的数据,手动标记并发布用于训练 DL 模型。儿童肿瘤的分割仍然具有挑战性,因为其外观与成人胶质瘤不同。因此,直接在儿科数据上应用预先保留的 DL 模型通常会产生不可接受的结果。由于儿科数据非常有限,包括标记和未标记,我们提出了一个基于知识而不是从数据中学习的脑肿瘤分割模型。我们还为超异质性肿瘤(如非典型畸胎瘤横纹肌瘤 ATRT)提供了更多子区域的分割。 |
Chest X-Rays Image Classification from beta-Variational Autoencoders Latent Features Authors Leonardo Crespi, Daniele Loiacono, Arturo Chiti胸部 X 射线 CXR 是世界各地日常临床实践中最常用的诊断技术之一。我们在此提出一项工作,旨在调查和分析使用深度学习 DL 技术从此类图像中提取信息并允许对它们进行分类,试图使我们的方法尽可能通用,并且可能也可用于现实世界场景中,而无需太多努力,未来。为了朝着这个方向前进,我们在 CheXpert 数据集上训练了几个 beta Variational Autoencoder beta VAE 模型,这是这些模型中最大的公开可用的标记 CXR 图像集合之一,潜在特征已被提取并用于训练其他机器学习模型,能够从 beta VAE 提取的特征中对原始图像进行分类。最后,基于树的模型已在集成中组合在一起以改进结果,而无需进一步培训或模型工程。 |
MetaHistoSeg: A Python Framework for Meta Learning in Histopathology Image Segmentation Authors Zheng Yuan, Andre Esteva, Ran Xu鉴于通常可用的数字化幻灯片数量相对较少,很少镜头学习是大多数基于深度学习的组织病理学图像分割的标准做法。虽然已经为特定领域的组织病理学图像分割开发了许多模型,但跨域泛化仍然是正确验证模型的关键挑战。在这里,缺乏跨组织病理学领域对模型性能进行基准测试的工具和数据集。为了解决这个限制,我们引入了 MetaHistoSeg 一个 Python 框架,它在元学习和基于实例的迁移学习中实现了独特的场景。该框架旨在轻松扩展到自定义数据集和任务采样方案,使研究人员能够快速设计模型和进行实验。我们还策划了一个组织病理学元数据集,这是一个基准数据集,用于训练和验证一系列癌症类型的分布性能的模型。 |
Unlocking the potential of deep learning for marine ecology: overview, applications, and outlook Authors Morten Goodwin, Kim Tallaksen Halvorsen, Lei Jiao, Kristian Muri Knausg rd, Angela Helen Martin, Marta Moyano, Rebekah A. Oomen, Jeppe Have Rasmussen, Tonje Knutsen S rdalen, Susanna Huneide Thorbj rnsen作为利用大数据力量的一种手段,深度学习革命正在触及所有科学学科和我们生活的各个角落。海洋生态也不例外。这些新方法以可重现且快速的方式,甚至可以实时分析来自传感器、摄像机和录音机的数据。现成的算法可以从数字图像或视频中查找、计数和分类物种,并检测嘈杂数据中的神秘模式。利用这些机会需要跨生态和数据科学学科的合作,这可能具有挑战性。为了促进这些合作并促进深度学习在基于生态系统的海洋管理中的使用,本文旨在弥合海洋生态学家和计算机科学家之间的差距。我们以浅显易懂的语言深入了解用于生态数据分析的流行深度学习方法,重点关注深度神经网络的监督学习技术,并通过深度学习在海洋生态学中的既定和新兴应用来说明挑战和机遇。我们使用有关浮游生物、鱼类、海洋哺乳动物、污染和营养循环的既定和面向未来的案例研究,涉及对象检测、分类、跟踪和可视化数据的分割。 |
Vision-Aided Beam Tracking: Explore the Proper Use of Camera Images with Deep Learning Authors Yu Tian, Chenwei Wang我们在相机图像的帮助下研究了毫米波频段上的无线波束跟踪问题。特别是,基于用户使用的光束指数和轨迹中拍摄的相机图像,我们预测了接下来几个时间点的最佳光束指数。为了解决这个问题,我们首先在 1 中重新构造 ViWi 数据集以摆脱图像重复问题。然后我们开发一种深度学习方法并研究各种模型组件以实现最佳性能。最后,我们探讨是否、何时以及如何使用图像进行更好的光束预测。为了回答这个问题,我们根据光束序列的标准偏差将数据集分为三个集群 LOS、轻型 NLOS、严重 NLOS 等。通过实验,我们证明使用图像确实有助于光束跟踪,尤其是当用户处于严重的 NLOS 时,该解决方案依赖于精心设计的数据集来训练模型。 |
Automatic Estimation of Ulcerative Colitis Severity from Endoscopy Videos using Ordinal Multi-Instance Learning Authors Evan Schwab, Gabriela Oana Cula, Kristopher Standish, Stephen S. F. Yip, Aleksandar Stojmirovic, Louis Ghanem, Christel Chehoud溃疡性结肠炎 UC 是一种慢性炎症性肠病,其特征是大肠炎症复发。 UC 的严重程度通常由梅奥内窥镜子评分 MES 表示,它量化内窥镜视频中的粘膜疾病活动。在临床试验中,根据视频中观察到的最严重的疾病活动为内窥镜视频分配 MES。出于这个原因,扩散到整个结肠的严重炎症将接受与其他健康结肠相同的 MES,而严重炎症仅限于一个小的局部节段。因此,整个大肠的疾病活动程度以及对治疗的整体反应可能无法完全被 MES 捕获。在这项工作中,我们的目标是自动估计内窥镜视频中每一帧的 UC 严重程度,以提供对整个结肠疾病活动的更高分辨率评估。由于在帧级别注释严重性昂贵、劳动密集且高度主观,因此我们提出了一种新的弱监督有序分类方法,仅从视频 MES 标签估计帧严重性。使用临床试验数据,我们首先分别达到了 0.92 和 0.90 AUC,用于预测 UC 的粘膜愈合和缓解。然后,对于严重性估计,我们证明我们的模型与真实 MES 标签实现了实质性的 Cohen Kappa 一致性,与专家临床医生的评估者间协议相当。 |
Federated Self-Supervised Contrastive Learning via Ensemble Similarity Distillation Authors Haizhou Shi, Youcai Zhang, Zijin Shen, Siliang Tang, Yaqian Li, Yandong Guo, Yueting Zhuang本文研究了在联合场景中使用未标记的客户端数据学习良好表示空间的可行性。现有工作简单地继承了监督联邦学习方法,这不适用于模型异质性,并且存在隐私暴露的潜在风险。为了解决上述问题,我们首先确定自我监督的对比局部训练对非 i.i.d 更稳健。与传统的监督学习范式相比。然后,我们提出了一种新颖的联邦自监督对比学习框架 FLESD,它支持与架构无关的本地培训和通信高效的全局聚合。在每一轮通信中,服务器首先在公共数据集上收集客户端推断的相似性矩阵的一小部分。然后 FLESD 集成相似矩阵并通过相似蒸馏训练全局模型。我们通过一系列实证实验验证了我们提出的框架的有效性,并表明 FLESD 与处理模型异质性的现有方法相比具有三个主要优势,更不容易发生隐私泄漏,并且通信效率更高。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
Interesting:
📚, (from )
📚, (from )
📚, (from )
📚, (from )
📚, (from )
pic from pexels.com