【AI视野·今日CV 计算机视觉论文速览第185期】Tue, 15 Sep 2020-锐单电子商城

AI视野·今日CS.CV 计算机视觉论文速读 Tue, 15 Sep 2020 Totally 84 papers ??上期速览?更精彩请移动主页

在这里插入图片描述

Daily Computer Vision Papers

High-Resolution Deep Image Matting Authors Haichao Yu, Ning Xu, Zilong Huang, Yuqian Zhou, Humphrey Shi图像挖掘是图像和视频编辑合成的关键技术。根据惯例，深度学习方法使用整个输入图像和相关性trimap利用卷积神经网络推断alpha遮罩。这种方法在图像消光方面设置了最先进的技术，但由于硬件限制，它们可能在现实世界的消光应用中失败，因为大多数用于消光的输入图像在现实世界中分辨率很高。在本文中，我们提出HDMatt，高分辨率输入是第一种基于深度学习的图像挖掘方法。更具体地说，HDMatt高分辨率输入运行消光采用新颖的模块设计，基于补丁的切割和缝合，解决不同补丁之间的上下文相关性和一致性。与基于香草补丁的独立计算相比，我们使用给定的trimap新提出的指导Cross Patch Contextual模块CPC显式地对cross patch建模上下文的相关性。大量的实验证明了该方法的有效性及其高分辨率输入的必要性。我们的HDMatt方法还在Adobe Image Matting和AlphaMatting最新的性能水平设置在基准上，在更真实的高分辨率图像上产生令人印象深刻的视觉效果。

Adaptive Text Recognition through Visual Matching Authors Chuhan Zhang, Ankush Gupta, Andrew Zisserman在这项工作中，我们的目标是解决文档中文本识别的泛化和灵活性问题。我们引入了一个新模型，利用语言中字符的重复性，将视觉表达学习与语言建模阶段分开。通过这样做，我们将文本识别转化为形状匹配问题，从而实现外观的通用性和类的灵活性。我们评估了不同字母的合成数据集和实际数据集中的新模型，并表明该模型可以应对传统系统结构无法解决的挑战，而无需昂贵的重新培训，包括i可以在没有新示例的情况下推广到看不见的字体ii灵活使用。只需更改提供的示例即可更改类数，并且iii它可以通过提供新的字形集来推广到未经训练的新语言和新字符。对于所有这些情况，我们都显示了最新模型的重大改进。

GIA-Net: Global Information Aware Network for Low-light Imaging Authors Zibo Meng, Runsheng Xu, Chiu Man Ho由于低信噪比，在低光条件下获得可感知图像是非常具有挑战性的。最近，U Nets在低光成像中表现出令人鼓舞的结果。但由于缺乏全球色彩信息，香草U Nets产生的图像有伪影，如颜色不一致。在本文中，我们提出了具有全局信息意识的问题GIA模块，该模块能够提取全局信息并将其集成到网络中，以改善弱光成像的性能。 GIA插入普通U网中可以忽略的额外学习参数或计算成本。此外，GIA该网络是在现实世界的大规模低光成像数据集估低光成像数据集的。实验结果表明，提出的GIA Net优于现有方法的四个指标(包括可测感知相似性的深度指标)。通过利用全局信息验证建议，进行了广泛的消融研究GIA Net低光成像的有效性。

Collaborative Attention Mechanism for Multi-View Action Recognition Authors Yue Bai, Zhiqiang Tao, Lichen Wang, Sheng Li, Yu Yin, Yun Fu多视图动作识别MVAR利用不同视图的互补时间信息来增强学习过程。注意是建模时间数据的有效机制。但是，大现有的MVAR该方法仅利用注意力提取特定的视图模式。他们忽略了相互支持信息关注空间的潜力。为了充分利用多视图合作的优势，我们提出了合作注意机制CAM。它检测了多视图输入之间的注意力差异，并自适应地集成了互补的帧级信息，使彼此受益。具体来说，我们通过长期短期记忆LSTM扩展为互助RNN MAR使用递归神经网络RNN。 CAM使用特定的视图模式来引导另一种视图，并释放可能难以探索的潜在信息。在三个动作数据集中进行的大量实验表明，我们CAM在每个单视图下均能获得更好的结果，并提高了多视图性能。

Zero-shot Synthesis with Group-Supervised Learning Authors Yunhao Ge, Sami Abu El Haija, Gan Xin, Laurent Itti灵长类动物的视觉认知能力优于人工神经网络，因为它可以想象具有不同属性（包括姿势、位置、颜色、纹理等）的视觉对象（甚至是新引入的对象）。作为一个新的学习框架，我们提出了一系列以示例组形式表达的目标函数，我们称之为小组监督学习GSL”。 GSL将输入分解为可交换组件的分解表示，这些组件可以重组合成新样本，并通过实例组中的相似性挖掘进行训练。比如红船蓝车的图像可以分解重组，合成红车的新颖图像。我们描述了GSL允许的通用数据集类别。我们提出了一个基于自动编码器的实施计划，即使用我们的学习框架训练小组监督零点击合成网络GZS Net，即使在训练过程中没有这样的例子，也能生产出高质量的红色汽车。除了新的开源数据集，我们还在现有的基准上测试我们的模型和学习框架。我们的定性和定量证明了使用GSL训练的GZS Net优于最新方法

Beyond Weak Perspective for Monocular 3D Human Pose Estimation Authors Imry Kissos, Lior Fritz, Matan Goldman, Omer Meir, Eduard Oks, Mark Kliger我们考虑了蒙皮多人的线性SMPL模型单眼视频对3D预测关节位置和方向的任务。我们首先使用现成的姿态估计算法来推断2D关节的位置。我们使用SPIN对身体姿势、形状和相机参数进行初步预测，并根据深度回归神经网络进行估计。然后，我们坚持使用它SMPLify该算法接收这些初始参数并优化它们SMPL模型推断出的3D关节将适合2D关节的位置。该算法涉及将3D关节投影到2D图像平面步骤。常规方法是遵循弱透视假设，使用临时焦距。通过对Wild 3DPW数据集中的3D在姿势实验中，我们表明的相机中心和近似焦距的全透视投影可以提供令人满意的结果。我们的算法是3DPW在关节定位精度方面，挑战赛赢得了入围作品。

Improving Inversion and Generation Diversity in StyleGAN using a Gaussianized Latent Space Authors Jonas Wulff, Antonio Torralba现代的生成对抗网络能够根据生活在低维学习潜在空间中的潜在矢量创建人造的逼真图像。已经表明，可以将各种各样的图像投影到该空间中，包括在训练生成器的领域之外的图像。但是，尽管在这种情况下，生成器会再现图像的像素和纹理，但重构的潜矢量是不稳定的，并且较小的扰动会导致明显的图像失真。在这项工作中，我们建议对潜在空间中的数据分布进行显式建模。我们表明，在简单的非线性操作下，数据分布可以建模为高斯模型，因此可以使用足够的统计量来表示。这产生了一个简单的高斯先验，我们用它来规范图像在潜空间中的投影。生成的投影位于潜在空间的更平滑且性能更好的区域中，如对真实图像和生成图像使用插值性能所示。此外，潜在空间分布的高斯模型使我们能够研究发生器输出中伪像的起源，并提供了一种在保持所生成图像多样性的同时减少这些伪像的方法。

A Study of Human Gaze Behavior During Visual Crowd Counting Authors Raji Annadi, Yupei Chen, Viresh Ranjan, Dimitris Samaras, Gregory Zelinsky, Minh Hoai在本文中，我们描述了关于人类如何在视觉人群计数过程中分配注意力的研究。使用眼动仪，我们收集了负责计算人群图像中人数的人类参与者的凝视行为。分析了十个人参与者在三十个人群图像上收集的凝视行为，我们观察到了一些常见的视觉计数方法。对于少量人群的图像，方法是对人群中的所有人员或人群进行枚举，这解释了不同人类参与者的注视密度图之间的高度相似性。对于大量人群的图像，我们的参与者倾向于将注意力集中在图像的某一部分，计算该部分的人数，然后推断到其他部分。在计数准确性方面，与当前最先进的计算机算法相比，我们的人类参与者不擅长计数任务。有趣的是，存在一种趋势，即所有人群图像中的人数都被低估了。注视行为数据和图像可以从以下位置下载

Fast Implementation of 4-bit Convolutional Neural Networks for Mobile Devices Authors Anton Trusov, Elena Limonova, Dmitry Slugin, Dmitry Nikolaev, Vladimir V. Arlazarov量化的低精度神经网络非常受欢迎，因为它们需要较少的计算资源来进行推理并可以提供高性能，这对于实时和嵌入式识别系统至关重要。然而，它们的优势对于FPGA和ASIC器件是显而易见的，而通用处理器体系结构并不总是能够高效地执行低位整数计算。用于移动中央处理器的最常用的低精度神经网络模型是8位量化网络。然而，在许多情况下，可以使用较少的比特进行加权和激活，唯一的问题是有效实现的困难。我们为量化神经网络引入4位矩阵乘法的有效实现，并在移动ARM处理器上执行时间测量。与标准浮点乘法相比，它的速度提高了2.9倍，比8位量化速度快了1.5倍。我们还演示了用于MIDV 500数据集上OCR识别的4位量化神经网络。 4位量化可提供95.0精度和48个总体推理加速，而8位量化网络可提供95.4精度和39个加速。结果表明，4位量化非常适合移动设备，产生了足够好的精度和较低的推理时间。

Unsupervised Domain Adaptation by Uncertain Feature Alignment Authors Tobias Ringwald, Rainer Stiefelhagen无监督域适应UDA处理模型从具有标签数据的给定源域到未标签目标域的适应。在本文中，我们利用模型的固有预测不确定性来完成域自适应任务。不确定性通过蒙特卡洛（Monte Carlo）落差测量，并用于我们提出的基于不确定度的滤波和特征对齐UFAL，该方法结合了不确定性特征损失UFL函数和基于不确定度的滤波UBF方法，用于欧氏空间中特征的对齐。我们的方法超越了最近提出的架构，并在多个具有挑战性的数据集上达到了最先进的结果。代码可在项目网站上找到。

EfficientSeg: An Efficient Semantic Segmentation Network Authors Vahit Bugra Yesilkaynak, Yusuf H. Sahin, Gozde Unal没有预先训练的权重和很少的数据的深度神经网络训练表明需要更多的训练迭代。还众所周知，对于语义分割任务，较深层的模型比浅层模型更成功。因此，我们介绍了EfficientSeg体系结构，它是U Net的一种可扩展的可扩展版本，尽管它的深度，也可以有效地进行训练。我们评估了Minicity数据集上的EfficientSeg体系结构，并使用相同的参数计数51.5 mIoU优于U Net基线得分40 mIoU。我们最成功的模型获得了58.1 mIoU的得分，并在ECCV 2020 VIPriors挑战的语义细分中排名第四。

Scene-Graph Augmented Data-Driven Risk Assessment of Autonomous Vehicle Decisions Authors Shih Yuan Yu, Arnav V. Malawade, Deepan Muthirayan, Pramod P. Khargonekar, Mohammad A. Al Faruque尽管自动驾驶系统ADS取得了令人瞩目的进步，但在复杂的路况下导航仍然是一个具有挑战性的问题。有大量证据表明，评估各种决策的主观风险水平可以提高正常和复杂驾驶情况下的ADS安全性。但是，现有的基于深度学习的方法通常无法对交通参与者之间的关系进行建模，并且在面对复杂的现实世界场景时可能会遭受损失。此外，这些方法缺乏可传递性和可解释性。为了解决这些限制，我们提出了一种新颖的数据驱动方法，该方法使用场景图作为中间表示。我们的方法包括一个多关系图卷积网络，一个长期短期记忆网络以及用于对驾驶行为的主观风险进行建模的注意层。为了训练我们的模型，我们将该任务表述为有监督的场景分类问题。我们考虑一个典型的用例来证明我们的模型的能力变化。我们证明，在大型96.4 vs. 91.2和小型91.8 vs. 71.2合成数据集上，我们的方法均比现有方法具有更高的分类准确性，也说明了我们的方法甚至可以从较小的数据集中有效学习。我们还表明，在真实数据集上进行测试时，在合成数据集上训练的模型达到87.8的平均准确度，而在同一合成数据集上训练的最新模型达到70.3的准确度，表明我们的方法可以有效地传递知识。最后，我们证明了使用空间和时间注意层分别将模型的性能提高了2.7和0.7，并增加了其可解释性。

Adaptive Label Smoothing Authors Ujwal Krothapalli, A. Lynn Abbott本文涉及运用客观性措施来提高卷积神经网络CNN的标定性能。客观性是在给定图像中存在来自任何类别的物体的可能性的度量。 CNN已被证明是非常好的分类器，并且通常可以很好地定位对象，但是，通常用于训练分类CNN的损失函数不会惩罚无法定位对象的问题，也不会考虑给定图像中对象的相对大小。我们提出了一种新颖的对象定位方法，该方法结合了训练期间的客观性和标签平滑化的思想。与以前的方法不同，我们根据图像内的相对对象大小计算自适应的平滑因子。我们使用ImageNet和OpenImages给出了广泛的结果，以证明与使用硬目标训练的CNN相比，使用自适应标签平滑训练的CNN在预测中不太可能过于自信。我们还使用类激活图来显示定性结果，以说明这些改进。

Completely Self-Supervised Crowd Counting via Distribution Matching Authors Deepak Babu Sam, Abhinav Agarwalla, Jimmy Joseph, Vishwanath A. Sindagi, R. Venkatesh Babu, Vishal M. Patel密集人群计数是一项艰巨的任务，需要数百万个头部注释来训练模型。尽管现有的自我监督方法可以学习良好的表示，但它们需要一些标记数据才能将这些特征映射到密度估计的最终任务。我们通过提出的完全自我监督的范例来缓解此问题，该范例甚至不需要单个标记的图像。除了大量未标记的人群图像之外，训练所需的唯一输入是给定数据集的人群计数的近似上限。我们的方法基于自然人群遵循幂定律分布的想法，可以利用该定律分布产生误差信号进行反向传播。首先通过自我监督对密度回归器进行预训练，然后通过优化两者之间的Sinkhorn距离使预测的分布与先验匹配。实验表明，这可以有效地学习人群特征并提供显着的计数性能。此外，我们还在较少的数据设置中建立了我们方法的优势。我们的方法的代码和模型可在以下位置获得

Synbols: Probing Learning Algorithms with Synthetic Datasets Authors Alexandre Lacoste, Pau Rodr guez, Fr d ric Branchaud Charron, Parmida Atighehchian, Massimo Caccia, Issam Laradji, Alexandre Drouin, Matt Craddock, Laurent Charlin, David V zquez通过引入基准数据集推动了现有算法的局限性，推动了机器学习领域的进步。因此，使数据集的设计能够测试学习算法的特定特性和失败模式是一个引起人们高度关注的问题，因为它直接影响了该领域的创新。从这个意义上讲，我们引入了Synbols Synthetic Symbols工具，该工具可快速生成具有在低分辨率图像中呈现的大量潜在特征的新数据集。 Synbols利用了Unicode标准中可用的大量符号和开放字体社区提供的广泛的艺术字体。我们工具的高级界面提供了一种语言，可用于快速生成潜在特征上的新分布，包括各种类型的纹理和遮挡。为了展示Synbols的多功能性，我们使用它来剖析标准学习算法在各种学习设置中的局限性和缺陷，包括监督学习，主动学习，分布外泛化，无监督表示学习和对象计数。

Adaptive Convolution Kernel for Artificial Neural Networks Authors F. Boray Tek, lker am, Deniz Karl 许多深度神经网络是通过使用固定大小和单个大小的堆叠卷积层（通常是3乘3内核）构建的。本文介绍了一种用于训练卷积核大小以在单个层中提供大小可变的核的方法。该方法利用了可微分的，因此反向传播可训练的高斯包络，该包络可以在基本网格中增长或收缩。我们的实验在简单的两层网络，更深的残差网络和U Net架构中将建议的自适应层与普通卷积层进行了比较。流行的图像分类数据集（例如MNIST，MNIST CLUTTERED，CIFAR 10，Fashion和Faces in the Wild）中的结果表明，自适应内核可以对普通卷积内核提供统计学上显着的改进。 Oxford Pets数据集中的分割实验表明，用单个7 x 7自适应层替换U形网络中的单个普通卷积层可以提高其学习性能和泛化能力。

P-DIFF: Learning Classifier with Noisy Labels based on Probability Difference Distributions Authors Wei Hu, QiHao Zhao, Yangyu Huang, Fan Zhang学习带有噪声标签的深度神经网络DNN分类器是一项具有挑战性的任务，因为DNN由于其强大的功能而很容易过度适合这些噪声标签。在本文中，我们提出了一种非常简单但有效的训练范式，称为P DIFF，它可以训练DNN分类器，但明显减轻了嘈杂标签的不利影响。我们提出的概率差异分布隐式反映了训练样本干净的概率，然后在训练过程中利用该概率对相应样本进行加权。即使没有事先对训练样本的噪声率的了解，P DIFF也可以实现良好的性能。在基准数据集上进行的实验还表明，P DIFF优于现有的样本选择方法。

4Seasons: A Cross-Season Dataset for Multi-Weather SLAM in Autonomous Driving Authors Patrick Wenzel, Rui Wang, Nan Yang, Qing Cheng, Qadeer Khan, Lukas von Stumberg, Niclas Zeller, Daniel Cremers我们提出了一个新颖的数据集，涵盖了自动驾驶的季节性和挑战性感知条件。除其他功能外，它还可以研究视觉里程表，全局位置识别以及基于地图的重新定位跟踪。数据是在不同的场景下以及在各种天气条件和光照下（包括白天和黑夜）收集的。这导致了在九种不同环境中超过350公里的录音，这些环境包括城市中的多层停车场，包括通往乡村和高速公路的隧道。通过提供直接立体视觉惯性里程计与RTK GNSS的融合，我们可以提供高达厘米级精度的全局一致参考姿势。完整的数据集位于

PRAFlow_RVC: Pyramid Recurrent All-Pairs Field Transforms for Optical Flow Estimation in Robust Vision Challenge 2020 Authors Zhexiong Wan, Yuxin Mao, Yuchao Dai光流估计是一项重要的计算机视觉任务，旨在估计两个帧之间的密集对应关系。 RAFT循环所有对场变换当前代表了光流估计中的最新技术。它具有出色的泛化能力，并且在多个基准测试中均获得了出色的结果。为了进一步提高鲁棒性并实现准确的光流估计，我们提出了基于金字塔网络结构的PRAFlow金字塔循环所有对流。由于计算限制，我们提出的网络结构仅使用两个金字塔层。在每一层，RAFT单元用于估计当前分辨率下的光流。我们的模型在几个模拟和真实图像数据集上进行了训练，使用相同的模型和参数提交给多个排行榜，并在ECCV 2020研讨会“稳健视觉挑战”的光流任务中获得第二名。

DeepWriteSYN: On-Line Handwriting Synthesis via Deep Short-Term Representations Authors Ruben Tolosana, Paula Delgado Santos, Andres Perez Uribe, Ruben Vera Rodriguez, Julian Fierrez, Aythami Morales这项研究提出了DeepWriteSYN，这是一种通过深度短期表示的在线手写合成方法。它包括两个模块，一个是可选的且可互换的时间分段，它将笔迹分为由单个或多个串联笔画组成的短时间段，以及这些短时笔迹段的在线合成，这是基于序列到变分自动编码器的VAE。所提出的方法的主要优点在于，合成可以在较短的时间段内进行，该时间段可以从一个字符分数到完整的字符，并且可以在可配置的手写数据集上训练VAE。这两个属性为我们的合成器提供了很大的灵活性，例如，如我们的实验所示，DeepWriteSYN可以生成与给定人口或给定主题内的自然变化相对应的给定手写结构的真实笔迹变化。这两种情况分别是通过实验分别针对单个数字和手写签名而开发的，在两种情况下均取得了显着效果。

Deep intrinsic decomposition trained on surreal scenes yet with realistic light effects Authors Hassan Sial, Ramon Baldrich, Maria Vanrell由于地面实况数据集的弱点（太小或存在非现实问题），固有图像的估计仍然是一项艰巨的任务。另一方面，端到端深度学习架构开始取得有趣的结果，我们认为，如果不忽略重要的物理提示，则可以改善这些结果。在这项工作中，我们提出了一个双重框架：一种灵活的图像生成方法，可以克服一些经典的数据集问题，例如更大的尺寸以及相干的照明外观；以及一种灵活的体系结构，可以通过固有损耗来绑定物理属性。我们的建议是通用的，具有较低的计算时间，并且可以达到最新的结果。

AIM 2020 Challenge on Video Extreme Super-Resolution: Methods and Results Authors Dario Fuoli, Zhiwu Huang, Shuhang Gu, Radu Timofte, Arnau Raventos, Aryan Esfandiari, Salah Karout, Xuan Xu, Xin Li, Xin Xiong, Jinge Wang, Pablo Navarrete Michelini, Wenhao Zhang, Dongyang Zhang, Hanwei Zhu, Dan Xia, Haoyu Chen, Jinjin Gu, Zhi Zhang, Tongtong Zhao, Shanshan Zhao, Kazutoshi Akita, Norimichi Ukita, Hrishikesh P S, Densen Puthussery, Jiji C V本文回顾了与ECCV 2020上的AIM 2020研讨会相关的视频极端超分辨率挑战。学习到的视频超分辨率VSR的常见缩放因子不会超出因子4。在该地区，尤其是在HR视频中，丢失的信息可以得到很好的恢复，高频内容主要由纹理细节组成。这项挑战中的任务是将视频的极端因素提高到16，这会导致更严重的性能下降，进而影响视频的结构完整性。低分辨率LR域中的单个像素对应于高分辨率HR域中的256个像素。由于这种大量的信息丢失，很难准确地恢复丢失的信息。设置轨道1是为了衡量这项艰巨任务的最新技术，其中通过PSNR和SSIM来测量对地面真实性的保真度。通过产生合理的高频成分，可以在保真度方面取得较高的质量。因此，磁道2的目的是生成视觉效果令人愉悦的结果，并根据用户的感知对结果进行排名，并通过用户研究进行评估。与单图像超分辨率SISR相比，VSR可以从时域中受益于附加信息。但是，这也带来了额外的要求，因为生成的帧需要在时间上保持一致。

Unsupervised learning for vascular heterogeneity assessment of glioblastoma based on magnetic resonance imaging: The Hemodynamic Tissue Signature Authors Javier Juan Albarrac n本文主要研究血流动力学组织签名HTS方法的研究和发展，该方法是一种无监督的机器学习方法，通过灌注MRI分析描述胶质母细胞瘤的血管异质性。 HTS基于栖息地的概念。栖息地定义为病变的子区域，具有描述特定生理行为的特定MRI轮廓。 HTS方法将胶质母细胞瘤内的四个生境描述为高血管生成肿瘤HAT生境，作为增强型肿瘤最灌注的区域，低血管生成肿瘤LAT生境，作为血管生成特征较低的增强型肿瘤区域，可能是浸润性周围性水肿IPE栖息地，作为与肿瘤相邻的非增强区域，具有较高的灌注指数和血管周围性水肿VPE栖息地，是病变部位的剩余水肿，具有最低的灌注曲线。

Accurate and Lightweight Image Super-Resolution with Model-Guided Deep Unfolding Network Authors Qian Ning, Weisheng Dong, Guangming Shi, Leida Li, Xin Li基于深度神经网络的DNN方法在单图像超分辨率SISR中取得了巨大的成功。但是，现有的最先进的SISR技术被设计成缺乏透明性和可解释性的黑匣子。此外，由于黑匣子设计，视觉质量的提高通常是以增加模型复杂性为代价的。在本文中，我们提出并倡导一种针对SISR的可解释方法，即模型引导的深度展开网络MoG DUN。为了突破相干性障碍，我们选择使用一个建立良好的图像，然后命名为非局部自回归模型，并用其指导我们的DNN设计。通过将深度降噪和非局部正则化作为可训练的模块集成在深度学习框架中，我们可以将基于模型的SISR的迭代过程展开为构建模块的多阶段级联，该模块具有三个相互关联的模块去噪，非局部AR和重建。这三个模块的设计都利用了最新的优势，包括密集的跳过连接以及快速的非本地实现。除了可解释性之外，MoG DUN还可以精确地产生更少的混叠伪像，在减少模型参数的情况下计算效率高，并且能够处理多种退化。通过在几个流行的数据集和各种降级方案上进行的广泛实验，证明了所提出的MoG DUN方法相对于现有技术的图像SR方法（包括RCAN，SRMDNF和SRFBN）的优越性。

Prior Knowledge about Attributes: Learning a More Effective Potential Space for Zero-Shot Recognition Authors Chunlai Chai, Yukuan Lou, Shijin Zhang零镜头学习ZSL旨在通过学习可见的类别和已知属性来准确识别看不见的类别，但是先前的研究忽略了属性的相关性，这导致分类结果混乱。为了解决这个问题，我们建立了一个属性相关势空间生成ACPSG模型，该模型使用图卷积网络和属性相关来生成更具区分性的势空间。结合潜在的辨别空间和用户定义的属性空间，我们可以更好地对看不见的类进行分类。无论是传统的ZSL还是广义的ZSL，我们的方法都优于一些基准数据集上现有的现有技术方法。

Cascade Network for Self-Supervised Monocular Depth Estimation Authors Chunlai Chai, Yukuan Lou, Shijin Zhang通过使用单眼相机获得真实场景深度图是一种典型的计算机视觉问题，这是近年来受到广泛关注的问题。但是，训练此模型通常需要大量的人工标记样本。为了解决这个问题，一些研究人员使用自我监督的学习模型来克服此问题并减少对手动标记数据的依赖。但是，这些方法的准确性和可靠性尚未达到预期的标准。本文提出了一种新的基于级联网络的自我监督学习方法。与以前的自我监督方法相比，我们的方法具有更高的准确性和可靠性，并通过实验证明了这一点。我们展示了一个级联神经网络，它将目标场景分为不同视距的部分，并分别训练它们以生成更好的深度图。我们的方法分为以下四个步骤。第一步，我们使用自我监督模型来粗略估计场景的深度。在第二步中，将第一步中生成的场景深度用作标记，以将场景划分为不同的深度部分。第三步是使用具有不同参数的模型来生成目标场景中不同深度部分的深度图，第四步是融合深度图。通过消融研究，我们证明了每个组件的有效性，并在KITTI基准测试中显示了高质量的最新技术成果。

Residual Learning for Effective joint Demosaicing-Denoising Authors Yu Guo, Qiyu Jin, Gabriele Facciolo, Tieyong Zeng, Jean Michel Morel图像去马赛克和去噪是彩色图像生产流程中的关键步骤。经典处理序列包括先应用去噪，然后再去马赛克。但是，此顺序会导致过度平滑和令人不快的棋盘效果。而且，改变该顺序是非常困难的，因为一旦图像被去马赛克，噪声的统计特性将发生巨大变化。对于高度依赖统计假设的传统降噪模型而言，这是极具挑战性的。在本文中，我们试图解决这个棘手的问题。确实，这里我们通过首先应用去马赛克，然后使用自适应降噪来反转传统的CFA处理流程。为了获得无噪声图像的高质量去马赛克，我们将传统算法的优势与深度学习相结合。这是通过训练卷积神经网络CNN来学习传统算法的残差来实现的。为了提高图像去马赛克的性能，我们提出了一种改进的Inception体系结构。以受过训练的去马赛克技术为基本组件，我们将其应用于嘈杂的图像，并使用另一个CNN来学习包括去马赛克图像伪像在内的残留噪声，从而可以重建全彩色图像。实验结果清楚地表明，该方法无论在数量上还是在视觉质量上都优于几种先进的方法。

Learning from Multimodal and Multitemporal Earth Observation Data for Building Damage Mapping Authors Bruno Adriano, Naoto Yokoya, Junshi Xia, Hiroyuki Miura, Wen Liu, Masashi Matsuoka, Shunichi Koshimura地球观测技术（例如光学成像和合成孔径雷达SAR）提供了出色的手段来连续监测不断增长的城市环境。值得注意的是，在海啸和地震等大规模灾害中，响应时间非常紧迫，两种数据形式的图像可以相互补充，以准确传达灾害后的全部破坏情况。但是，由于天气和卫星覆盖等多种因素的影响，通常无法确定哪种数据形式将首先用于快速的灾难响应工作。因此，可以利用所有可访问的EO数据集的新颖方法对于灾难管理至关重要。在这项研究中，我们已经开发了用于建筑物损伤映射的全局多传感器和多时间数据集。我们将地震，海啸和台风这三种灾害类型的建筑破坏特征包括在内，并考虑了三种建筑破坏类别。全球数据集包含高分辨率的光学图像和在每次灾难之前和之后获取的高分辨率至中分辨率的多波段SAR数据。使用这个综合的数据集，我们分析了五个数据模态场景，分别用于损伤映射单模光学和SAR数据集，交叉模态灾难前光学和灾难后SAR数据集以及模式融合场景。我们基于深度卷积神经网络算法定义了用于受损建筑物的语义分割的损坏映射框架。我们将我们的方法与另一种先进的损伤模型基线模型进行比较。结果表明，我们的数据集与深度学习网络一起，为所有数据模式场景提供了可接受的预测。

RelativeNAS: Relative Neural Architecture Search via Slow-Fast Learning Authors Hao Tan, Ran Cheng, Shihua Huang, Cheng He, Changxiao Qiu, Fan Yang, Ping Luo尽管卷积神经网络CNN在计算机视觉中取得了巨大的成功，但是手动设计CNN既费时又容易出错。在旨在自动化高性能CNN设计的各种神经体系结构搜索NAS方法中，可区分的NAS和基于种群的NAS由于其独特的特性而引起了越来越多的关注。为了在克服两者的缺点的同时从优点中受益，这项工作提出了一种新颖的NAS方法RelativeNAS。作为高效搜索的关键，RelativeNAS以成对的方式在快速学习者（即具有相对较高准确性的网络和慢速学习者）之间执行联合学习。此外，由于RelativeNAS仅需要低保真度性能估计来区分快速学习者和慢学习者的每一对，因此节省了用于训练候选架构的某些计算成本。提议的RelativeNAS带来了几个独特的优势：1它在imageNet上实现了最先进的性能，错误率最高的为24.88，即分别比DARTS和AmoebaNet B的性能高出1.82和1.122。仅用一个1080Ti GPU就花费了九个小时来获得发现的细胞，即比DARTS和AmoebaNet分别快3.75倍和7875x 3，它提供了在CIFAR 10上获得的发现的细胞可以直接转移到对象检测，语义分割和关键点检测上，从而在PASCAL VOC上产生73.1 mAP的竞争性结果，在Cityscapes上分别为78.7 mIoU和在MSCOCO上为68.5 AP。该代码位于

3D Object Detection and Tracking Based on Streaming Data Authors Xusen Guo, Jiangfeng Gu, Silu Guo, Zixiao Xu, Chengzhang Yang, Shanghua Liu, Long Cheng, Kai Huang由于深度学习的发展，用于3D对象检测的最新方法已取得了巨大的进步。但是，先前的研究大多基于单个帧，导致帧之间信息的利用有限。在本文中，我们尝试在流数据中利用时间信息，并探索基于3D流的对象检测和跟踪。为了实现这一目标，我们建立了一个基于关键帧的3D对象检测双向网络，然后通过基于时间信息的基于运动的插值算法将预测传播到非关键帧。与逐帧范例相比，我们的框架不仅显示出在对象检测方面的显着改进，而且在KITTI对象跟踪基准中被证明具有竞争优势，MOTA分别为76.68和MOTP为81.65。

One-bit Supervision for Image Classification Authors Hengtong Hu, Lingxi Xie, Zewei Du, Richang Hong, Qi Tian本文提出了一种位监督，这是一种在图像分类的情况下从不完整注释中学习的新设置。我们的设置不是在每个样本的准确标签上训练模型，而是要求模型使用每个样本的预测标签进行查询，并从答案中了解猜测是否正确。这提供了是或否的信息，更重要的是，对每个样本进行注释比从许多候选类中查找准确的标签容易得多。在一点点监督下训练模型有两个关键，它们可以提高猜测的准确性并利用错误的猜测。为此，我们提出了一种多阶段训练范例，该范例将否定标签抑制功能整合到了现成的半监督学习算法中。在三个流行的图像分类基准中，我们的方法声称在利用有限数量的注释中具有更高的效率。

GINet: Graph Interaction Network for Scene Parsing Authors Tianyi Wu, Yu Lu, Yu Zhu, Chuang Zhang, Ming Wu, Zhanyu Ma, Guodong Guo最近，使用超出局部卷积的图像区域进行上下文推理已显示出场景解析的巨大潜力。在这项工作中，我们探索如何通过建议图交互单元GI单元和语义上下文损失SC损失来整合语言知识，以在图像区域上促进上下文推理。 GI单元能够在高级语义上增强卷积网络的特征表示，并自适应地学习每个样本的语义一致性。具体而言，首先将基于数据集的语言知识合并到GI单元中，以促进视觉图上的上下文推理，然后将视觉图的演变表示形式映射到每个局部表示形式，以增强区分场景分析的能力。通过SC损失进一步改善了GI单元，以增强基于示例的语义图的语义表示。我们进行了完整的消融研究，以证明我们方法中每个组件的有效性。特别是，拟议的GINet在包括Pascal Context和COCO Stuff在内的流行基准上均优于最新方法。

SCOUTER: Slot Attention-based Classifier for Explainable Image Recognition Authors Liangzhi Li, Bowen Wang, Manisha Verma, Yuta Nakashima, Ryo Kawasaki, Hajime Nagahara可解释的人工智能正在引起关注。然而，大多数现有方法是基于梯度或中间特征的，它们不直接参与分类器的决策过程。在本文中，我们提出了一种基于时隙关注的轻量级分类器，称为SCOUTER，可实现透明而准确的分类。与其他基于注意的方法的两个主要区别包括：SCOUTER的解释涉及每个类别的最终置信度，提供了更直观的解释； b所有类别都有其对应的肯定或否定解释，这说明了图像为何属于某个类别或为什么图片不属于某个类别。我们为SCOUTER设计了一种新的损失，该损失控制模型的行为以在正面和负面解释以及解释区域的大小之间切换。实验结果表明，SCOUTER可以在对大型数据集保持良好准确性的同时提供更好的视觉解释。

Accelerating COVID-19 Differential Diagnosis with Explainable Ultrasound Image Analysis Authors Jannis Born, Nina Wiedemann, Gabriel Br ndle, Charlotte Buhre, Bastian Rieck, Karsten Borgwardt控制COVID 19大流行很大程度上取决于快速，安全和高度可用的诊断工具的存在。与CT或X射线相比，超声具有许多实际优势，可以用作全球通用的一线检查技术。我们为COVID 19提供了最大的可公开获得的美国肺部超声数据集，其中包括来自三类COVID 19，细菌性肺炎和由医学专家策划和批准的健康对照的106个视频。在此数据集上，我们进行了深度学习方法对COVID 19的鉴别诊断的价值的深入研究。我们提出了一种基于帧的卷积神经网络，可以正确地将COVID 19 US视频分类，灵敏度为0.98 0.04，特异性为0.91。基于08框架的灵敏度为0.93 0.05，特异性为0.87 0.07。我们进一步将类别激活图用于肺部生物标记物的时空定位，随后我们与医学专家进行了蒙眼研究，从而在环场景中对人类进行了验证。为了实现可扩展性和鲁棒性，我们对消融研究进行了比较，比较了基于移动友好的，基于帧和视频的架构，并通过无意和认知不确定性估计显示了最佳模型的可靠性。我们希望为社区努力铺平道路，以提供一种易于使用，高效且可解释的筛查方法，并且我们已开始着手对该方法的临床验证。数据和代码是公开可用的。

Multi-channel MRI Embedding: An EffectiveStrategy for Enhancement of Human Brain WholeTumor Segmentation Authors Apurva Pandya, Catherine Samuel, Nisargkumar Patel, Vaibhavkumar Patel, Thangarajah Akilan医学图像处理中最重要的任务之一是大脑的整个肿瘤分割。它有助于更快地进行临床评估和早期发现脑瘤，这对于挽救患者的生命至关重要。因为，如果在早期发现脑瘤，它们通常可能是恶性或良性的。脑瘤是大脑中异常细胞的集合或大量。人类的头颅骨非常严密地包围着大脑，在该受限区域内的任何生长都会引起严重的健康问题。脑肿瘤的检测需要仔细而复杂的分析以进行手术计划和治疗。大多数医生采用磁共振成像MRI诊断此类肿瘤。已知使用MRI手动诊断肿瘤大约很耗时，每个样本最多需要18个小时。因此，肿瘤的自动分割已成为该问题的最佳解决方案。研究表明，该技术可提供更好的准确性，并且比手动分析更快，从而使患者在正确的时间接受治疗。我们的研究引入了一种称为多通道MRI嵌入的有效策略，以改善基于深度学习的肿瘤分割的结果。使用U Net编码器解码器EnDec模型对Brats 2019数据集进行的实验分析显示了显着改进。嵌入策略以2的优势超越了现有技术的水平，而没有任何时序开销。

Cosine meets Softmax: A tough-to-beat baseline for visual grounding Authors Nivedita Rufus, Unni Krishnan R Nair, K. Madhava Krishna, Vineet Gandhi在本文中，我们为自动驾驶提供了一个简单的可视化基础基线，其性能优于现有方法，同时保留了最少的设计选择。我们的框架通过嵌入代表给句短语的文本，使多个图像ROI特征之间的余弦距离上的交叉熵损失最小。我们使用经过训练的网络来获取初始嵌入，并在文本嵌入之上学习转换层。我们对Talk2Car数据集进行实验，并达到68.7的AP50精度，比之前的最新水平提高了8.6。我们的研究建议，通过在更简单的替代方案中展现希望，重新考虑采用成熟的注意力机制或多阶段推理或复杂的度量学习损失功能的更多方法。

Pairwise-GAN: Pose-based View Synthesis through Pair-Wise Training Authors Xuyang Shen, Jo Plested, Yue Yao, Tom Gedeon三维人脸重建是计算机视觉中的流行应用之一。但是，即使是最先进的模型，也仍然需要正面作为输入，这限制了其在野外的使用场景。在面部识别中也发生类似的难题。已经出现了旨在从单侧姿势面部图像恢复正面的新研究。该领域的最新技术是基于CycleGAN的人脸转换生成对抗网络。这启发了我们的研究，该研究探索了正面面部合成中两个来自像素变换的模型的性能，Pix2Pix和CycleGAN。我们在Pix2Pix上对五个不同的损失函数进行了实验，以改善其性能，然后在额叶面部合成中提出了新的Pairwise GAN网络。成对GAN使用两个并行的U Net作为生成器，使用PatchGAN作为鉴别器。还讨论了详细的超参数。基于人脸相似性比较的定量测量，我们的结果表明，与默认Pix2Pix模型相比，具有L1损失，梯度差损失和身份损失的Pix2Pix在平均相似性方面可提高2.72。此外，在平均相似性方面，Pairwise GAN的性能比CycleGAN好5.4，比Pix2Pix好9.1。

A Review of Visual Descriptors and Classification Techniques Used in Leaf Species Identification Authors K. K. Thyagharajan, I. Kiruba Raji植物对生命至关重要。植物科学的主要研究领域包括植物物种识别，使用高光谱图像进行杂草分类，监测植物健康和追踪叶片生长以及叶片信息的语义解释。植物学家通过区分叶片的形状，尖端，基部，叶缘和叶脉，叶片的质地以及复叶的小叶的排列，可以轻松地识别植物种类。由于对专家的需求和对生物多样性的需求不断增长，因此需要一种智能系统来识别和表征叶片，以便仔细检查特定物种，影响它们的疾病，叶片生长方式等。鉴于特征提取是计算机视觉中的一项关键技术，我们回顾了叶片特征提取中的几种图像处理方法。由于计算机无法理解图像，因此需要通过分别分析图像的形状，颜色，纹理和瞬间将它们转换为特征。看起来相同的图像可能会在几何和光度变化方面有所差异。在我们的研究中，我们还将讨论某些机器学习分类器，以分析不同种类的叶子。

Semantic Segmentation of Surface from Lidar Point Cloud Authors Aritra Mukherjee, Sourya Dipta Das, Jasorsi Ghosh, Ananda S. Chowdhury, Sanjoy Kumar Saha在用于机器人导航的SLAM同时定位和映射领域中，映射环境是一项重要的任务。在这方面，激光雷达传感器可以实时生成点云格式的近乎准确的环境3D地图。尽管数据足以提取与SLAM相关的信息，但是在点云中处理数百万个点在计算上非常昂贵。提出的方法提出了一种快速算法，可用于从云中实时提取语义标记的表面片段，以用于直接导航或更高级别的上下文场景重构。首先，来自旋转的激光雷达的单次扫描用于在线生成二次采样的浊点网格。所生成的网格还用于基于估计的曲面段的那些点的曲面法线计算。提出了一种新颖的表示表面片段的描述符，并利用该描述符在分类器的帮助下确定了片段语义标签的表面类别。这些语义表面片段可以进一步用于场景中对象的几何重构，或者可以用于机器人的优化轨迹规划。将所提出的方法与点云分割方法的数量和最先进的语义分割方法进行比较，以在速度和准确性方面强调其有效性。

Calibration Venus: An Interactive Camera Calibration Method Based on Search Algorithm and Pose Decomposition Authors Wentai Lei, Mengdi Xu.Feifei Hou, Wensi Jiang在许多应用摄像机的场景中，例如机器人定位和无人驾驶，摄像机校准是最重要的前功之一。由于其可重复性和操作优势，基于平板的交互式校准方法在相机校准领域正变得越来越流行。然而，现有的方法基于主观经验从固定的预定义姿势数据集中选择建议，这会导致一定程度的单方面性。而且，它们没有向用户提供关于如何将板放置在指定姿势的明确说明。

Improving Deep Video Compression by Resolution-adaptive Flow Coding Authors Zhihao Hu 1 , Zhenghao Chen 2 , Dong Xu 2 , Guo Lu 3 , Wanli Ouyang 2 , Shuhang Gu 2 1 College of Software, Beihang University, China, 2 School of Electrical and Information Engineering, The University of Sydney, Australia, 3 School of Computer Science Technology, Beijing Institute of Technology, China 在基于学习的视频压缩方法中，通过开发新的运动矢量MV编码器来压缩像素级光流图是至关重要的问题。在这项工作中，我们提出了一个新的框架，称为“分辨率自适应流编码RaFC”，以有效地全局和局部压缩流图，其中，对于流的输入流图和输出运动特征，我们使用多分辨率表示而不是单分辨率表示。中压编码器。为了全局处理复杂或简单的运动模式，我们的帧级别方案RaFC帧会自动为每个视频帧确定最佳的流图分辨率。为了局部处理不同类型的运动模式，我们称为RaFC块的块级方案还可以为每个局部运动特征块选择最佳分辨率。此外，速率失真准则同时应用于RaFC帧和RaFC块，并选择最佳运动编码模式以进行有效的流编码。在四个基准数据集HEVC，VTL，UVG和MCL JCV上进行的全面实验清楚地证明了在组合RaFC帧和RaFC块进行视频压缩后，我们整个RaFC框架的有效性。

SSKD: Self-Supervised Knowledge Distillation for Cross Domain Adaptive Person Re-Identification Authors Junhui Yin, Jiayan Qiu, Siqing Zhang, Zhanyu Ma, Jun Guo由于源域和目标域之间的巨大差异，域自适应人员识别ID是一项具有挑战性的任务。为了减少域差异，现有方法主要尝试通过聚类算法为未标记的目标图像生成伪标记。但是，聚类方法往往会带来嘈杂的标签，并且未充分利用未标记图像中丰富的细颗粒细节。在本文中，我们试图通过从未标记图像的多个增强视图中捕获特征表示来提高标签的质量。为此，我们提出了一种自我监督的知识蒸馏SSKD技术，该技术包含两个模块，即身份学习和软标签学习。身份学习探索了未标记样本之间的关系，并通过聚类来预测它们的一个热门标记，从而为可信赖的高清晰图像提供准确的信息。软标签学习将标签视为分布，并以自我监督的方式使图像与若干相关类关联以训练对等网络，其中，缓慢发展的网络是获取软标签的核心，作为对可靠图像的温和约束。最终，两个模块可以通过相互增强并系统地集成来自未标记图像的标签信息来抵抗re ID的标签噪声。在几个适应性任务上的大量实验表明，所提出的方法在很大程度上优于现有方法。

Semi-supervised dictionary learning with graph regularization and active points Authors Khanh Hung Tran, Fred Maurice Ngole Mboula, Jean Luc Starck, Vincent Prost在最近的十年中，有监督的字典学习引起了人们的极大兴趣，并且在图像分类方面显示出显着的性能改进。但是，一般而言，有监督的学习需要在每个班级使用大量带标签的样本才能获得可接受的结果。为了处理每个班级只有几个标记样本的数据库，使用了半监督学习，该训练在训练阶段也利用了未标记样本。实际上，未标记的样本可以帮助规范学习模型，从而提高分类准确性。在本文中，我们一方面提出了一种基于两大支柱的半监督字典学习新方法，即使用局部线性嵌入将原始数据的流形结构保存到稀疏代码空间中，这可以看作稀疏代码的正则化。另一方面，我们在稀疏代码空间中训练了一个半监督分类器。我们表明，我们的方法比现有的半监督词典学习方法更好。

Interpretation of smartphone-captured radiographs utilizing a deep learning-based approach Authors Hieu X. Le, Phuong D. Nguyen, Thang H. Nguyen, Khanh N.Q. Le, Thanh T. Nguyen近来，能够自动有效地解释医学图像的计算机辅助诊断系统CAD已经成为近期学术关注的新兴主题。对于射线照相，已经开发了几种基于深度学习的系统或模型来研究多标签疾病识别任务。但是，他们都没有经过培训可以处理智能手机拍摄的胸部X光片。在这项研究中，我们提出了一个系统，该系统包括一系列在新发布的CheXphoto数据集上训练的基于深度学习的神经网络，以解决此问题。拟议的方法取得了令人鼓舞的结果，AUC为0.684，F1平均得分为0.699。据我们所知，这是第一篇发表的研究，表明能够处理智能手机拍摄的射线照片。

Synthesizing brain tumor images and annotations by combining progressive growing GAN and SPADE Authors Mehdi Foroozandeh, Anders Eklund训练分割网络需要大量带注释的数据集，但是手动注释既耗时又昂贵。我们在这里研究是否可以将噪声对图像GAN和图像对图像GAN的组合用于合成现实的脑肿瘤图像以及相应的肿瘤注释标签，从而大幅增加训练图像的数量。图像到图像GAN的噪声用于合成新的标签图像，而图像到图像GAN从标签图像生成相应的MR图像。我们的结果表明，这两种GAN可以合成看起来很逼真的标签图像和MR图像，并且添加合成图像可以提高分割效果，尽管效果很小。

PolSAR Image Classification Based on Robust Low-Rank Feature Extraction and Markov Random Field Authors Haixia Bi, Jing Yao, Zhiqiang Wei, Danfeng Hong, Jocelyn Chanussot极化合成孔径雷达PolSAR图像分类已在各种遥感应用中进行了深入研究。但是，今天它仍然是一项艰巨的任务。一个重要的障碍在于PolSAR成像过程中嵌入的斑点效应，这极大地降低了图像的质量，并使分类更加复杂。为此，我们提出了一种新颖的PolSAR图像分类方法，该方法通过低秩LR特征提取消除斑点噪声，并通过Markov随机场MRF增强平滑先验。具体而言，我们采用基于高斯的鲁棒LR矩阵分解混合技术，以同时提取判别特征并消除复杂噪声。然后，通过对所提取的特征应用带数据增强的卷积神经网络来获得分类图，其中隐含了局部一致性，从而减轻了标签不足的问题。最后，我们通过MRF细化分类图以增强上下文平滑度。我们对两个基准PolSAR数据集进行了实验。实验结果表明，该方法具有良好的分类性能和较好的空间一致性。

Coding Facial Expressions with Gabor Wavelets (IVC Special Issue) Authors Michael J. Lyons, Miyuki Kamachi, Jiro Gyoba我们提出了一种从数字图像中提取有关面部表情信息的方法。该方法使用多方位，多分辨率的Gabor过滤器集对面部表情图像进行编码，这些Gabor过滤器在地形上是有序的并且与面部大致对齐。人类观察者将从该代码得出的相似性空间与从图像的语义等级得出的相似性空间进行比较。有趣的是，图像衍生的相似性空间的低维度结构与情感的绕线模型共享组织特征，这暗示了面部表情的分类和维度表示之间的桥梁。我们的结果还表明，有可能在输入阶段基于地形链接的面部图像的多方向，多分辨率Gabor编码构造面部表情分类器。所提出的代码所表现出的明显的心理合理性在人机界面的设计中也可能有用。

Deep Detection for Face Manipulation Authors Disheng Feng, Xuequan Lu, Xufeng Lin由于近年来基于深度学习的面部操纵技术的巨大进步，区分真实面孔与视觉逼真的假面孔变得越来越具有挑战性。在本文中，我们介绍了一种深度学习方法来检测面部操作。它包括两个阶段的特征提取和二进制分类。为了更好地区分假面孔和真实面孔，我们在第一阶段采用了三重态损失函数。然后，我们设计一个简单的线性分类网络，以将学习到的对比特征与真实的假脸联系起来。在公共基准数据集上的实验结果证明了该方法的有效性，并表明在大多数情况下，该方法产生的性能要优于最新技术。

An approach to human iris recognition using quantitative analysis of image features and machine learning Authors Abolfazl Zargari Khuzani, Najmeh Mashhadi, Morteza Heidari, Donya Khaledyan虹膜模式是每个人独特的生物学特征，使其成为人类识别的宝贵而强大的工具。本文通过四个步骤提出了一种有效的虹膜识别框架。 1使用相对总变化结合粗虹膜定位进行虹膜分割，2使用形状密度，FFT，GLCM，GLDM和小波进行特征提取，3使用内核PCA进行特征约简，4使用多层神经网络进行分类以对2000个虹膜图像进行分类来自200名志愿者的CASIA Iris Interval数据集。结果证实了该方案可以提供可靠的预测，准确率高达99.64。

A Unified Approach to Kinship Verification Authors Eran Dahan, Yosi Keller在这项工作中，我们提出了一种基于深度学习的亲属验证方法，该方法使用统一的多任务学习方案共同学习所有亲属关系。这使我们可以更好地利用亲属验证所特有的小型训练集。我们引入一种新颖的方法来融合亲属图像的嵌入，以避免过度拟合，这是训练此类网络的常见问题。为训练集图像导出自适应采样方案，以解决亲属验证数据集中的固有不平衡。彻底的消融研究证明了我们方法的有效性，该方法在应用于野外家庭，FG2018和FG2020数据集时，通过实验证明其性能优于当代最新的亲属验证结果。

Exploring the Hierarchy in Relation Labels for Scene Graph Generation Authors Yi Zhou, Shuyang Sun, Chao Zhang, Yikang Li, Wanli Ouyang通过为每个关系分配单个标签，当前方法将关系检测公式化为分类问题。根据这种表述，谓词类别被视为完全不同的类别。但是，与对象标签（其中不同的类具有明确的边界）不同，谓词通常在语义上有重叠。例如，在垂直关系中坐着和站着有共同的含义，但是如何垂直放置这两个对象的细节不同。为了利用谓词类别的固有结构，我们建议首先构建语言层次结构，然后利用层次结构导引特征学习HGFL策略来学习粗粒度级别和细粒度级别的更好的区域特征。此外，我们还提出了层次指导模块HGM，以利用粗粒度级别来指导细粒度级别特征的学习。实验表明，所提出的简单而有效的方法可以在不同数据集中场景图生成任务的Recall 50方面大幅度提高多达33个相对增益，从而改善了几种现有的基线水平。

Map-merging Algorithms f

标签： tek线性传感器0216 tek线性传感器0243

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

【AI视野·今日CV 计算机视觉论文速览第185期】Tue, 15 Sep 2020

Daily Computer Vision Papers

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

【AI视野·今日CV 计算机视觉论文速览 第185期】Tue, 15 Sep 2020

Daily Computer Vision Papers

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

【AI视野·今日CV 计算机视觉论文速览第185期】Tue, 15 Sep 2020

历史搜索清除历史记录