【AI视野·今日CV 计算机视觉论文速览第240期】Thu, 4 Nov 2021-锐单电子商城

AI视野·今日CS.CV 计算机视觉论文速读 Thu, 4 Nov 2021 Totally 35 papers ??上期速览?更精彩请移动主页

在这里插入图片描述

Interesting:

??基于卫星图像重建地貌， (from Bundeswehr University Munich)

??基于梯度场的点云采样， (from 北大)

??***图像压缩用于机器感知， (from 蒙特利尔理工)

From: 1Polytechnique Montr ?eal, 2Mila, Quebec AI Institute 3ElementAI / Service Now, 4Independent Robotics, 5Google Brain Inc., 6Canada CIFAR AI Chair

Daily Computer Vision Papers

FAST: Searching for a Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel Representation Authors Zhe Chen, Wenhai Wang, Enze Xie, ZhiBo Yang, Tong Lu, Ping Luo我们提出了一个准确有效的场景文本检测框架，称为 FAST，即任何形状的文本检测器更快。与最近手工制作的网络架构和复杂的后处理导致推理速度低的先进文本检测器不同，FAST 有两种新设计。 1 我们通过为文本检测精心设计的网络搜索空间和奖励函数来搜索网络架构，从而获得比大多数用于图像分类搜索的网络更强大的功能。 2 我们只设计了一个极简主义表示， 1 通道输出模拟任何形状的文本，以及一个 GPU 并行后处理，有效组装文本行，可忽略时间费用。受益于这两种设计，FAST 在几个具有挑战性的数据集中，准确性和效率之间有很好的折衷。例如，FAST A0 在 Total Text 上以 152 FPS 产生 81.4 F 测量比以前最快的方法更准确、更快 1.5 个点和 70 FPS。

An Empirical Study of Training End-to-End Vision-and-Language Transformers Authors Zi Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Nanyun Violet Peng, Zicheng Liu, Michael Zeng视觉和语言 VL 预训练已经证明了各种各样的训练 VL 下游任务非常有效。尽管最近的工作表明它完全基于变压器 VL 该模型比以前的区域特征更有效，但它们在下游任务中的性能通常会显著降低。在本文中，我们提出 METER textbf Multimodal textbf End to end textbf Transform textbf ER，通过它，我们系统地研究了如何设计和训练一个完全基于转换器的转换器 VL 模型。具体来说，我们沿着多维视觉编码器(如 CLIP ViT、Swin 转换器）、文本编码器（如 RoBERTa、DeBERTa）、多模态集成（如合并注意力和共同注意力）、架构设计（如只有编码器和编码器解码器）分析模型设计和预训练目标，如蒙版图像建模。我们对各种 VL 任务进行了全面的实验，并提供了如何在训练高性能的同时保持快速推理速度 VL 转换器的见解。

Video Salient Object Detection via Contrastive Features and Attention Modules Authors Yi Wen Chen, Xiaojie Jin, Xiaohui Shen, Ming Hsuan Yang视频显示对象检测旨在在视频中找到最独特的视觉对象。现有的探索时间依赖性的方法通常有助于循环神经网络或光流。然而，这些方法需要很高的计算成本，很高的计算成本和积累不准确性。本文提出了一个具有注意力模块的网络，在没有高计算时间建模技术的情况下学习视频显示对象检测的对比特征。我们在视频帧中开发了一种非局部自注意力方案来捕获全局信息。结合低级和高级特征，采用共同注意公式。我们进一步应用比较学习来改善特征，即同一视频的前景区域被拉在一起，前景区域被推到潜在空间。帧内对比损失有助于分离前景和背景特征，帧间对比损失提高了时间一致性。

Subpixel Heatmap Regression for Facial Landmark Localization Authors Adrian Bulat, Enrique Sanchez, Georgios Tzimiropoulos基于热图回归的深度学习模型彻底改变了面部标志定位的任务。现有模型可以在大姿势、不均匀光和阴影、遮挡和自遮挡、低分辨率和模糊下稳定工作。然而，尽管它们被广泛使用，但与热图编码和解码过程相关的离散化仍然存在错误。在这项工作中，我们表明这些错误对面部对齐精度有着惊人的负面影响。为了缓解这一问题，我们提出了一种新的方法，利用底层连续分布的热图编码和解码过程。为了充分利用新提出的编码解码机制，我们还引入了强制热图在各种几何图像变换之间的一致性的基于连体训练。我们的方法在多个数据集中提供了显著的好处，并在面部标志定位中设置了新的和最先进的结果。

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts Authors Wenhui Wang, Hangbo Bao, Li Dong, Furu Wei我们提出了统一的视觉语言预训练模型 VLMo，联合学习双编码器和模块化 Transformer 集成编码器的网络。具体来说，我们介绍了它 Modality Experts MoME Transformer 混合，每个块都包含一个特定于模式的专家池和一个共享的自我关注层。由于 MoME 建模灵活性，预训练 VLMo 微调可作为视觉语言分类任务的集成编码器，也可作为高效图像文本检索的双编码器。此外，除了图像文本对外，我们还提出了一种阶段性的预训练策略，它有效地利用了大规模的只图像和只文本数据。实验结果表明，VLMo 在包括 VQA 和 NLVR2 各种视觉语言任务都取得了最先进的效果。

HS3: Learning with Proper Task Complexity in Hierarchically Supervised Semantic Segmentation Authors Shubhankar Borse, Hong Cai, Yizhe Zhang, Fatih Porikli

LTD: Low Temperature Distillation for Robust Adversarial Training Authors Erh Chung Chen, Che Rung Lee对抗性训练已被广泛用于增强神经网络模型对抗对抗性攻击的鲁棒性。然而，自然精度和鲁棒精度之间仍然存在显着差距。我们发现原因之一是常用标签，一种热向量，阻碍了图像识别的学习过程。在本文中，我们提出了一种名为 Low Temperature Distillation LTD 的方法，该方法基于知识蒸馏框架来生成所需的软标签。与之前的工作不同，LTD 在教师模型中使用相对较低的温度，并为教师模型和学生模型采用不同但固定的温度。此外，我们研究了在 LTD 中协同使用自然数据和对抗性数据的方法。

A Comparison of Deep Learning Models for the Prediction of Hand Hygiene Videos Authors Rashmi Bakshi本文根据世界卫生组织WHO指南对用于手部卫生手势分类和预测的各种深度学习模型（如Exception、Resnet 50和Inception V3）进行了比较。该数据集由 6 个视频格式的手部卫生运动组成，为 30 名参与者收集。该网络由带有图像净权重的预训练模型和模型的修改头组成。模型训练 25 个 epochs 后，分类报告中达到了 37 Xception model 、33 Inception V3 和 72 ResNet 50 的准确率。 ResNet 50 模型明显优于正确的类别预测。主要的速度限制可以通过使用快速处理 GPU 来克服。

Multi-Cue Adaptive Emotion Recognition Network Authors Willams Costa, David Mac do, Cleber Zanchettin, Lucas S. Figueiredo, Veronica Teichrieb通过面部和身体表情来表达和识别情绪是社交互动的重要组成部分。情绪识别是计算机视觉中的一项基本任务，因为它具有多种应用，并且主要用于实现人机之间更自然的交互。情绪识别的常用方法侧重于分析面部表情，需要自动定位图像中的面部。尽管这些方法可以在受控场景中正确分类情绪，但在处理不受约束的日常交互时，这些技术是有限的。我们提出了一种新的基于自适应多线索的情感识别深度学习方法，该方法从上下文和身体姿势中提取信息，人类通常在社交互动和交流中使用这些信息。

Discriminator Synthesis: On reusing the other half of Generative Adversarial Networks Authors Diego Porres生成对抗网络早已彻底改变了计算机视觉世界以及与之相关的艺术世界。努力充分利用和稳定训练，使 Generator 网络的输出具有尽可能高的保真度，但在训练完成后几乎没有使用 Discriminator。在这项工作中，我们建议使用后者并展示一种使用它从训练数据集中学到的特征来改变图像并从头开始生成图像的方法。

A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition Authors Ziwang Fu, Feng Liu, Hanyang Wang, Jiayin Qi, Xiangling Fu, Aimin Zhou, Zhibin Li基于音频视频的多模态情感识别由于其强大的性能而引起了很多关注。大多数现有方法都侧重于提出不同的跨模态融合策略。然而，这些策略在没有充分考虑模态信息之间的互补特性的情况下，在不同模态的特征中引入了冗余，并且这些方法不能保证在模态内和模态间交互过程中不丢失原始语义信息。在本文中，我们提出了一种基于自我注意和残差结构 CFN SR 的新型跨模态融合网络，用于多模态情感识别。首先，我们对音频和视频模态进行表征学习，分别通过高效的 ResNeXt 和 1D CNN 获得两种模态的语义特征。其次，我们分别将两种模态的特征输入到跨模态块中，通过自注意力机制和残差结构来保证信息的高效互补和完整性。最后，我们通过将获得的融合表示与原始表示拼接来获得情绪的输出。为了验证所提出方法的有效性，我们在 RAVDESS 数据集上进行了实验。实验结果表明，所提出的 CFN SR 达到了最先进的水平，并在 26.30M 参数下获得了 75.76 的准确率。

Beyond PRNU: Learning Robust Device-Specific Fingerprint for Source Camera Identification Authors Manisha, Chang Tsun Li, Xufeng Lin, Karunakar A. Kotegar源相机识别工具可帮助图像取证调查人员将相关图像与可疑相机相关联。基于对采集过程中留在图像中的细微痕迹的分析，已经开发了各种技术。由传感器缺陷引起的光响应非均匀性 PRNU 噪声模式已被证明是识别源相机的有效方法。现有文献表明，PRNU 是唯一特定于设备并能够识别确切源设备的指纹。但是，PRNU 容易受到相机设置、图像内容、图像处理操作和反取证攻击的影响。不知道反法医攻击或偶然图像处理的法医调查员有被误导的风险。两个 PRNU 匹配期间的空间同步要求也代表了 PRNU 的主要限制。近年来，基于深度学习的方法在识别源相机模型方面取得了成功。然而，通过这些数据驱动的方法识别同一型号的单个相机仍然不能令人满意。在本文中，我们揭示了数字图像中新的强大的数据驱动设备特定指纹的存在，该指纹能够识别同一型号的单个相机。发现新的设备指纹是位置无关的、随机的、全局可用的，解决了空间同步问题。与驻留在高频段的PRNU不同，新的设备指纹是从低频段和中频段提取的，解决了PRNU无法抗衡的脆弱性问题。

An Entropy-guided Reinforced Partial Convolutional Network for Zero-Shot Learning Authors Yun Li, Zhe Liu, Lina Yao, Xianzhi Wang, Julian McAuley, Xiaojun ChangZero Shot Learning ZSL 旨在通过语义相关性将学习到的知识从观察到的类转移到看不见的类中。一个有前途的策略是学习一个全局局部表示，该表示将全局信息与额外的位置（即输入的小部分区域）结合起来。然而，现有方法基于显式特征发现位置，而没有深入研究区域之间的固有属性和关系。在这项工作中，我们提出了一种新颖的熵引导增强部分卷积网络 ERPCNet，它基于语义相关性和视觉相关性逐步提取和聚合位置，而无需人工注释区域。 ERPCNet 使用增强的部分卷积和熵指导，它不仅可以动态发现全局协作位置，而且可以更快地收敛以进行策略梯度优化。我们进行了广泛的实验，通过在四个基准数据集上与 ZSL 和广义零镜头学习 GZSL 设置下的最先进方法进行比较来证明 ERPCNet 的性能。

Efficient 3D Deep LiDAR Odometry Authors Guangming Wang, Xinrui Wu, Shuyang Jiang, Zhe Liu, Hesheng Wang本文首次提出了一种用于 LiDAR 里程计的高效 3D 点云学习架构，名为 PWCLO Net。在该架构中，提出了 3D 点云的投影感知表示，将原始 3D 点云组织成有序的数据形式，以提高效率。用于 LiDAR 里程计任务的 Pyramid、Warping 和 Cost volume PWC 结构旨在以一种从粗到细的方法分层有效地估计和细化姿态。构建了投影感知注意力成本量以直接关联两个离散点云并获得嵌入的运动模式。然后，提出了一个可训练的嵌入掩码来权衡局部运动模式以回归整体姿势并过滤离群点。可训练的姿势扭曲细化模块与分层优化的嵌入掩码迭代使用，以使姿势估计对异常值更加稳健。整个架构端到端整体优化，实现代价量和掩码的自适应学习，所有涉及点云采样和分组的操作都通过投影感知3D特征学习方法加速。我们的 LiDAR 里程计架构的卓越性能和有效性在 KITTI 里程计数据集上得到了证明。

LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs Authors Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran Komatsuzaki在数亿个图像文本对上训练的多模态语言视觉模型，例如CLIP、DALL E 最近获得了激增，即使在目标图像数据上没有每个样本标签的情况下，也显示出执行零或很少镜头学习和转移的卓越能力。尽管有这种趋势，但迄今为止，还没有足够规模的公开可用数据集来从头开始训练此类模型。

Influence of image noise on crack detection performance of deep convolutional neural networks Authors Riccardo Chianese, Andy Nguyen, Vahidreza Gharehbaghi, Thiru Aravinthan, Mohammad Noori开发用于分析图像数据的深度学习技术是一个广阔的新兴领域。从图像数据中跟踪、识别、测量和分类感兴趣的特征的好处在节省成本、时间和提高安全性方面有着无穷无尽的应用。使用深度卷积神经网络对图像数据中的裂缝进行分类已经进行了很多研究，但是，很少有研究在使用噪声图像时研究网络性能的有效性。本文将解决这个问题，并致力于研究图像噪声对网络精度的影响。所使用的方法结合了基准图像数据集，该数据集故意用两种类型的噪声进行恶化，然后用图像增强预处理技术进行处理。这些图像，包括它们的原生图像，然后用于训练和验证两个不同的网络，以研究准确性和性能的差异。这项研究的结果表明，尽管应用了图像预处理，但噪声图像对网络准确分类图像的能力有中到高的影响。已开发出一种新指标，用于在计算时间和准确性方面找到最有效的分类方法。

FaceQvec: Vector Quality Assessment for Face Biometrics based on ISO Compliance Authors Javier Hernandez Ortega, Julian Fierrez, Luis F. Gomez, Aythami Morales, Jose Luis Gonzalez de Suso, Francisco Zamora Martinez在本文中，我们开发了 FaceQvec，这是一个软件组件，用于估计面部图像与 ISO IEC 19794 5 中考虑的每个点的一致性，这是一种质量标准，定义了面部图像的一般质量准则，使它们可以接受或不可接受使用在护照或身份证等官方文件中。这种质量评估工具有助于提高人脸识别的准确性，以及确定哪些因素影响给定人脸图像的质量，并采取措施消除或减少这些因素，例如，使用后处理技术或重新获取图像。 FaceQvec 包括与上述标准中考虑的不同点相关的 25 个单独测试的自动化，以及被认为与面部质量相关的图像的其他特征。我们首先包括在现实条件下捕获的开发数据集上评估的质量测试结果。我们使用这些结果来调整每个测试的决策阈值。然后我们在包含开发过程中未见过的新面部图像的评估数据库中再次检查了它们的准确性。

Dual Progressive Prototype Network for Generalized Zero-Shot Learning Authors Chaoqun Wang, Shaobo Min, Xuejin Chen, Xiaoyan Sun, Houqiang Li广义零镜头学习 GZSL 旨在识别具有辅助语义信息的新类别，例如类别属性。在本文中，我们通过逐步提高视觉表示的跨域可转移性和类别区分性来处理域转移问题的关键问题，即可见类别和不可见类别之间的混淆。我们的方法名为 Dual Progressive Prototype Network DPPN，构建了两种类型的原型，分别记录属性和类别的原型视觉模式。通过属性原型，DPPN 交替搜索属性相关的局部区域并更新相应的属性原型，以逐步探索准确的属性区域对应关系。这使 DPPN 能够产生具有准确属性定位能力的视觉表示，这有利于语义视觉对齐和表示可转移性。此外，随着渐进的属性定位，DPPN 进一步将类别原型投影到多个空间中，以逐渐排斥来自不同类别的视觉表示，从而提高类别的可区分性。属性和类别原型都是在统一框架中协作学习的，这使得 DPPN 的视觉表示具有可迁移性和独特性。

Event and Activity Recognition in Video Surveillance for Cyber-Physical Systems Authors Swarnabja Bhaumik, Prithwish Jana, Partha Pratim Mohanta本章旨在帮助开发网络物理系统 CPS，以自动理解各种视频监控应用中的事件和活动。这些事件大多由无人机、闭路电视或低端设备上的新手和不熟练的人捕获。由于许多质量因素，这些视频不受约束，极具挑战性。我们广泛介绍了多年来为解决该问题而采取的各种方法。这包括从基于运动 SFM 的方法到最近的涉及深度神经网络的解决方案框架的结构。我们表明，单独的长期运动模式在识别事件的任务中起着关键作用。因此，每个视频都使用基于图形的方法由固定数量的关键帧显着表示。使用混合卷积神经网络 CNN 循环神经网络 RNN 架构仅利用时间特征。我们获得的结果令人鼓舞，因为它们优于标准时间 CNN，并且与使用空间信息和运动线索的结果相当。进一步探索多流模型，我们为网络的空间和时间翼构想了一种多层融合策略。使用有偏合并技术获得视频和帧级别上的各个单独预测向量的综合表示。与最先进的方法相比，融合策略使我们在每个阶段的精度都有更大的提高，从而在分类上达成了强有力的共识。结果记录在四个广泛用于动作识别领域的基准数据集上，即 CCV、HMDB、UCF 101 和 KCV。

Deep-Learning-Based Single-Image Height Reconstruction from Very-High-Resolution SAR Intensity Data Authors Michael Recla, Michael Schmitt最初是在机器人和自动驾驶等领域开发的，考虑到基于图像的导航，基于深度学习的单图像深度估计 SIDE 在更广泛的图像分析社区中引起了极大的兴趣。遥感也不例外，因为从单个航空或卫星图像估计高度图的可能性在地形重建的背景下具有巨大的潜力。一些开创性的研究已经证明了从光学遥感图像中预测单个图像高度的普遍可行性，并推动了在该方向上的进一步研究。在本文中，我们首次展示了基于深度学习的单图像高度预测，用于遥感合成孔径雷达 SAR 数据中的其他重要传感器模式。除了对 SAR 强度图像采用卷积神经网络 CNN 架构外，我们还提出了生成训练数据的工作流程，以及针对不同 SAR 成像模式和测试站点的大量实验结果。

Rethinking the Image Feature Biases Exhibited by Deep CNN Models Authors Dawei Dai, Yutang Li, Huanan Bao, Sy Xia, Guoyin Wang, Xiaoli Ma近年来，卷积神经网络CNN已成功应用于许多领域。然而，这种深度神经模型在大多数任务中仍然被视为黑盒。这个问题背后的基本问题之一是了解哪些特征在图像识别任务中最具影响力，以及它们是如何被 CNN 处理的。人们普遍认为，CNN 模型结合低级特征形成复杂的形状，直到对象可以很容易地被分类，然而，最近的几项研究认为纹理特征比其他特征更重要。在本文中，我们假设某些特征的重要性因特定任务而异，即特定任务表现出特征偏差。我们根据人类直觉设计了两个分类任务来训练深度神经模型来识别预期的偏差。我们设计了包含许多任务的实验来测试 ResNet 和 DenseNet 模型的这些偏差。从结果中，我们得出结论 1 某些特征的组合效应通常比任何单个特征的影响力都大得多 2 在不同的任务中，神经模型可以执行不同的偏置，即我们可以设计一个特定的任务来使神经模型偏置

Deep Point Set Resampling via Gradient Fields Authors Haolan Chen, Bi an Du, Shitong Luo, Wei Hu通过扫描现实世界的物体或场景获得的 3D 点云具有广泛的应用，包括沉浸式远程呈现、自动驾驶、监控等。它们经常受到噪声的干扰或密度低，阻碍了表面重建等下游任务。理解。在本文中，我们提出了一种用于恢复的点集重采样的新范式，它学习点云的连续梯度场，这些点云会聚到下层表面。特别地，我们通过其梯度场表示一个点云，即对数概率密度函数的梯度，并强制梯度场是连续的，从而保证模型的连续性以进行可解优化。基于通过提出的神经网络估计的连续梯度场，对点云进行重采样相当于在输入的嘈杂或稀疏点云上执行基于梯度的马尔可夫链蒙特卡罗 MCMC。此外，我们建议在点云恢复期间将正则化引入基于梯度的 MCMC，这实质上是迭代地细化中间重采样点云，并在重采样过程中适应各种先验。

Recent Advancements in Self-Supervised Paradigms for Visual Feature Representation Authors Mrinal Anand, Aditya Garg在过去的十年中，我们目睹了监督学习范式的巨大增长。监督学习需要大量标记数据才能达到最先进的性能。但是，标记样本需要大量人工注释。为了避免标记数据的成本，提出了自监督方法来利用大量可用的未标记数据。本研究对特征表示的自监督范式的最新发展进行了全面而有见地的调查和分析。在本文中，我们调查了在不同环境下影响自我监督有效性的因素。我们提出了一些关于自我监督的两种不同方法、生成方法和对比方法的关键见解。我们还调查了监督对抗训练的局限性以及自我监督如何帮助克服这些局限性。然后，我们继续讨论在视觉任务中有效使用自我监督的局限性和挑战。

Multi-Glimpse Network: A Robust and Efficient Classification Architecture based on Recurrent Downsampled Attention Authors Sia Huat Tan, Runpei Dong, Kaisheng Ma大多数前馈卷积神经网络为每个像素花费大致相同的努力。然而，人类的视觉识别是眼球运动和空间注意力之间的相互作用，我们将在不同区域对一个物体进行几次瞥见。受这一观察的启发，我们提出了一种端到端可训练的 Multi Glimpse 网络 MGNet，旨在解决基于循环下采样注意机制的高计算和缺乏鲁棒性的挑战。具体来说，MGNet 依次选择图像的任务相关区域进行关注，然后自适应地组合所有收集到的信息以进行最终预测。 MGNet 以较少的计算量表现出对对抗性攻击和常见损坏的强大抵抗力。此外，MGNet 本质上更具可解释性，因为它明确地告诉我们它在每次迭代中的重点。我们在 ImageNet100 上的实验证明了循环下采样注意机制在改进单一前馈方式方面的潜力。例如，MGNet 在普通损坏中平均提高了 4.76 的准确度，而计算成本仅为 36.9。此外，虽然基线导致准确度下降到 7.6，但 MGNet 在与 ResNet 50 骨干网相同的 PGD 攻击强度下设法保持 44.2 准确度。

Adversarially Perturbed Wavelet-based Morphed Face Generation Authors Kelsey O Haire, Sobhan Soleymani, Baaria Chaudhary, Poorya Aghdaie, Jeremy Dawson, Nasser M. Nasrabadi变形是将图像中的两个或多个主题组合在一起以创建包含两个人特征的新身份的过程。变形图像可以欺骗面部识别系统 FRS 错误地接受多人，导致国家安全失败。随着变形图像合成变得更加容易，扩展研究界的可用数据以帮助解决这一困境至关重要。在本文中，我们探索了两种变形图像生成方法的组合，即几何变换扭曲和混合以创建变形图像和光度扰动。我们利用这两种方法从 FERET、FRGC 和 FRLL 数据集生成高质量的对抗扰动变形。最终图像与两个输入对象保持高度相似，同时在视觉域中产生最小的伪影。

Revisiting spatio-temporal layouts for compositional action recognition Authors Gorjan Radevski, Marie Francine Moens, Tinne Tuytelaars识别人类行为从根本上来说是一个时空推理问题，并且至少在某种程度上应该对人类和所涉及的物体的外观保持不变。受这一假设的启发，在这项工作中，我们采用以对象为中心的方法进行动作识别。之前有多个作品研究过这种设置，但目前尚不清楚精心设计的基于时空布局的方法可以识别人类行为的程度，以及如何以及何时融合来自基于布局和外观的模型的信息。本文的主要重点是组合少镜头动作识别，我们提倡使用多头注意力被证明对时空布局（即对象边界框的配置）的空间推理有效。我们评估了将视频外观信息注入系统的不同方案，并对我们的背景杂乱动作识别方法进行了基准测试。在Something Else 和Action Genome 数据集上，我们展示了如何为基于时空布局的动作识别扩展多头注意力，ii 如何通过与基于布局的模型融合来提高基于外观的模型的性能，iii 即使在非组合背景下

Deep learning for identification and face, gender, expression recognition under constraints Authors Ahmad B. Hassanat, Abeer Albustanji, Ahmad S. Tarawneh, Malek Alrashidi, Hani Alharbi, Mohammed Alanazi, Mansoor Alghamdi, Ibrahim S Alkhazi, V. B. Surya Prasath基于全脸的生物特征识别是一个广泛的研究领域。然而，仅使用部分可见的人脸，例如在蒙面人的情况下，是一项具有挑战性的任务。在这项工作中使用深度卷积神经网络 CNN 从蒙面人脸图像中提取特征。我们发现 VGG19 网络结构中的第 6 层和第 7 层全连接层分别是 FC6 和 FC7，这两个层中的每一层都包含 4096 个特征，从而提供了稳健的特征。这项工作的主要目的是测试基于深度学习的自动化计算机系统的能力，不仅可以识别人，还可以识别性别、年龄和面部表情（如眼睛微笑）。我们的实验结果表明，我们对所有任务都获得了高精度。

A high performance fingerprint liveness detection method based on quality related features Authors Javier Galbally, Fernando Alonso Fernandez, Julian Fierrez, Javier Ortega Garcia提出了一种新的基于软件的活体检测方法，该方法使用基于质量相关特征的新型指纹参数化。该系统在一个极具挑战性的数据库上进行了测试，该数据库包含超过 10,500 张真假图像，这些图像是用五个不同技术的传感器获取的，涵盖了广泛的直接攻击场景，包括材料和生成胶粘手指所遵循的程序。所提出的解决方案被证明对多场景数据集具有鲁棒性，并提供了 90 个正确分类样本的总体比率。此外，与之前研究的技术相比，所提出的活体检测方法具有额外的优势，即只需要来自手指的一张图像就可以确定它是真还是假。

A dataset for multi-sensor drone detection Authors Fredrik Svanstr m, Fernando Alonso Fernandez, Cristofer Englund近年来，小型遥控无人机 UAV 或无人机的使用有所增加。这与滥用事件同时发生，对人员或设施的安全构成明显威胁。于是，无人机的探测也成为了一个研究课题。大多数关于无人机检测的研究未能指定采集设备的类型、无人机类型、检测范围或数据集。尽管在其他目标上取得了成功，但缺乏使用热红外摄像机的适当无人机检测研究也是一个问题。此外，我们还没有发现任何先前的研究将检测任务作为与目标距离的函数来解决。传感器融合也被认为是一个开放的研究问题，尽管这方面的研究也很少。为了解决上述问题并允许使用通用公共基准进行基础研究，我们为无人机检测提供了一个带注释的多传感器数据库，其中包括红外和可见光视频和音频文件。该数据库包括三种不同大小的无人机和其他可能被误检测为无人机的飞行物体，例如鸟类、飞机或直升机。除了使用几种不同的传感器之外，类别的数量也比以前的研究要多。为了允许作为传感器函数的研究目标距离，根据行业标准检测、识别和识别 DRI 要求，数据集分为近、中、远三类，建立在约翰逊标准之上。鉴于规定无人机必须在可视范围内飞行，无人机的最大传感器到目标距离为 200 m，并且在白天进行采集。

Body Size and Depth Disambiguation in Multi-Person Reconstruction from Single Images Authors Nicolas Ugrinovic, Adria Ruiz, Antonio Agudo, Alberto Sanfeliu, Francesc Moreno Noguer我们解决了从单个图像估计多人 3D 身体姿势和形状的问题。虽然这个问题可以通过对同一场景多次应用单人方法来解决，但最近的工作已经显示出建立在深度架构上的优势，该架构通过强制执行，例如深度顺序约束，以整体方式同时推理场景中的所有人或尽量减少重建身体之间的相互渗透。然而，现有的方法仍然无法捕捉由固有的身体尺度和深度模糊引起的人的大小变化。在这项工作中，我们通过设计一种新颖的优化方案来应对这一挑战，该方案通过强制所有人的脚保持在底层来学习适当的身体比例和相对相机姿势。

ML-PersRef: A Machine Learning-based Personalized Multimodal Fusion Approach for Referencing Outside Objects From a Moving Vehicle Authors Amr Gomaa, Guillermo Reyes, Michael Feld在过去的几十年里，为现代车辆增加了数百个传感器，导致它们的能力呈指数级增长。这允许采用超越传统基于触摸和语音命令方法的与车辆交互的新颖方法，例如情绪识别、头部旋转、眼睛注视和指向手势。尽管之前已经使用注视和指向手势来引用车辆内外的物体，但迄今为止，这些手势的多模态交互和融合尚未得到广泛研究。我们提出了一种新的基于学习的多模态融合方法，用于在模拟环境中保持较长的驾驶路线的同时引用车辆外部的物体。所提出的多模态方法在多个方面和条件下均优于单模态方法。此外，我们还展示了在完成参考任务时利用用户之间行为差异的可能方法，为每个驾驶员实现适应性强的个性化系统。我们提出了一种基于学习概念转移的个性化技术，用于极小的数据量，以增强预测并适应个性化的参考行为。

Learned Image Compression for Machine Perception Authors Felipe Codevilla, Jean Gabriel Simard, Ross Goroshin, Chris Pal最近的工作表明，学习的图像压缩策略可以胜过标准的手工压缩算法，这些算法是经过数十年对率失真权衡的深入研究而开发的。随着计算机视觉应用的不断增长，从可压缩表示中重建高质量图像通常是次要目标。压缩可确保计算机视觉任务（如图像分割、分类和检测）的高精度，因此有可能对各种设置产生重大影响。在这项工作中，我们开发了一个框架，该框架可生成适用于人类感知和机器感知的压缩格式。我们表明可以学习表示，同时优化核心视觉任务的压缩和性能。我们的方法允许直接从压缩表示中训练模型，这种方法在新任务和低镜头学习设置中提高了性能。与标准的高质量 JPG 相比，我们提出了提高分割和检测性能的结果，但表示每像素位数要小四到十倍。

The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning Authors Alexandra Hotti, Riccardo Sven Risuleo, Stefan Magureanu, Aref Moradi, Jens Lagergren本文解决了 DOM 树元素表示学习的未充分探索的问题。我们推进了基于机器学习的 Web 自动化领域，并希望通过两项贡献推动有关这一关键领域的进一步研究。首先，我们采用了几种流行的基于图的神经网络模型，并将它们应用于网站 DOM 树中的嵌入元素。其次，我们提供了一个大规模和真实的网页数据集。通过提供这种开放获取资源，我们降低了这一研究领域的进入门槛。该数据集包含来自 8,175 个真实电子商务网站的 51,701 个手动标记的产品页面。这些页面可以完全在 Web 浏览器中呈现，适用于计算机视觉应用程序。这使得它比网络上用于元素表示学习、分类和预测的其他数据集更加丰富和多样化。

Categorical Difference and Related Brain Regions of the Attentional Blink Effect Authors Renzhou Gui, Xiaohong Ji注意眨眼AB是一种生物学效应，表明在关注一个视觉目标后200~500ms内，很难注意到下一个出现的另一个目标，注意眨眼幅度ABM是衡量这种效应程度的指示参数。研究人员已经表明，不同类别的图像可以不同地访问人类思维的意识，并产生不同范围的 ABM 值。因此，在本文中，我们通过直接从卷积神经网络 CNN 提取的图像特征和间接从功能磁共振成像 fMRI 数据中预测 ABM 值来比较两种不同类型的图像，分为动物和物体。首先，对于两组图像，我们分别从 CNN 的经典模型 Alexnet 的层中提取它们的平均特征，然后将这些特征输入到训练好的线性回归模型中以预测 ABM 值，我们找到了更高层而不是较低层的图像特征决定了 AB 效果的分类差异，中级图像特征比低级和高级图像特征更准确地预测 ABM 值。然后我们利用受试者观看 50 张测试图像时收集的不同大脑区域的 fMRI 数据来预测 ABM 值，并得出结论：覆盖相对较广区域的大脑区域，如 LVC、HVC 和 VC，比其他较小的大脑区域表现更好，这意味着 AB

3-D PET Image Generation with tumour masks using TGAN Authors Robert V Bergen, Jean Francois Rajotte, Fereshteh Yousefirizi, Ivan S Klyuzhin, Arman Rahmim, Raymond T. Ng由于缺乏训练数据、标记样本和隐私问题，在医学图像上训练计算机视觉相关算法用于疾病诊断或图像分割是很困难的。出于这个原因，非常需要一种强大的生成方法来创建合成数据。然而，大多数三维图像生成器需要额外的图像输入或非常占用内存。为了解决这些问题，我们建议将视频生成技术用于 3D 图像生成。使用时间 GAN TGAN 架构，我们展示了我们能够生成逼真的头部和颈部 PET 图像。我们还表明，通过在肿瘤掩模上调节生成器，我们能够控制生成图像中肿瘤的几何形状和位置。为了测试合成图像的效用，我们使用合成图像训练分割模型。以真实肿瘤掩膜为条件的合成图像被自动分割，相应的真实图像也被分割。我们使用 Dice 分数评估分割，发现分割算法在两个数据集 0.65 合成数据和 0.70 真实数据上的表现相似。然后在每个数据集的分割肿瘤体积上计算各种放射组学特征。真实特征分布和合成特征分布的比较表明，八个特征分布中的七个具有统计学上不显着的差异 p 0.05。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

资讯详情

【AI视野·今日CV 计算机视觉论文速览第240期】Thu, 4 Nov 2021

Interesting:

Daily Computer Vision Papers

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

【AI视野·今日CV 计算机视觉论文速览 第240期】Thu, 4 Nov 2021

Interesting:

Daily Computer Vision Papers

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

【AI视野·今日CV 计算机视觉论文速览第240期】Thu, 4 Nov 2021

历史搜索清除历史记录