资讯详情

【AI视野·今日CV 计算机视觉论文速览 第158期】Mon, 23 Sep 2019

AI视野·今日CS.CV 计算机视觉论文速读 Mon, 23 Sep 2019 Totally 41 papers ??更精彩请移动主页

在这里插入图片描述

Interesting:

?SPH3D 球卷积核用于三维点云图卷积, 提出了 球核函数用于高效处理点云图卷积。该方法系统地量化了局域三维空间,可以识别数据中离散的几何关系。与规则的网格卷积一样,这种球核卷积也可以保持平移不变性和不对称性。平移不变性可以共享数据中相似的局域特征,而不是对称特征可以促进几何特征的学习。这种球核函数是由图卷积神经网络不依赖边缘的滤波器生成的,节省了计算量,使其对大点云的处理非常有效。图中的每一个顶点与单个点的位置对应,边则连接了给定距离内的邻域点,同时还定义了池化和非池化操作。(from 西澳大学) 模型架构图: 不同于规则卷积核: 使用类似模型的编码器解码器结构U-Net的性质: 典型样本: 模型编码器解码器的组成: 语义分割结果: 点云稀疏和球卷积核可视化的结果: dataset:ModelNet, ShapeNet, RueMonge2014, ScanNet and S3DIS datasets. code:https://github.com/hlei-ziyan/SPH3D-GCN

?基于RGBD显著检测方法, 研究人员提出了系统的建议RGBD显著的目标检测方法包括模型特定的表达学习、互补线索的选择和交叉模式的完整性和整合。通过多级交叉模式的提取机制学习特定模式的特征,其中源学习良好的模块可以是;自适应性结合残余函数和互补配对模式更好地提取互补线索;最后,通过自上而下的集成结构,完全集成交叉模式交互和交叉水平转换。(from City University of Hong Kong) 方法流程图: 层次交叉模式提取网络,通过教师模式驱动学生模式学习新模式: 网络架构的整体显著检测: 一些实验结果:

?Learning to Conceal保护隐私和避免偏见的新方法BAFO, 基于年龄、性别和种族的变分自编码器,保留面部表情和发型。(from Ariel University, Israel)

?基于样本的图像补充技术, (from Oak Ridge National Laboratory) 图像补充过程:

?图像超分辨模型无监督, (from ETHZ) 网络模型: 无监督算法的数据生成过程:

?****RF-Action基于无线电信号穿墙检测人体行为, (from MIT CSAIL)

?超分辨水下图像, (from University of Minnesota) code:https://github.com/xahidbuffon/srdrm USR-248 dataset:http://irvlab.cs.umn.edu/resources/usr-248-dataset

?Deep 3D-Zoom Net用深度学习3D视角放大, (from KAIST) 网络架构图:

?移动视觉系统辅助盲人过马路, (from Shanghai American School Puxi West 来自上海的国际学校,高中生概率高) https://www.saschina.org/ https://www.nordangliaeducation.com/our-schools/shanghai/puxi https://zhuanlan.zhihu.com/p/42843196 https://arxiv.org/pdf/1907.09706v1.pdf(Todo(rjj):to research this school and papers)


Daily Computer Vision Papers

Metric-Based Few-Shot Learning for Video Action Recognition Authors Chris Careaga, Brian Hutchinson, Nathan Hodas, Lawrence Phillips在少数情况下,学习者必须在少量标签实例的支持下有效地推广到看不见的班级。虽然很少学习图像分类的镜头,但是研究工作很多,但是镜头视频分类很少。在这项工作中,我们通过一组两流模型解决了识别少量镜头视频动作的任务。我们评估了一组卷积和递归神经网络视频编码器系统结构的性能,结合三种基于流行度量的少数镜头算法。我们使用Kinetics 训练和评估600数据集的几个镜头。我们的实验证实了两个流程设置的重要性,并找到了原型网络和收集的长期短期存储网络嵌入,以更少的镜头和视频编码器提供最佳性能。在测试集中获得84个5发5个任务.在特殊挑战性测试集中获得59的准确性.该测试集由易混淆的类组成。

Street Crossing Aid Using Light-weight CNNs for the Visually Impaired Authors Samuel Yu, Heon Lee, Jung Hoon Kim在本文中,我们解决了视觉障碍者在十字路口通常面临的问题,并以移动应用程序的形式提出了解决方案。该应用程序利用深度学习卷积神经网络模型LytNetV在没有人类同伴或导盲犬的情况下,输出视力障碍者可能缺乏的必要信息。应用程序的原型可以在版本11或更高的版本中使用iOS运行在设备上。通过提供实时过马路所需的两个最重要的信息,即行人交通信号灯的颜色和方向,实现全面性、简洁性、准确性和计算效率。此外,该解决方案的主要目的是支持面临财务负担的人,因为它采用免费移动应用程序的形式。通过修改和使用MobileNetV3中的关键原理(如深度可分离的卷积和挤压激发层),深度神经网络模型为每秒16.当34帧的帧速率运行时,96的分类精度和6.平均角度误差为15度。 。此外,该模型还被训练成图像分类器,以实现更快、更准确的模型。该网络在准确性和完整性方面可以优于其他方法,如对象检测和非深度学习算法。该信息通过听觉信号和振动传输,并对7名视障患者进行了测试,并得到了满意的答复。

Mining Minimal Map-Segments for Visual Place Classifiers Authors Tanaka Kanji识别视觉位置VPR中间,地图分割MS它是一种预处理技术,用于将给定的视图序列图分为位置类别,即地图片段,使每个类别都有视觉位置分类器VPC特定训练图像的良好位置。现有的MS该方法隐假设地图段有一定的大小,或者每个地图段的大小是平衡的。但是,最近VPR系统显示,非常小的重要地图片段,最小的地图片段通常足够满足VPC为了最大限度地降低地图维护成本,应丢弃地图上剩余的不重要部分。在这里,提出了一种新的MS该算法可以从大视图序列图中挖掘小图段。解决固有问题NP硬问题,将MS基于有效点轨迹的视频分割范例被公式化为视频分割问题。拟议地图通过三种类型表示VPC单词袋和对象检测器的深层卷积神经网络的,并且每种都集成到了地形VPR框架中的蒙特卡洛定位算法MCL中。使用可公开获取的NCLT数据集进行的实验彻底研究了MS在VPR性能方面的功效。

Fault-Diagnosing SLAM for Varying Scale Change Detection Authors Sugimoto Takuma, Yamaguchi Kousuke, Tanaka Kanji在本文中,我们提出了一种基于故障诊断FD的新方法来检测图像变化,该方法可以检测出显着变化,因为不同子模块之间存在不一致情况,例如视觉SLAM的自定位。与经典的变化检测方法(如成对图像比较PC和异常检测AD)不同,此FD方法既不需要存储每个地图图像,也不需要维护最新的特定地点异常检测器。将不同的SLAM子模块集成到FD中时遇到的重大挑战涉及处理变化的对象的不同比例,例如在地板上出现小的危险障碍物。为了解决这个问题,我们通过利用BoW图像自表示和更改检测方面的最新进展来重新考虑BoW图像表示形式。作为一项主要优势,只需简单裁剪原始BoW图像,就可以将BoW图像表示重组为任何不同的比例。此外,我们建议将具有强和弱BoW特征的不同自定位模块组合在一起,并具有不同的判别力,并将强和弱自定位之间的不一致视为变化的指标。实验证明了所提出的方法在没有AD和/或PC的情况下FD的功效。

Target-Specific Action Classification for Automated Assessment of Human Motor Behavior from Video Authors Behnaz Rezaei, Yiorgos Christakis, Bryan Ho, Kevin Thomas, Kelley Erb, Sarah Ostadabbas, Shyamal Patel客观监测和评估人类运动行为可以改善多种医学状况的诊断和管理。在过去的十年中,在可穿戴技术的使用方面取得了重大进展,该技术可用于连续监测自由生活条件下的人体运动行为。但是,可穿戴技术仍然不适用于需要监视和解释复杂电机行为的应用,例如:涉及与环境的互动。计算机视觉和深度学习的最新进展为从录像中提取信息开辟了新的可能性。在本文中,我们提出了一种基于层次视觉的行为表型方法,用于对使用单个RGB摄像机执行的视频录制中的基本人类动作进行分类。我们的方法解决了与跟踪多个人类演员以及在变化的环境中以不同视场录制的视频中的动作分类相关的挑战。我们实现了一个级联的姿势跟踪器,该跟踪器将检测之间的时间关系用于短期跟踪,并将基于外观的小波融合用于长期跟踪。此外,对于动作分类,我们使用从级联姿势跟踪器派生的姿势演化图作为运动序列的低维和可解释表示,以训练卷积神经网络。级联的姿势跟踪器在我们的录像中跟踪目标人类演员时,平均准确度达到88,而整个系统在未修剪的录像中对目标特定动作分类的平均测试准确度达到84。

Multi-user Augmented Reality Application for Video Communication in Virtual Space Authors Kumar Mridul, M. Ramanathan, Kunal Ahirwar, Mansi Sharma交流是传授知识,理解想法,澄清思想和表达方式,组织计划并管理日常活动的最有用工具。尽管交流方式不同,但由于缺少肢体语言和面部表情,物理障碍始终会影响消息的清晰度。通过视频通话可以克服这些障碍,视频通话是目前技术上最先进的通信方式。拟议的工作集中在使用增强现实AR以更自然和无缝的方式围绕视频通话的概念。 AR可以帮助用户在彼此的环境中体验物理存在。我们的工作为视频通话提供了一个全新的平台,用户可以在其中享受自己的虚拟空间的特权,以便与个人环境进行交互。而且,共享相同的屏幕空间没有限制。单个会议可以容纳任意数量的与会者,而不必牺牲屏幕尺寸。

Adversarial Learning with Margin-based Triplet Embedding Regularization Authors Yaoyao Zhong, Weihong Deng深度神经网络DNN在各种计算机视觉任务上都取得了巨大的成功,但是,它们极易受到对抗性攻击。为了解决这个问题,我们建议通过将基于边距的三元嵌入正则化项集成到分类目标中来提高表示空间的局部平滑度,从而使获得的模型学会抵抗对抗性示例。正则项由两步优化组成,它们可以发现潜在的扰动并以迭代的方式大幅度地惩罚它们。在MNIST,CASIA WebFace,VGGFace2和MS Celeb 1M上的实验结果表明,我们的方法在简单的对象分类和深度面部识别中提高了针对特征和标签对抗攻击的网络鲁棒性。

Document Rectification and Illumination Correction using a Patch-based CNN Authors Xiaoyu Li, Bo Zhang, Jing Liao, Pedro V. Sander我们提出了一种新颖的学习方法,可以从单个输入图像中校正具有各种失真类型的文档图像。与以前的基于学习的方法相反,我们的方法旨在首先学习输入图像斑块而非整个图像上的失真流。然后,我们提出了一种健壮的技术,可通过在梯度域中进行处理,将补丁结果拼接到校正后的文档中。此外,我们提出了第二个网络来校正不均匀照明,从而进一步提高了可读性和OCR精度。由于较小的图像补丁上存在的复杂失真较小,因此我们基于补丁的方法以及拼接和照度校正可以显着提高合成数据集和真实数据集的整体准确性。

Retro-Actions: Learning 'Close' by Time-Reversing 'Open' Videos Authors Will Price, Dima Damen我们研究了导致类同质标签变换的视频变换。这些是视频转换,可以一致地维护或修改每个类别中所有视频的标签。我们提出了一种发现不变类的通用方法,这些不变类的变换后的示例维护其等变类的标签对,其变换后的示例交换其标签和新颖的生成类,其变换后的示例属于数据集之外的新类。标签变换提供了视频识别中以前未曾探索的额外监督,从而有益于数据增强,并通过从对应视频的变换视频中学习一门课来实现零镜头学习机会。

Deep Aggregation of Regional Convolutional Activations for Content Based Image Retrieval Authors Konstantin Schall, Kai Uwe Barthel, Nico Hezel, Klaus Jung基于深度学习的图像检索的主要挑战之一仍然是将卷积激活聚合到一个高度代表性的特征向量中。理想情况下,此描述符应编码语义,空间和低层信息。即使现成的预训练神经网络已经可以结合聚合方法产生良好的表示,但针对图像检索任务的适当微调已显示出显着提高检索性能。在本文中,我们提出了一种简单但有效的监督聚合方法,该方法建立在现有区域合并方法的基础上。除了给定区域的最大激活外,我们还计算提取的特征图的区域平均激活。随后,学习每个合并特征向量的权重以对单个特征向量执行加权聚合。此外,我们将新提出的NRA损失函数应用于深度度量学习,以微调主干神经网络并学习聚合权重。我们的方法获得了INRIA Holidays数据集的最新结果,并获得了牛津建筑和巴黎数据集的竞争结果,同时显着减少了培训时间。

Weakly Supervised Semantic Segmentation Using Constrained Dominant Sets Authors Sinem Aslan, Marcello Pelillo大规模数据集的可用性是基于深度学习的语义分割方案的必要前提。由于获得像素级标签非常昂贵,因此近年来使用低成本的弱注释来监督深度语义分割网络一直是一个有吸引力的研究问题。在这项工作中,我们探索了约束优势集CDS在生成多标签全掩码预测以训练用于语义分割的全卷积网络FCN方面的潜力。我们的实验结果表明,与文献中出于相同目的而采用的方法相比,使用CDS可以产生更高质量的掩模预测。

ACFNet: Attentional Class Feature Network for Semantic Segmentation Authors Fan Zhang, Yanqin Chen, Zhihang Li, Zhibin Hong, Jingtuo Liu, Feifei Ma, Junyu Han, Errui Ding通过利用更丰富的上下文,最近的工作在语义分割方面取得了长足的进步,其中大多数是从空间角度设计的。与以前的作品相比,我们提出了类中心的概念,该类从分类的角度提取全局上下文。这个类级别的上下文描述了图像中每个类的整体表示。我们进一步提出了一种新颖的模块,称为注意力类别特征ACF模块,用于根据每个像素计算并自适应地组合不同的类别中心。在ACF模块的基础上,我们引入了一个从粗到细的分段网络,称为Attentional Class Feature Network ACFNet,该网络可以由ACF模块和任何脱壳分段网络基础网络组成。在本文中,我们使用两种类型的基础网络来评估ACFNet的有效性。在Cityscapes数据集上,我们仅使用经过精细注释的数据进行培训,即可达到81.85 mIoU的最新性能。

EATEN: Entity-aware Attention for Single Shot Visual Text Extraction Authors He guo, Xiameng Qin, Jiaming Liu, Junyu Han, Jingtuo Liu, Errui Ding从图像中提取实体是许多OCR应用程序的关键部分,例如卡片,发票和收据的实体识别。现有的大多数作品都采用经典的检测和识别范例。本文提出了一种称为EATEN的实体感知注意文本提取网络,这是一种无需任何后处理即可提取实体的端到端可训练系统。在提出的框架中,每个实体分别由其对应的实体感知解码器进行解析。此外,我们创新性地引入了状态转移机制,可进一步提高实体提取的鲁棒性。考虑到缺乏公共基准,我们在火车票,护照和名片这三个现实世界场景中构建了将近60万张图像的数据集,可在以下位置公开获取

Learning Lightweight Pedestrian Detector with Hierarchical Knowledge Distillation Authors Rui Chen, Haizhou Ai, Chong Shang, Long Chen, Zijie Zhuang为真实世界的应用构建行人检测系统仍然是非常具有挑战性的,这需要准确性和速度。这项工作提出了一种新颖的分层知识提炼框架,用于学习轻量级行人检测器,它大大降低了计算成本,同时仍保持了较高的精度。遵循师生的图,即更强大,更深入的神经网络可以教轻量级网络学习更好的表示形式,我们探索了多种知识蒸馏架构,并将这种方法重构为一个统一的分层蒸馏框架。特别是,建议的蒸馏是在现代检测器中的多个层次,多个阶段执行的,这使学生检测器可以同时学习低级详细信息和高级抽象。实验结果表明,通过我们的框架训练的学生模型,在参数数量上压缩了6倍,仍然在广泛使用的行人检测基准上获得了教师模型的竞争优势。

CNN-based RGB-D Salient Object Detection: Learn, Select and Fuse Authors Hao Chen, Youfu Li这项工作的目的是为RGB D显着物体检测提供一种系统的解决方案,该解决方案通过统一的框架模态特定表示学习,互补提示选择和跨模态互补融合解决以下三个方面。要学习区分性模态的特定功能,我们提出了一种分层的交叉模态蒸馏方案,其中,经验丰富的源模态提供了监督信号,以促进新模态的学习过程。为了更好地提取互补线索,我们制定了残差函数以自适应地结合来自配对模态的补语。此外,构造了自上而下的融合结构以实现足够的交叉模态相互作用和交叉水平传输。实验结果证明了所提出的交叉模式蒸馏方案在零射击显着性检测和新模式的预训练中的有效性,以及选择和融合交叉模式交叉水平补体的优势。

A nonlocal feature-driven exemplar-based approach for image inpainting Authors Viktor Reshniak, Jeremy Trageser, Clayton G. Webster我们提出了一种非局部变异图像完成技术,该技术允许在统一框架中同时修复多个结构和纹理。通过使用通用卷积算符作为图像内行为的度量,可以实现几何结构的恢复。这些与基于非局部样本的方法相结合,以在选定的特征域中利用图像的自相似性,并确保纹理的修复。我们还引入了各向异性补丁距离度量,以便更好地控制图像中的特征选择,并基于该度量提出非局部能量函数。最后,我们推导了所提出的变分模型的优化算法,并通过各种测试图像实验性地检验了其有效性。

Making the Invisible Visible: Action Recognition Through Walls and Occlusions Authors Tianhong Li, Lijie Fan, Mingmin Zhao, Yingcheng Liu, Dina Katabi了解人们的行为和互动通常取决于看到他们。从视觉数据中自动进行动作识别的过程已成为计算机视觉界众多研究的主题。但是,如果光线太暗,或者人被遮挡或在墙壁后面,该怎么办?在本文中,我们引入了一种神经网络模型,该模型可以通过墙壁和遮挡物以及在光线不足的情况下检测人的动作。我们的模型将射频RF信号作为输入,生成3D人体骨骼作为中间表示,并随着时间的推移识别多个人的动作和互动。通过将输入转换为基于中间骨架的表示,我们的模型可以从基于视觉的数据集和基于RF的数据集中学习,并允许这两个任务互相帮助。我们证明了我们的模型在可见场景中可以达到与基于视觉的动作识别系统相当的准确性,但是在看不见人的情况下仍可以继续准确地工作,因此可以解决超出当今基于视觉的动作识别极限的场景。

Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds Authors Huan Lei, Naveed Akhtar, Ajmal Mian我们提出了一种球形核,用于3D点云的有效图卷积。我们基于度量的内核会系统地量化本地3D空间,以识别数据中独特的几何关系。与常规网格CNN核类似,球形核保持平移不变性和不对称性,其中前者保证数据中相似局部结构之间的权重分配,而后者则有助于精细的几何学习。所提出的内核可用于不依赖于边缘的滤波器生成的图神经网络,从而使其在计算上吸引大点云。在我们的图形网络中,每个顶点都与单个点位置关联,并且边线在定义的范围内连接相邻点。通过最远的点采样可以在网络中粗化图形。与标准CNN相似,我们为网络定义了池化和解池操作。我们使用ModelNet,ShapeNet,RueMonge2014,ScanNet和S3DIS数据集证明了所提出的带有图神经网络的球形核对点云分类和语义分割的有效性。可以从以下位置下载源代码和训练有素的模型

Coupled Generative Adversarial Network for Continuous Fine-grained Action Segmentation Authors Harshala Gammulle, Tharindu Fernando, Simon Denman, Sridha Sridharan, Clinton Fookes我们提出了一种用于连续细粒度人类动作分割的新型条件GAN cGAN模型,该模型利用了多模态数据和学习到的场景上下文信息。所提出的方法利用了两个GAN,分别称为Action GAN和Auxiliary GAN,其中Action GAN被训练为可以在当前RGB帧上运行,而Auxiliary GAN利用诸如深度或光流之类的补充信息。两个GAN的目标是生成相似的动作代码,即当前动作的向量表示。为了促进此过程,使用了将两种模式的数据和最新输出合并在一起的上下文提取器,以提取上下文信息以帮助识别。结果是一个循环GAN架构,该架构从多个特征模态中学习了特定于任务的损失函数。对提出的模型的变体进行了广泛的评估,以显示在提议的网络中利用不同的信息流(例如上下文和辅助信息)的重要性,并表明我们的模型能够胜过三个广泛使用的数据集的最新技术水平50 Salads,MERL购物和乔治亚理工学院以自我为中心的活动,包括静态和动态摄像头设置。

Forecasting Future Action Sequences with Neural Memory Networks Authors Harshala Gammulle, Simon Denman, Sridha Sridharan, Clinton Fookes我们提出了一种新颖的基于神经记忆网络的框架,用于未来的动作序列预测。这是一项艰巨的任务,我们必须考虑序列关系以及序列之间的关系中的短期问题,以了解动作序列如何随时间演变。为了有效地捕获这些关系,我们将神经记忆网络引入到我们的建模方案中。我们展示了使用两个输入流,观察到的帧和相应的动作标签的重要性,它们为我们的预测任务提供了不同的信息提示。此外,通过提出的方法,我们通过单独的存储模块有效地映射了各个输入序列之间的长期关系,从而能够更好地融合显着特征。在两个公开可用的数据集Breakfast和50 Salads上,我们的方法大大优于最新方法。

Fourier-CPPNs for Image Synthesis Authors Mattie Tesfaldet, Xavier Snelgrove, David Vazquez合成图案生成网络CPPN是可微分网络,可将x,y像素坐标独立地映射到r,g,b颜色值。近来,CPPN已经用于创建创造性目的的有趣图像,例如神经艺术。然而,它们的架构偏向生成的图像过于平滑,缺少高频细节。在这项工作中,我们扩展了CPPN以显式地为每个像素输出建模频率信息,从而捕获超出DC分量的频率。我们表明,傅立叶CPPN F CPPN为图像合成提供了改进的视觉细节。

Learning 3D-aware Egocentric Spatial-Temporal Interaction via Graph Convolutional Networks Authors Chengxi Li, Yue Meng, Stanley H. Chan, Yi Ting Chen为了实现智能自动驾驶系统,一项有前途的策略是了解人在复杂驾驶情况下如何驾驶和与道路使用者互动。在本文中,我们为自动驾驶应用提出了一个3D感知的以自我为中心的时空交互框架。图卷积网络GCN被设计用于交互建模。我们将三个新颖的概念引入GCN。首先,我们将以自我为中心的交互分解为由两个GCN建模的自我事物和自我事物交互。在这两个GCN中,都引入了自我节点,以对事物对象(例如汽车和行人)之间的交互以及事物对象(例如车道标记和交通信号灯)之间的交互进行编码。其次,将对象3D位置明确地合并到GCN中,以更好地建模以自我为中心的交互。第三,要在GCN中实现自我交互,我们提出了MaskAlign操作以提取不规则对象的特征。

Fine-grained Action Segmentation using the Semi-Supervised Action GAN Authors Harshala Gammulle, Simon Denman, Sridha Sridharan, Clinton Fookes在本文中,我们解决了连续细粒度动作分割的问题,在这种情况下,未分割的视频流中存在多个动作。这项任务的挑战在于需要表现动作的层次性质并检测动作之间的过渡,从而使我们能够有效地在视频中定位动作。我们提出了一种连续的细粒度人类动作细分的新型递归半监督式生成对抗网络GAN模型。通过由门控注意单元组成的新型门控上下文提取器GCE模块捕获时间上下文信息,该模块通过生成器模型引导排队的上下文信息,以增强动作分割。 GAN以半监督的方式学习功能,使模型能够与标准的无监督的GAN学习程序一起执行动作分类。我们对不同的体系结构变体进行了广泛的评估,以证明所提议的网络体系结构的重要性,并显示出它在三个具有挑战性的数据集50 Salads,MERL Shopping和Georgia Tech Egocentric Activities数据集上的性能均优于当前水平。

Propagated Perturbation of Adversarial Attack for well-known CNNs: Empirical Study and its Explanation Authors Jihyeun Yoon, Kyungyul Kim, Jongseong Jang众所周知,基于深度神经网络的分类器容易受到对抗性攻击所构成的输入的扰动,从而导致错误分类。大多数研究都集中在如何通过基于梯度的攻击方法或在对抗攻击中建立防御模型来制造易受攻击的噪声。降噪器模型的使用是一种众所周知的解决方案,可降低对抗性噪声,尽管分类性能并未得到明显改善。在这项研究中,我们旨在分析对抗性攻击的传播,以此作为可以解释的AI XAI观点。具体来说,我们研究了通过CNN架构进行对抗性扰动的趋势。为了分析传播的扰动,我们测量了经过去噪器的扰动图像的特征图和未经扰动的原始图像之间每个CNN层的标准化欧几里得距离和余弦距离。我们使用了五个众所周知的基于CNN的分类器和三个基于梯度的对抗性攻击。从实验结果中,我们观察到在大多数情况下,欧几里德距离在最终的完全连接层中爆炸性增加,而余弦距离在最后一层波动并消失。这意味着使用降噪器可以减少噪声量。但是,它无法防御精度下降。

Triplet-Aware Scene Graph Embeddings Authors Brigit Schroeder, Subarna Tripathi, Hanlin Tang场景图已成为诸如图像生成,视觉关系检测,视觉问题解答和图像检索等任务的结构化知识的重要形式。虽然很好地理解了可视化和解释词嵌入的方法,但尚未完全探索场景图嵌入。在这项工作中,我们在具有不同形式的监督的布局生成任务中训练场景图嵌入,特别是引入了三元组超视觉和数据增强。在增加了三元组监督和数据增强之后,在衡量布局预测的良好性,联合mIoU的平均交集52.3 vs.49.2和关系得分61.7 vs.54.1的两个指标中,我们都看到了性能的显着提高。为了了解这些不同方法如何影响场景图表示,我们应用了几种新的可视化和评估方法来探索场景图嵌入的演变。我们发现三重态监督显着提高了嵌入的可分离性,这与布局预测模型的性能高度相关。

Gaze Estimation for Assisted Living Environments Authors Philipe A. Dias, Damiano Malafronte, Henry Medeiros, Francesca Odone有效的辅助生活环境必须能够推断出乘员如何相互以及与周围物体互动。为了使用基于视觉的自动化方法实现此目标,必须解决多个任务,例如姿势估计,对象分割和注视估计。注视方向尤其提供了一个人如何与环境互动的最有力的指示。在本文中,我们提出了一种简单的神经网络回归器,该回归器仅依靠从单个姿势估计模型中收集的面部关键点的相对位置来估计多相机辅助生活场景中个人的凝视方向。为了处理关键点遮挡的情况,我们的模型在其输入层中采用了一种新颖的置信门控单元。除了凝视方向,我们的模型还输出其自身预测不确定性的估计。在公共基准上的实验结果表明,我们的方法可以与复杂的,特定于数据集的基线配合使用,而其不确定性预测与相应估计的实际角度误差高度相关。最后,对来自实际辅助生活环境的图像进行的实验证明了我们的模型对其最终应用的更高适用性。

Unsupervised Learning for Real-World Super-Resolution Authors Andreas Lugmayr, Martin Danelljan, Radu Timofte当前,大多数超分辨率方法都依赖于低分辨率和高分辨率图像对,以完全受监管的方式训练网络。但是,此类图像对在实际应用中不可用。大多数作品没有直接解决这个问题,而是采用流行的双三次降采样策略来人为地生成相应的低分辨率图像。不幸的是,这种策略会引入大量伪像,从而消除了自然的传感器噪声和其他现实世界的特征。因此,在此类双三次图像上训练的超分辨率网络很难将其推广到自然图像。在这项工作中,我们提出了一种无监督的图像超分辨率方法。仅给出未配对的数据,我们将学习反转三次三次降采样的效果,以恢复数据中存在的自然图像特征。这使我们能够生成逼真的图像对,忠实地反映现实世界图像的分布。因此,我们的超分辨率网络可以在高分辨率域中通过直接的像素监督进行训练,同时可以可靠地推广到实际输入。我们证明了我们的方法在定量和定性实验中的有效性。

Understanding Architectures Learnt by Cell-based Neural Architecture Search Authors Yao Shu, Wei Wang, Shaofeng Cai神经体系结构搜索NAS为给定任务(例如图像分类和语言建模)自动生成体系结构。最近,已经提出了各种NAS算法来提高搜索效率和有效性。但是,很少注意了解生成的体系结构,包括它们是否共享任何共性。在本文中,我们分析了生成的体系结构,并对它们的卓越性能进行了解释。我们首先发现NAS算法生成的体系结构共享一个公共的连接模式,这有助于它们的快速收敛。因此,在架构搜索期间选择了这些架构。我们进一步从经验和理论上证明,快速收敛是由平滑损耗态势和通用连接模式进行的准确梯度信息生成的结果。紧缩于普遍认可,我们最终观察到,流行的NAS架构并不一定总是比候选架构具有更好的概括性,这鼓励我们重新考虑最先进的NAS算法的状况。

Defending Against Physically Realizable Attacks on Image Classification Authors Tong Wu, Liang Tong, Yevgeniy Vorobeychik我们研究从物理上可实现的攻击捍卫用于图像分类的深度神经网络方法的问题。首先,我们证明了学习健壮模型的两种最具可扩展性和最有效的方法,即使用PGD攻击的对抗训练和随机平滑,对三种最引人注目的物理攻击的效果非常有限。接下来,我们提出了一种新的抽象对抗模型,即矩形遮挡攻击,在该模型中,对手在图像中放置了一个由小对手制作的矩形,并开发了两种方法来有效地计算所得的对抗示例。最后,我们证明了使用我们的新攻击进行的对抗训练会产生图像分类模型,该模型对我们研究的可物理实现的攻击表现出很高的鲁棒性,从而提供了针对此类攻击的首个有效通用防御。

An Efficient Sampling-based Method for Online Informative Path Planning in Unknown Environments Authors Lukas Schmid, Michael Pantic, Raghav Khanna, Lionel Ott, Roland Siegwart, Juan Nieto在线计划信息路径的能力对于机器人自治至关重要。尤其是,通常使用基于采样的方法,因为它们能够使用任意信息增益公式。但是,它们倾向于局部极小值,从而导致次优轨迹,有时甚至无法覆盖全球。在本文中,我们提出了一种新的受RRT启发的在线信息路径规划算法。我们的方法连续扩展一棵候选轨迹的树并重新布线线段,以维护该树并细化中间轨迹。这允许算法使用单个目标函数来实现全局覆盖,并在全局上下文中最大化路径的效用。我们演示了该算法在自主室内勘探以及微型飞行器MAV上基于精确截断距离场TSDF的3D重建中的应用能力。我们研究了在这些情况下常用信息收益和成本公式的影响,并提出了一种基于TSDF的新型3D重建收益和成本效用公式。在现实的仿真环境中进行的详细评估表明,在这些任务中,我们的方法优于最先进的方法。在真实MAV上进行的实验证明了我们的方法能够实时可靠地进行计划的能力,仅通过车载感应和计算即可探索室内环境。我们为将来的研究提供了框架。

A Transfer Learning Approach for Automated Segmentation of Prostate Whole Gland and Transition Zone in Diffusion Weighted MRI Authors Saman Motamed, Isha Gujrathi, Dominik Deniffel, Anton Oentoro, Masoom A. Haider, Farzad Khalvati扩散加权MRI DWI中的前列腺全腺和过渡区的分割是设计用于前列腺癌的计算机辅助检测算法​​的第一步。但是,MRI采集参数和扫描仪制造的变化会导致图像中前列腺组织的外观不同。已显示在包括分割在内的各种医学图像分析任务中均取得成功的卷积神经网络CNN通常对成像参数的变化敏感。这种敏感性导致在源队列中训练的CNN以及从不同扫描仪在目标队列中进行测试的CNN的分割性能较差,因此,它限制了CNN在跨队列训练和测试中的适用性。在DWI图像中轮廓化前列腺全腺和过渡区既费时又昂贵。因此,重要的是要使在源域图像上进行预训练的CNN能够以最少的手动分割目标域图像的要求来分割目标域图像。在这项工作中,我们提出了一种基于改进的U网络架构和损失函数的转移学习方法,该方法使用在源数据集上进行预训练并在目标数据集上进行测试的CNN分割DWI中的前列腺全腺和过渡区。我们探索了用于精细调整预训练的CNN的目标数据集子集大小对整体分割精度的影响。我们的结果表明,从目标域中调出最少30位患者的微调数据,针对前列腺全腺和过渡区分割,提出的基于转移学习的算法可以达到0.80的骰子评分系数。使用来自目标域的115位患者的微调数据,在目标域中分别对整个腺体和过渡区进行分割时,骰子得分系数分别为0.85和0.84。

Underwater Image Super-Resolution using Deep Residual Multipliers Authors Md Jahidul Islam, Sadman Sakib Enan, Peigen Luo, Junaed Sattar我们为水下图像的单图像超分辨率SISR提出了一种基于深度残差网络的生成模型,供自主水下机器人使用。我们还提供了对抗训练管道,用于从配对数据中学习SISR。为了监督培训,我们制定了一个目标函数,该函数根据图像的整体内容,颜色和局部样式信息来评估图像的感知质量。此外,我们展示了USR 248,这是一个大型数据集,包含三组高分辨率640x480和低分辨率80x60、160x120和320x240的水下图像。 USR 248在每组数据中包含超过7,000个配对实例,用于2x,4x或8x SISR模型的监督训练。此外,我们通过定性和定量实验验证了我们提出的模型的有效性,并将结果与​​几种最先进的模型性能进行了比较。我们还将分析其在嘈杂的视觉条件下的场景理解和注意力建模等应用的实际可行性。

Genetic Neural Architecture Search for automatic assessment of human sperm images Authors Erfan Miahi, Seyed Abolghasem Mirroshandel, Alexis Nasr男性不育是一种影响大约7名男性的疾病。精子形态分析SMA是该问题的主要诊断方法之一。手动SMA是不精确,主观,不可复制且难以教授的过程。因此,在本文中,我们介绍了一种基于神经结构搜索算法的新型自动SMA,称为遗传神经结构搜索GeNAS。为此,我们使用了称为MHSMA数据集的图像集合,其中包含1,540幅精子图像,这些图像是从235例不育症患者中收集的。 GeNAS是一种遗传算法,可作为元控制器来探索普通卷积神经网络体系结构的受限搜索空间。遗传算法的每个人都是一个卷积神经网络,经过训练可以预测人类精子头部,液泡和顶体不同部分的形态畸变,其适应性是通过一种新型的拟议方法GeNAS WF计算出来的,该方法专为嘈杂,低分辨率,和不平衡的数据集。同样,使用散列方法来保存每个训练过的神经体系结构适应度,因此我们可以在适应度评估期间重用它们并加快算法。此外,在运行时间和计算能力方面,我们提出的体系结构搜索方法远比大多数其他现有的神经体系结构搜索算法高效。此外,还对平衡数据集评估了其他提议的方法,而GeNAS专为医学成像领域中常见的嘈杂,低质量和不平衡数据集而构建。在我们的实验中,GeNAS发现的最佳神经体系结构在液泡,头部和顶体异常检测中分别达到了92.66、77.33和77.66的精度。与针对MHSMA数据集提出的其他算法相比,GeNAS获得了最先进的结果。

Brain Tumor Segmentation and Survival Prediction Authors Rupal Agravat, Mehul S Raval该论文演示了在BraTS 2019数据集上使用全卷积神经网络进行神经胶质瘤分割的方法。三层深度编码器解码器体系结构与编码器部分的密集连接一起使用,可将信息从粗糙层传播到深层。该体系结构用于分别训练三个肿瘤亚成分。用整个肿瘤权重初始化子组件训练权重,以获取肿瘤在脑内的位置。最后,将三个分割结果合并以获得完整的肿瘤分割。整个肿瘤,肿瘤核心和增强性肿瘤的具有局灶性损失实现的训练数据集的骰子相似度分别为0.92、0.90和0.79。放射学特征以及分割结果和年龄可用于通过随机森林回归来预测患者的总体存活率,从而将患者的存活分为长,中和短生存类别。报告了训练数据集的分类准确性为55.4,其扫描的切除状态为总切除。

Deep 3D-Zoom Net: Unsupervised Learning of Photo-Realistic 3D-Zoom Authors Juan Luis Gonzalez Bello, Munchurl Kim3D缩放操作是相机在垂直于像平面的Z轴上的正向平移。相反,光学变焦会改变焦距,而数字变焦则用于将图像的某个区域放大到原始图像尺寸。在本文中,我们是第一个提出无监督3D缩放学习问题的人,可以从给定的单个图像生成具有任意缩放因子的图像。无人监督的框架很方便,因为要获取自然场景的3D缩放数据集是一项艰巨的任务,因为需要特殊设备来确保相机移动限制在Z轴上。另外,场景中的对象在被捕获时不应移动,这阻碍了大型室外场景数据集的构建。我们提出了一个新颖的无监督框架,以学习如何生成单个图像的任意3D缩放版本,而无需3D缩放地面真相,即Deep 3D Zoom Net。 Deep 3D Zoom Net具有以下功能:i通过反向投影重建损失从训练有素的视差估计网络中转移学习; ii一种完全卷积的网络体系结构,该模型对基于深度图像的渲染DIBR进行建模,无需考虑高频细节。估计中间差异,并且iii包含一个鉴别器网络,该网络对不自然渲染的区域没有参考价值。即使没有基线可以公平地比较我们的结果,但在大型相机基线上的逼真的外观方面,我们的方法仍优于以前的新颖视图合成研究。我们进行了广泛的实验,以验证我们的方法在KITTI和Cityscapes数据集上的有效性。

Infusing Learned Priors into Model-Based Multispectral Imaging Authors Jiaming Liu, Yu Sun, Ulugbek S. Kamilov我们引入了一种新算法,用于根据噪声线性测量值对多光谱MS图像进行规则重建。与传统方法不同,提出的算法仅通过学习的降噪功能通过使用事先指定的Emph来规范化恢复问题。更具体地说,我们提出了一种新的加速梯度方法AGM正则化变体,它通过对RED进行去噪来进行基于模型的MS图像重建。我们方法的关键要素是3D 3D深层神经网络DNN降噪器,它可以充分利用MS图像内的频谱分布相关性。我们的结果表明了我们的MS RED算法的可推广性,其中一个训练有素的DNN可用于解决几个不同的MS成像问题。

Learning Your Way Without Map or Compass: Panoramic Target Driven Visual Navigation Authors David Watkins Valls, Jingxi Xu, Nicholas Waytowich, Peter Allen我们提出了一种机器人导航系统,该系统使用模仿学习框架在复杂环境中成功导航。我们的框架对真实环境进行了预先构建的3D扫描,并从预先生成的专家轨迹中训练代理,以在给出目标全景和当前视觉输入的情况下导航到任何位置,而无需依赖于地图,指南针,里程表,GPS或相对位置目标在运行时的位置。我们端到端训练有素的代理商使用RGB和深度RGBD信息,可以在多达40个的多个房间中处理高达1031m 2的大型环境,并且可以推广到看不见的目标。我们显示,与使用深度强化学习和RGBD SLAM的多个基线相比,我们的方法1需要更少的训练示例和更少的训练时间,方法2可以更精确地到达目标位置,方法3可以为较短距离的导航任务提供更好的解决方案,和4给出了RGBD地图,将其推广到看不见的环境。

HyperLearn: A Distributed Approach for Representation Learning in Datasets With Many Modalities Authors Devanshu Arya, Stevan Rudinac, Marcel Worring多模态数据集包含大量的关系信息,随着新模态的引入,该信息呈指数增长。由于存在多个异构信息通道,因此在这种情况下学习表示方法本质上是复杂的。这些通道既可以编码不同模态的项目之间的相互关系,也可以编码相同模态的项目之间的内部关系。将多媒体项编码到连续的低维语义空间中,以捕获和保留两种类型的关系是极具挑战性的,特别是如果目标是统一的端到端学习框架。需要解决的两个关键挑战是:1框架必须能够合并复杂的内部关系和内部关系而又不丢失任何有价值的信息; 2学习模型应该不变地添加新的且可能非常不同的模式。在本文中,我们提出了一个灵活的框架,该框架可以扩展为多种模式的数据流。为此,我们引入了基于超图的数据表示模型,并部署了图卷积网络以融合模式内和跨模式的关系信息。我们的方法提供了一种有效的解决方案,可以在多个GPU之间分配原本极其昂贵的计算甚至是不可行的训练过程,而不会牺牲准确性。此外,向我们的模型添加新的模态只需要一个额外的GPU单元即可保持计算时间不变,这将表示学习带入了真正的多模态数据集。我们在具有二阶,三阶和四阶关系的多媒体数据集实验中证明了我们方法的可行性。

Learning Sparse Mixture of Experts for Visual Question Answering Authors Vardaan Pahuja, Jie Fu, Christopher J. Pal借助改进的模型体系结构,视觉问题解答的任务有了快速的发展。不幸的是,这些模型由于其庞大的规模通常需要大量计算,这给部署带来了严峻的挑战。我们的目标是解决视觉问题解答VQA的特定任务。卷积神经网络CNN是VQA模型的视觉处理管道的组成部分,假定CNN与整个VQA模型一起被训练。在该项目中,我们针对VQA任务提出了一种高效的模块化神经体系结构,重点是CNN模块。我们的实验证明,基于稀疏激活的CNN的VQA模型可实现与基于标准CNN的VQA模型架构相当的性能。

Learning to Conceal: A Deep Learning Based Method for Preserving Privacy and Avoiding Prejudice Authors Moshe Hanukoglu, Nissan Goldberg, Aviv Rovshitz, Amos Azaria在本文中,我们介绍了一种能够隐藏个人信息的学习模型,例如图像中的性别,年龄,种族等,同时保留图像中存在的任何其他信息,例如微笑,发型,亮度。我们训练有素的模型没有提供隐藏的信息,也不会尝试学习它。即,我们创建了一个变分自动编码器VAE模型,该模型在一个数据集上进行了训练,该数据集包括一个人希望隐藏的信息标签,例如性别,种族,年龄。这些标记直接添加到VAE的采样潜在向量中。由于潜在矢量中神经元的数量有限及其附加的噪声,VAE避免学习给定图像和给定标签之间的任何关系,因为它们是直接给定的。因此,编码图像缺少一个人希望隐藏的信息。编码可以根据任何提供的属性,例如解码器,被解码回图像。一个40岁的女人。

Classifying Topological Charge in SU(3) Yang-Mills Theory with Machine Learning Authors Takuya Matsumoto, Masakiyo Kitazawa, Yasuhiro Kohno我们应用了一种机器学习技术来识别四维SU 3 Yang Mills理论中的量子规结构的拓扑电荷。在有和没有降维的情况下,在原始和平滑量规配置上测得的拓扑电荷密度被用于具有和不具有卷积层的神经网络NN的输入。梯度流用于规范场的平滑。我们发现,经过训练的神经网络可以在小流量时间以高准确度从数据中预测出在大流量时间所确定的拓扑电荷,在t a 2 le0.3时数据的准确性超过99。还证实了针对仿真参数变化的高鲁棒性。我们发现,当将拓扑电荷密度的空间坐标完全整合为预处理时,可以获得最佳性能,这意味着我们的卷积神经网络在多维空间中找不到与确定拓扑电荷相关的特征结构。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

标签: ariel压缩机配件公连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台