资讯详情

【AI视野·今日CV 计算机视觉论文速览 第219期】Tue, 15 Jun 2021

AI视野·今日CS.CV 计算机视觉论文速读 Tue, 15 Jun 2021 (showing first 100 of 128 entries) Totally 100 papers ???更精彩请移动主页

在这里插入图片描述

Daily Computer Vision Papers

Improved Transformer for High-Resolution GANs Authors Long Zhao, Zizhao Zhang, Ting Chen, Dimitris N. Metaxas, Han Zhang基于关注的模型,变压器可以有效地模拟长距离依赖,但自我关注操作的二次复杂性使基于生成的对抗网络GAN它们很难生成高分辨率图像。在本文中,我们介绍了两个关键成分来解决变形金的挑战。首先,在生成过程的低分辨率阶段,用提出的多轴堵塞自我关注,取代标准的全球自我关注,使本地和全球关注能够有效地混合。其次,在高分辨率阶段,我们只关注自己,只保持多层感知,让人想起隐性神经功能。为了进一步提高性能,我们在跨关注的基础上引入了额外的自调组件。与图像尺寸相比,该模型具有线性计算复杂性,从而直接缩放到合成的高清图像。我们在实验中展示了提出的命中,达到了31.87和2.无条件想象128和95FFHQ 最先进的256次256次FID分数,吞吐量合理。在我们看来,拟议的击中是GAN发电机的重要里程碑根本没有卷积。

Toward Automatic Interpretation of 3D Plots Authors Laura E. Brandt, William T. Freeman本文探讨了教机器如何反向标记工程曲线曲面的挑战,用于表示两个可变功能的3D表面图中的数据。这些在科学和经济出版物中很常见,人类通常可以很容易地解释它们,并从简单的曲线集合中快速收集一般形状和曲率信息。虽然机器没有这种视觉直觉,但它们确实可以准确地提取更详细的定量数据来指导表面施工。我们通过合成SuperforgID的3D网格标记表面的新数据集训练深神经网络来估计它们的形状来接近这个问题。我们的算法成功和屏蔽信息的合成3成功恢复D表面图中恢复的形状信息,以各种网格类型呈现,并从一系列视角查看。

Delving Deep into the Generalization of Vision Transformers under Distribution Shifts Authors Chongzhi Zhang, Mingyuan Zhang, Shanghang Zhang, Daisheng Jin, Qiang Zhou, Zhongang Cai, Haiyu Zhao, Shuai Yi, Xianglong Liu, Ziwei Liu最近,Vision变形金刚vits在各种视觉任务中取得了令人印象深刻的成果。然而,他们很少理解他们在不同分布班次下的泛化能力。在这项工作中,我们对vits分销总结提供了全面的研究。为了支持系统的调查,我们首先提出了分销转移的分类,分为五个概念组损坏转换、背景转换、纹理转换、损坏偏移和风格转换。然后我们在不同的分布群中对VIT广泛评估变体,并将其泛化能力和CNN进行比较。获得了几个重要的观察结果1 VITS比较多个分布班次CNN更好的总结。在相同或更少的参数中,VITS在大多数分布班下,前一个精度超过5个CNN。 2.更大的风格逐渐缩小了分与分配性能的差距。进一步改进VIT综上所述,我们通过整合对抗学习、信息理论和自我监督学习的愿景。通过对三种类型的总结进行调查VIT,为了实现稳定的训练过程,我们观察其梯度灵敏度,并设计出更流畅的学习策略。通过修改的培训计划,我们从香草开始vits数据分发性能从4岁以上提高。我们全面比较了三种泛化增强VITS,对应的CNNS,并观察增强大的增强模型VITS仍然有利于分发总结。 2泛化增强的VIT比相应的CNN更敏感。我们希望我们的综合研究能够阐明更广泛的学习结构设计。

Magic Layouts: Structural Prior for Component Detection in User Interface Designs Authors Dipu Manandhar, Hailin Jin, John Collomosse我们呈现Magic屏幕截图或手绘用户界面布局UI布局方法。我们的核心贡献是扩展现有探测器扩展现有探测器UI在设计之前使用学习结构UI组件按钮、文本框和类似的鲁棒检测。具体来说,我们在移动UI布局前学习,编码不同UI组件之间的公共空间Co发生关系。使用之前的提案手绘调整区域UIS以及应用程序屏幕截图UI布局解析的性能增益,我们在上下文中展示了用于快速获取用户体验UX交互式应用程序的数字原型设计。

Video-Based Inpatient Fall Risk Assessment: A Case Study Authors Ziqing Wang, Mohammad Ali Armin, Simon Denman, Lars Petersson, David Ahmedt Aristizabal住院病人是医院和医疗设施的严重安全问题。通过持续的活动监控,为患者监控视频分析的最新进展提供了一种非侵入性的方法。然而,床上风险评估系统在文献中并不受到重视。之前的研究大多集中在秋季事件的检测上,不考虑住院病的可能性。在这里,我们提出了一个基于视频的系统,可以监控患者下降的风险,并有助于防止在不安全行为发生前摔倒。我们提出了从模拟环境中记录的视频帧提取空间特征的方法,即利用人类定位和骨架姿势估计的最近进展。我们证明,我们可以有效地认识到身体职位,并为秋季风险评估提供有用的证据。这项工作突出了基于视频模型分析感兴趣行为的好处,并展示了该系统如何为医疗保健专业人员提供足够的交付时间来响应和解决患者的需求,这是秋季干预计划发展的必要条件。

An optimized Capsule-LSTM model for facial expression recognition with video sequences Authors Siwei Liu 1 , Yuanpeng Long 2 , Gao Xu 1 , Lijia Yang 1 , Shimei Xu 3 , Xiaoming Yao 1,3 , Kunxian Shu 1 1 School of Computer Science and Technology, Chongqing Key Laboratory on Big Data for Bio Intelligence, Chongqing University of Posts and Telecommunications, Chongqing, China, 2 School of Economic Information Engineering, Southwestern University of Finance and Economics, Chengdu, China, 3 51yunjian.com, Hetie International Square, Chengdu, Sichuan, China 为了克服面部表情识别过程中卷积神经网络的局限性,提出了基于视频帧序列的面部表情识别模型胶囊LSTM。该模型由三个网络组成,包括胶囊编织器,胶囊解码器和LSTM网络组成。胶囊编码器提取视频帧中面部表情的空间信息。胶囊解码器重建图像以优化网络。 LSTM提取视频帧之间的时间信息,并分析帧之间表达式变化的差异。 MMI数据集的实验结果表明,本文提出的胶囊LSTM模型可以有效地提高视频表达式识别的准确性。

BPLF: A Bi-Parallel Linear Flow Model for Facial Expression Generation from Emotion Set Images Authors Gao Xu 1 , Yuanpeng Long 2 , Siwei Liu 1 , Lijia Yang 1 , Shimei Xu 3 , Xiaoming Yao 1,3 , Kunxian Shu 1 1 School of Computer Science and Technology, Chongqing Key Laboratory on Big Data for Bio Intelligence, Chongqing University of Posts and Telecommunications, Chongqing, China, 2 School of Economic Information Engineering, Southwestern University of Finance and Economics, Chengdu, China 3 51yunjian.com, Hetie International Square, Chengdu, Sichuan, China 流动的生成模型是深度学习生成模型,其通过明确学习数据分布来获得生成数据的能力。从理论上,它恢复数据的能力比其他生成模型强。但是,其实现具有许多限制,包括有限的模型设计,模型参数太多和繁琐的计算。在本文中,构建了一种来自情感集图像的面部情感的BI平行线性流动模型,并在模型的表达能力和训练中的收敛速度方面进行了一系列改进。该模型主要由叠加的若干耦合层组成,以形成多尺度结构,其中每个耦合层包含1 1个可逆卷积和线性操作模块。此外,本文对面部情感图像的当前公共数据集进行了分类,使新的情感数据进行了新的情感数据,并通过此数据集验证了模型。实验结果表明,在传统的卷积神经网络下,3层3 3卷积核更有利于提取面部图像的特征。主成分分解的引入可以提高模型的收敛速度。

Neural Network Structure Design based on N-Gauss Activation Function Authors Xiangri Lu, Hongbin Ma, Jingcheng Zhang最近的工作表明,卷积神经网络的激活功能可以满足Lipschitz条件,然后可以根据数据集的比例来构造相应的卷积神经网络结构,并且数据集可以更深入地培训,更准确地培训更有效地。在本文中,我们已接受实验结果,并引入了核心块,N高斯,N高斯和闪频Conv1,Conv2,FC1神经网络结构设计,分别培训Mnist,CiFar10和CiFAR100。实验表明,N Gauss充分发挥激活功能的非线性建模的主要作用,使得深度卷积神经网络具有分层非线性映射学习能力。同时,N简单一维信道小数据集的N高斯的训练能力相当于relu和嗖嗖的性能。

Direct Servo Control from In-Sensor CNN Inference with A Pixel Processor Array Authors Yanan Liu, Jianing Chen, Laurie Bose, Piotr Dudek, Walterio Mayol Cuevas这项工作通过Scamp 5像素处理器阵列PPA演示了使用高速CNN推断的直接视觉感觉电动机控制。我们展示了PPA如何能够有效地弥合感知和行动之间的差距。二元卷积神经网络CNN用于经典岩石,纸张,剪刀分类问题超过8000FPS。根据CNN的分类结果,控制指令直接从PPA发送到伺服电机,而没有任何其他中间硬件。

Artificial Perceptual Learning: Image Categorization with Weak Supervision Authors Chengliang Tang, Mar a Uriarte, Helen Jin, Douglas C. Morton, Tian Zheng机器学习在具有大型良好注释的训练样本的监督学习任务方面取得了巨大成功。然而,在许多实际情况下,由于昂贵且劳动密集型的标签过程,培训数据提供的这种强度和高质量的监督不可用。在计算机视觉中自动识别和识别大量未标记图像中的对象类别,仍然是一个重要的,但未解决的挑战。在本文中,我们提出了一种新颖的机器学习框架,人工感知学习APL,解决弱监督图像分类的问题。所提出的APL框架是使用最新的机器学习算法作为构建模块构建的APL框架,以模仿称为婴儿分类的认知开发过程。我们通过在波多黎各的El Yunque Rainforest的8,000公顷的区域,通过实施树木的广泛领域细粒度生态调查,制定和说明拟议的框架。它基于树冠的未标记的高分辨率空中图像。可错位的地面基于地面的标签少于这些图像中的少于1个,这是该学习框架的唯一弱势监督。我们使用具有高质量人类注释的一小组图像验证拟议的框架,并表明所提出的框架达到人类程度认知经济。

Transparent Model of Unabridged Data (TMUD) Authors Jie Xu, Min Ding计算能力和算法中的最新进步使得未制作的数据例如是在某些型号中用作输入的原始图像或音频,例如,深入学习。然而,这种模型的黑匣子性质降低了营销学者通过的可能性。我们的分析范例是,未制造的数据TMUD的透明模型,使研究人员能够通过结合EX Ante Filtration模块和前实验模块来研究这种黑盒模型的内部工作。我们通过调查面部部件和性二态性在脸上的角度来证明TMUD,这对四个营销环境具有影响的影响,对可平行性,可信度和能力的广告看法,品牌看法是对脸部代表一个品牌的典型客户,类别看起来是否代表了一个类别的典型客户,以及客户角色看起来是对脸部是否代表品牌客户段的角色。我们的结果揭示了新的和有用的结果,以富有面对脸部感知的现有文献,其中大部分是基于伸缩属性,例如,嘴宽。 TMUD具有很大的潜力,可以成为生成理论洞察力的有用范式,并可能鼓励更多营销研究人员和从业者使用未制造的数据。

A Multi-Branch Hybrid Transformer Networkfor Corneal Endothelial Cell Segmentation Authors Yinglin Zhang, Risa Higashita, Huazhu Fu, Yanwu Xu, Yang Zhang, Haofeng Liu, Jian Zhang, Jiang Liu角膜内皮细胞分割起到重要作用,调查临床指标,例如细胞密度,变异系数和六偏见。然而,角膜内皮的不均匀反射和受试者的震颤和运动导致阴部中的模糊细胞边缘,这难以段,并且需要更多细节和上下环境信息来释放这个问题。由于本地卷积和连续下采样的接收领域有限,现有的深度学习分割方法无法充分利用全球背景和许多细节。本文提出了一种基于变压器和身体边缘Branch的多分支混合反式网络MBT网。首先,我们使用卷积块专注于本地TEX TURE特征提取,并通过变压器和剩余连接建立长距离依赖性的空间,通道和层。此外,我们使用身体边缘分支来促进局部一致性并提供设备信息。在自收集数据集TM EM3000和公共Alisarine数据集上,与其他状态的艺术SOTA方法相比,所提出的方法实现了改进。

Long Term Object Detection and Tracking in Collaborative Learning Environments Authors Sravani Teeparthi视频中的人类活动认可是一个具有挑战性的问题,这已经吸引了很多兴趣,特别是当目标需要分析大型视频数据库时。 AOLME项目为中学生提供了一个协作学习环境,通过处理数字图像和视频来探索数学,计算机科学和工程。作为该项目的一部分,收集了大约2200小时的视频数据进行分析。由于数据集的大小,很难手动分析数据集的所有视频。因此,对可以检测感兴趣的活动的可靠计算机的方法庞大。我的论文专注于在长视频中检测和跟踪物体的准确方法的开发。所有型号都在7种不同的会话中的视频验证,从45分钟到90分钟。键盘检测器实现了一个非常高的平均精度AP,92的0.5个交叉口。此外,开发了一种具有快速跟踪器KCF 159FP的检测器的组合系统,使得该算法在不牺牲精度的情况下显着更快地运行。对于23分钟的视频,具有分辨率858x480 30 fps,单独的检测在实时的4.7倍下运行,并且组合算法分别在21x的实时运行,分别为0.84和0.82的平均IOU。手检测器在0.5 iou时实现了72的平均精度ap。使用最佳数据增强参数,检测结果得到改善为81。手检测器以4.7x的实时运行,在0.5 iou的AP中运行。手动检测方法与准确提案生成的预测和聚类集成。这种方法将假阳性手检测的数量减少到80。整体手检测系统在4倍的实时运行,捕获当前协作组的所有活动区域。

Dataset for eye-tracking tasks Authors R. Ildar近年来,许多不同的深神经网络是开发的,但由于深网络中的大量层,他们的训练需要很长时间和大量数据集。今天是使用训练有素的深神经网络的热门任务,即使对于不需要这种深网络的简单,也是如此。众所周知的深网络,例如YOLOV3,SSD等旨在用于跟踪和监控各种对象,因此它们的权重差,并且特定任务的总体精度低。眼睛跟踪任务需要在给定区域中只检测一个对象一个虹膜。因此,它是仅用于此任务的神经网络是合乎逻辑的。但问题是缺乏适当的数据集来训练模型。在手稿中,我们介绍了一个适用于培训用于眼睛跟踪任务的卷积神经网络的定制模型的数据集。使用数据集数据,每个用户可以独立地预先训练用于眼睛跟踪任务的卷积神经网络模型。该数据集包含注释的10,000眼图像,其延伸为416×416像素。具有注释信息的表显示每个图像的眼睛的坐标和半径。该稿件可以被视为准备眼睛跟踪设备数据集的指南

PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) Authors Aakash Kumar, Jyoti Kini, Mubarak Shah, Ajmal Mian最近,LIDAR光检测和测距传感器技术的范围遍布众多领域。它普遍用来将地形和导航信息映射到可靠的3D点云数据,潜在地彻底改变自动车辆和辅助机器人行业。点云是在3D坐标中的空间数据的密集汇编。它在模拟复杂的现实世界场景中起着重要作用,因为它保留了结构信息并避免了与图像数据不同的透视失真,这是2D平面上的3D结构的投影。为了利用LIDAR数据的内在能力,我们提出了一种基于PointNet的3D多目标跟踪MOT的方法。

Attention mechanisms and deep learning for machine vision: A survey of the state of the art Authors Abdul Mueed Hafiz, Shabir Ahmad Parah, Rouf Ul Alam Bhat随着艺术状态的出现,自然启发了纯粹的关注的模型,即变形金刚,他们在自然语言处理NLP中的成功,他们对机器视觉MV任务的延伸是不可避免的并且感觉到。随后,介绍了视觉变压器VIT,这对基于深度学习的机器视觉技术产生了挑战。然而,基于纯粹的关注的模型架构,如变形金刚需要巨大的数据,大型培训时间和大型计算资源。一些最近的作品表明,这两个各种各样的字段的组合可以证明构建具有这些领域的优势的系统。因此,介绍了这种现有技术的调查纸,其中希望有助于读者获得有关这种有趣和潜在的研究区的有用信息。给出了对关注机制的温和介绍,然后讨论了基于深入的深度建筑。随后,讨论了对机器视觉MV的关注机制和深度学习的主要类别。之后,讨论了本文范围内的主要算法,问题和趋势。

PolarStream: Streaming Lidar Object Detection and Segmentation with Polar Pillars Authors Qi Chen, Sourabh Vora, Oscar Beijbom最近的作品将LIDARS作为固有的流式数据源,并显示LIDAR感知模型的结束通过在楔形点云扇区上运行而不是完整点云,可以显着减少。但是,由于使用笛卡尔坐标系,这些方法将扇区代表为矩形区域,浪费内存并计算。在这项工作中,我们建议使用极坐标系,并对这一设计进行两个关键改进。首先,我们通过使用从当前扫描的相邻扇区和来自过去扫描的以下扇区的相邻扇区的多尺度填充来增加空间上下文。其次,我们通过引入特征不变和范围分层卷积来改善核心极性卷积架构。 NUSCENES数据集的实验结果显示出对基于流的其他流的方法显着改进。我们还实现了与现有的非流定制方法相当的结果,但延迟下降。

User-Guided Personalized Image Aesthetic Assessment based on Deep Reinforcement Learning Authors Pei Lv, Jianqi Fan, Xixi Nie, Weiming Dong, Xiaoheng Jiang, Bing Zhou, Mingliang Xu, Changsheng Xu个性化的图像美学评估PIAA最近成为一种热门话题,因为它在各种应用中的实用性,如摄影,电影和电视,电子商务,时装设计等。此任务更严重受用户提供的主观因素和示例的严重影响。为了通过少量样品获得精确的个性化美学分布,我们提出了一种新颖的用户导向个性化图像美学评估框架。该框架利用用户的交互来根据深度加强学习DRL进行审美评估来润饰和排名图像,并产生个性化美学分布,更加符合不同用户的美学偏好。它主要由两个阶段组成。在第一阶段,通过交互式图像增强和手动排序产生个性化美学排名,同时将培训两个策略网络。图像将被推到用户以进行手动修饰,并同时到增强策略网络。增强网络利用手动修饰结果作为DRL的优化目标。之后,排名过程执行类似的操作,如前所述。这两个网络将迭代地培训,并且可以帮助自动完成最终个性化美学评估。在第二阶段,这些修改的图像由一个样式特定分类器用美学属性标记,然后基于这些图像的多个美学属性生成个性化美学分布,这符合用户的美学偏好。

S$^2$-MLP: Spatial-Shift MLP Architecture for Vision Authors Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li最近,可视变压器vit及其以下作品放弃了卷积并利用自我注意的操作,达到比CNN相当或甚至更高的精度。最近,MLP混合器剥夺了卷积和自我注意的操作,提出了仅包含MLP层的架构。为了实现交叉贴片通信,除了通道混合MLP之外,它可以设计额外的令牌混合MLP。它在极大的规模数据集训练时实现了有希望的结果。但在培训上培训的中等规模数据集如ImageNet1k和Imagenet21k时,它无法实现作为其CNN和VIT对应的优异性能。 MLP混合器的性能下降激活我们重新思考令牌混合MLP。我们发现MLP混合器中的令牌混合操作是具有全局接收场和空间特定配置的深度卷积的变型。但全球接收领域和空间特定属性使得令牌混合MLP容易超过配件。在本文中,我们提出了一种新型纯MLP架构,空间移位MLP S 2 MLP。与MLP混合器不同,我们的2MLP仅包含通道混合MLP。我们设计了一种空间换档操作,以实现补丁之间的通信。它具有本地接收领域,是空间不可知论者。与此同时,它是免费和有效的计算。当在ImageNet 1K数据集上训练时,所提出的S 2 MLP比MLP混合器更高的识别精度。同时,S 2 MLP在Imagenet 1K数据集上实现了优异的性能,具有显着更简单的架构和更少的拖鞋和参数。

Comparing vector fields across surfaces: interest for characterizing the orientations of cortical folds Authors Amine Bohi, Guillaume Auzias, Julien Lef vre在表面上定义的VORES字段构成相关和有用的表示,但很少使用。一个原因可能是比较相同属的两个表面上的矢量字段并不是琐碎的,它需要将传染媒介字段从原始曲面传送到公共域。在本文中,我们提出了一个框架来通过差分几何概念将传染媒介字段映射到公共空间上来实现这项任务。所提出的框架使得能够计算矢量字段上的统计信息。我们对实际数据的应用展示了其兴趣,该实际数据具有定量评估描述皮质折叠模式的复杂几何形状的曲率方向的再现性。所提出的框架是一般的,可以应用于不同类型的矢量场和表面,允许在医学成像中大量高潜在的应用。

Automatically eliminating seam lines with Poisson editing in complex relative radiometric normalization mosaicking scenarios Authors Shiqi Liu, Jie Lian, Xuchen Zhan, Cong Liu, Yuze Tian, Hongwei Duan多个遥感图像之间的相对辐射归一化RRN MOSAICINING对于下游任务至关重要,包括地图制作,图像识别,语义分割和改变检测。然而,马赛克边界通常存在缝线,留下对比度,特别是在复杂的场景中,使马赛克图像的外观难看并降低后一种分类识别算法的准确性。本文呈现了一种新颖的自动方法,消除复杂的RRN Mosaicising场景中的缝线。它利用在重叠区域上的直方图匹配来缓解辐射对比度,泊松编辑以去除接缝线,并合并过程来确定归一化转移顺序。我们的方法可以处理具有任意形状和图像的镶嵌缝线,具有与小交叉区域的极端拓扑关系。这些条件使主要的羽化或混合方法,例如线性加权混合和拉普拉斯金字塔混合,不可用。在实验中,我们的方法目视超越了无泊松编辑的自动方法和使用GIMP软件的手动模糊和羽毛方法。

Partial success in closing the gap between human and machine vision Authors Robert Geirhos, Kantharaju Narayanappa, Benjamin Mitzkus, Tizian Thieringer, Matthias Bethge, Felix A. Wichmann, Wieland Brendel几年前,第一个CNN在Imagenet上超越了人类的表现。然而,它很快就会显然,机器缺乏对更具挑战性的测试用例的鲁棒性,这是一个主要障碍,朝着野外部署机器以及获得更好的人类视觉感知的计算模型。在这里,我们问我们在关闭人类和机器愿景之间的差距方面取得进展,以回答这个问题,我们通过录制90名参与者录制85,120的有效试验来计算人类观察员的广泛分销商品。然后,我们调查了一系列有前途的机器学习开发,这沿着三轴客观函数自我监督,对接地训练,剪辑语言图像训练,架构偏离标准监督CNN。视觉变压器和数据集大小从1米到1B。我们的研究结果是三倍。 1.人类和CNNS之间的长期鲁棒性差距正在关闭,最佳型号现在匹配或超过人类性能在大多数商品集上。 2.仍有实质性的图像水平一致性差距,这意味着人类比模型产生不同的错误。相比之下,大多数模型在分类错误中系统地同意,甚至基本上不同的模型自我监督与标准监督模型。 3.在许多情况下,人类模拟一致性在训练数据集大小增加一到三个数量级时提高。我们的结果赋予了谨慎乐观的理由,同时有很大的改进空间,人和机器视觉之间的行为差​​异是缩小。为了衡量未来的进展,提供了17个具有图像级别人身行为数据的数据集作为这里的基准

3rd Place Solution for Short-video Face Parsing Challenge Authors Xiao Liu, XiaoFei Si, JiangTao Xie短片有很多关于时尚潮流,热点,街道访谈,公共教育和创造性广告的应用。我们提出了一个边缘意识的网络EANET,它使用边缘信息来改进分割边缘。实验表明我们所提出的EA1ET靴子上面部解析结果。我们还使用像抓取切割这样的帖子过程,以改进并合并解析结果。

Dilated filters for edge detection algorithms Authors Ciprian Orhei, Victor Bogdan, Cosmin Bonchis边缘是图像处理中的基本和基本功能,可直接或间接使用大量应用程序。灵感来自图像分辨率的扩展和处理功率扩张的卷积技术。扩张的卷积在机器学习中具有令人印象深刻的结果,我们讨论了扩张在边缘检测算法中使用的标准滤波器的想法。在这项工作中,我们尝试使用我们使用的所有先前和当前结果组合在一起,而不是经典的卷积过滤器膨胀。我们使用具有原始滤波器或自定义变体的提出的扩张滤波器来比较边缘检测算法的结果。实验结果证实了我们的声明,滤波器的扩张对边缘检测算法的正面影响易于到相当复杂的算法。

Quality-Aware Network for Face Parsing Authors Lu Yang, Qing Song, Xueshi Xin, Zhiwei Liu这是一份非常简短的技术报告,介绍了团队Bupt Casia的解决方案,用于在CVPR 2021上的上下文图中的第三个人的短视脸解剖轨道和CVPR 2021的挑战。

Deep Transfer Learning for Brain Magnetic Resonance Image Multi-class Classification Authors Yusuf Brima, Mossadek Hossain Kamal Tushar, Upama Kabir, Tariqul Islam磁共振成像MRI是放射学领域的主要诊断方法,以创造患者解剖和生理结构的图像。 MRI是普遍存在的医学成像实践,以发现软组织异常。传统上,它们被放射学家分析,以检测软组织的异常,尤其是大脑。解释大量患者MRI的过程是费力的。因此,使用机器学习方法可以有助于以相当大的精度检测软组织的异常。在这项研究中,我们策划了一部小型数据集并开发了一种使用深度转移学习的框架,以在脑MRI图像中进行多分类肿瘤。在本文中,我们采用了深度剩余卷积神经网络Reset50架构,用于实验,以及训练模型的鉴别学习技术。使用新型数据集和两个公共可用的MRI脑数据集,这种方法在策划数据集中达到了86.40的分类准确性,93.80,在哈佛全大脑地图集数据集中,97.05次关于生物医学工程数据集学校的准确性。我们的实验结果显着展示了我们提出的转让学习框架是脑肿瘤多分类任务的潜在和有效方法。

Variational Quanvolutional Neural Networks with enhanced image encoding Authors Denny Mattern, Darya Martyniuk, Henri Willems, Fabian Bergmann, Adrian Paschke图像分类是各种机器学习应用中的重要任务。近年来,已经提出了许多基于量子机器学习和不同量子图像编码技术的分类方法。本文研究了三种不同量子图像编码方法对卷积的性能的影响,其卷积激发QUANCLICAL QNN的卷积感受型混合量子经典图像分类算法。我们进一步检查了变形的效果。可训练量子电路对分类结果。我们的实验表明,一些图像编码更适合变分路。然而,我们的实验表明也没有一个最佳的图像编码,而是编码的选择取决于应用程序的特定约束。

Computer Vision Tool for Detection, Mapping and Fault Classification of PV Modules in Aerial IR Videos Authors Lukas Bommes, Tobias Pickel, Claudia Buerhop Lutz, Jens Hauch, Christoph Brabec, Ian Marius Peters增加光伏光伏植物的部署需求便宜和快速检查。这项任务的可行工具是无人驾驶飞行器无人机的热敏成像。在这项工作中,我们开发了一个电脑视觉工具,用于从热量显着的UAV视频开始半自动提取光伏模块。我们使用它来策划包含430万IR图像的数据集,来自七种不同光伏工厂的热量摄影视频。为了展示其用于自动化光伏工厂检查的用途,我们训练Reset 50以分类十个具有超过90个测试精度的常见模块异常。实验表明,我们的工具概括为不同的光伏工厂。它成功从561行中的512中提取了PV模块。失败主要是由于UAV轨迹和错误的模块分段不适当。包括所有手动步骤,我们的工具可以检查每天3.5 MW P到9 MW P的PV装置,可能由于其平行性而导致多吉伐工厂。虽然我们提出了一种有效的自动化光伏工厂检查方法,但我们也相信我们的方法有助于满足机器学习任务的大型热量分数的需求,例如功率预测或无监督的缺陷识别。

Pixel Sampling for Style Preserving Face Pose Editing Authors Xiangnan Yin, Di Huang, Hongyu Yang, Zehua Fu, Yunhong Wang, Liming Chen基于现有的自动编码器的面向姿势编辑方法主要集中在姿势合成期间的身份保存能力,但能够正确地保护图像风格,这是指本文的颜色,亮度,饱和度等。我们采取众所周知的额外轮廓光学错觉并呈现一种新颖的两级方法来解决上述困境,其中面部姿势操纵的任务被铸造成面部染色。通过选择性地采样从输入面上的像素并用所提出的像素注意采样模块略微调整它们的相对位置,面部编辑结果忠实地保持身份信息以及图像样式不变。通过利用在染色阶段的高维嵌入,产生更精细的细节。此外,随着3D面部地标作为指导,我们的方法能够在三个自由度,即偏航,俯仰和辊中操纵面部姿势,从而产生比仅控制通常实现的横摆角更柔韧的面向姿势编辑现有技术。定性和定量评估均验证了所提出的方法的优势。

TimeLens: Event-based Video Frame Interpolation Authors Stepan Tulyakov, Daniel Gehrig, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza最先进的框架插值方法通过从连续关键帧中推断图像中的对象运动来生成中间帧。在没有附加信息的情况下,必须使用第一阶近似,即光流,但是这种选择限制了可以建模的运动类型,从而导致高度动态方案中的错误。事件摄像机是通过在帧之间的盲时间提供辅助视觉信息来解决此限制的新颖传感器。它们对每个像素亮度的异步测量变化,并以高时间分辨率和低延迟执行此操作。基于事件的帧插值方法通常采用基于合成的方法,其中预测帧残差直接应用于关键帧。然而,虽然这些方法可以捕获非线性动作,但它们遭受重影的患者,并且在少数事件中在低纹理区域中表现不佳。因此,基于合成的和流动的方法是互补的。在这项工作中,我们引入了时间镜头,一种新颖的表示相同的贡献方法,利用两者的优势。我们在三个合成和两个实际基准上广泛评估了我们的方法,在那里我们在基于框架和事件的方法的PSNR方面显示了高达5.21 dB的改进。最后,我们在高度动态方案中发布了一个新的大型数据集,旨在推动现有方法的限制。

Attention-based Domain Adaptation for Single Stage Detectors Authors Vidit, Mathieu Salzmann虽然在培训和测试数据遵循不同的分布时,用于改善对象探测器的性能的域适应,但之前的工作主要集中在两个阶段探测器上。这是因为他们使用区域提案使得可以进行局部适应,这已被证明可以显着提高适应效果。在这里,通过对比,我们针对单级架构,它们更适合于资源受限检测,而不是两个阶段,但不提供区域建议。尽管如此,从局部适应的实力中受益,我们介绍了一个关注机制,让我们确定适应应该关注的重要区域。我们的方法是通用的,可以集成到任何单级检测器中。我们通过将其应用于SSD和YOLO,在标准基准数据集中演示了这一点。此外,对于等效的单级架构,我们的方法始终优于艺术域适应技术的状态,即使它专门针对该特定检测器设计。

Deterministic Guided LiDAR Depth Map Completion Authors Bryan Krauss, Gregory Schroeder, Marko Gustke, Ahmed Hussein准确的密集深度估计对于自主车辆来分析环境至关重要。本文介绍了一种非深度学习的基于深度学习的方法,可以使用指导RGB图像致密稀疏的LIDAR深度图。为了实现这一目标,RGB图像首先从大多数相机LIDAR未对准工件清除。之后,它过度分段,并且每个超像素的平面近似。在超像素不受平面表示的情况下,平面近似用于最惰性的凸壳。最后,针孔摄像机模型用于插值过程,剩余区域被插入。使用Kitti Depth完成基准执行对该工作的评估,该基准验证所提出的工作,并表明它优于基于几种基于深度学习的方法的艺术非深度学习的方法的状态。

Automated Parking Space Detection Using Convolutional Neural Networks Authors Julien Nyambal, Richard Klein现在找到停车位成为一个不容忽视的问题,它消耗时间和能量。我们使用计算机视觉技术来推断出于从Witwatersrand大学收集的数据的停车场的状态。本文介绍了一种基于卷积神经网络CNN的实时停车空间分类方法,使用Caffe和NVIDIA框架。使用数字进行了培训过程,输出是用于检测空置和占用停车位的预测的CaffeModel。系统检查定义的区域是否在系统的初始化时定义的停车位限定框包含汽车或不占用或空置。这些边界框坐标从停车场的视频帧中以JSON格式保存,稍后被系统用于每个停车位的顺序预测。该系统已经使用Lenet网络与Nesterov加速梯度作为求解器和AlexNet网络的训练,随机梯度下降为求解器。我们能够在两个网络上获得99的验证集的准确性。外出数据集PKLOT的准确性为99。这些是基于训练集的实验结果,示出了当在不同的停车位进行预测时,系统可以是多么强大。

More Real than Real: A Study on Human Visual Perception of Synthetic Faces Authors Federica Lago, Cecilia Pasquini, Rainer B hme, H l ne Dumont, Val rie Goffaux, Giulia Boato在过去的几年里,深刻的假货也非常受欢迎,也归功于他们的现实主义的增加。因此,需要衡量人类的能力,以区分真实和合成的面部图像,当面对切削刃创建技术时。我们描述了我们进行的感知实验的设计和结果,其中广泛而多样化的志愿者已经暴露于由艺术生成的对抗网络所产生的综合性脸部图像即,PG GaN,Setygan,Stylegan2。实验结果揭示了我们应该有多强烈调查我们的人类能力,以识别通过现代AI产生的合成文件的真正面孔。

SGE net: Video object detection with squeezed GRU and information entropy map Authors Rui Su, Wenjing Huang, Haoyu Ma, Xiaowei Song, Jinglu Hu最近,基于深度学习的视频对象检测引起了越来越多的关注。与静态图像的对象检测相比,由于物体的运动,视频对象检测更具挑战性,同时提供丰富的时间信息。基于RNN的算法是增强具有时间信息的视频中的检测性能的有效方法。然而,在这方面的大多数研究仅关注准确性,同时忽略计算成本和参数的数量。

Context-Aware Image Inpainting with Learned Semantic Priors Authors Wendong Zhang, Junwei Zhu, Ying Tai, Yunbo Wang, Wenqing Chu, Bingbing Ni, Chengjie Wang, Xiaokang Yang图像染色的最新进展显示了在相当简单的背景上产生合理的视觉细节的令人印象深刻的结果。然而,对于复杂的场景,恢复合理的内容仍然具有挑战性,因为缺失区域内的上下文信息往往是暧昧的。为了解决这个问题,我们介绍了语义上有意义的借口任务,估计缺失的内容。特别是,我们在借口模型上执行知识蒸馏,并使特征适应图像修复。学习的语义前瞻应该是在高级借口任务和低级图像修复之间部分不变,这不仅有助于了解全局背景,而且还提供了对恢复本地纹理的结构指导。基于语义前导者,我们进一步提出了一种上下文感知图像修复模型,其在统一图像生成器中自适应地集成了全局语义和本地特征。语义学习者和图像发生器终止于结束方式培训。我们将模型SPL命名为突出其学习和利用语义前瞻的能力。它达到了Place2,Celeba和Paris Streetview数据集的最先进。

Over-Fit: Noisy-Label Detection based on the Overfitted Model Property Authors Seulki Park, Dae Ung Jo, Jin Young Choi由于需要在大规模数据集中处理嘈杂的标签问题,近年来,使用嘈杂标签学习噪声的噪音很大。作为一个有希望的方法,最近有研究通过在深度神经网络过度接触嘈杂的标签数据之前找到清洁培训数据。但是,防止过度装备有挑战性。在本文中,我们通过在各个数据点上采用过拟合的性质提出了一种新的嘈杂标签检测算法。为此,我们提出了两种新标准,统计测量每个训练样本异常影响模型和清洁验证数据的数量。使用标准,我们的迭代算法消除了嘈杂的标签样本并交替地检测模型,直到没有进一步进行性能改进。在对多个基准数据集的实验中,我们展示了我们的算法的有效性,并表明我们的算法在未给出精确的噪声速率时优于现有技术的状态。此外,我们表明我们的方法不仅可以扩展到真实的世界视频数据集,还可以被视为解决由过度装备引起的问题的正则化方法。

Hard Samples Rectification for Unsupervised Cross-domain Person Re-identification Authors Chih Ting Liu, Man Yu Lee, Tsai Shien Chen, Shao Yi Chien人员重新识别重新识别与监督学习方法充满了巨大的成功。但是,无监督的跨域RE ID的任务仍然具有挑战性。在本文中,我们提出了一种硬样品整流HSR学习方案,其解决了基于群体的原始聚类方法的弱点,该方法容易受到目标未标记数据集中的硬质和阴性样本的影响。我们的HSR包含两部分,这是一个不同的相机挖掘方法,有助于识别不同视角的人,使模型区分不同的人,但具有相似的外观难以识别不同的均匀性技术。通过纠正这两个硬壳,RE ID模型可以有效地学习,并在两个大规模基准上实现有希望的结果。

Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video Super-Resolution Authors Young Ju Choi, Young Woon Lee, Byung Gyu Kim视频超分辨率VSR旨在从低分辨率LR帧估计高分辨率HR帧。 VSR的关键挑战在于在帧内帧内的空间相关性和连续帧之间的时间依赖性的有效利用。然而,最先前的大部分方法相同地处理不同类型的空间特征,并从分离的模块中提取空间和时间特征。它导致缺乏获得有意义的信息并增强细节。在VSR中,存在三种类型的时间建模框架2D卷积神经网络CNN,3D CNN和经常性神经网络RNN。其中,基于RNN的方法适用于顺序数据。因此,通过使用相邻帧的隐藏状态可以大大提高SR性能。然而,在经常性结构中的每一步骤中,基于RNN的先前作品利用了相邻特征限制性。由于每个时间步长的可访问运动范围缩小,因此仍有限制恢复动态或大运动的缺失细节。在本文中,我们提出了基于基于基于基于的BI定向反复间小波神经网络GBR Wnn,以有效地用于VSR的顺序数据和时空时间信息。基于组的BI定向RNN GBR时间建模框架建立在具有图片GOP的良好结构化过程中。我们提出了一个时间小波临时的TWA模块,其中用于空间和时间特征都采用了注意力。实验结果表明,与定量和定性评估的技术方法相比,该方法实现了卓越的性能。

Sejong Face Database: A Multi-Modal Disguise Face Database Authors Usman Cheema, Seungbin Moon面部识别的商业应用要求对各种挑战的鲁棒性,如照明,遮挡,欺骗,伪装等。伪装的人脸识别是访问控制系统的新出现问题之一,例如边界处的安全检查点。然而,缺乏具有各种伪装成额的面部数据库的可用性限制了该地区学术研究的发展。在本文中,我们提出了一种多模式伪装脸部数据集,以促进伪装的面部识别研究。呈现的数据库包含8个面部添加ONS和7个附加组合,这些添加ONS创建各种伪装的面部图像。每个面部图像被捕获在可见,可见的加红外,红外和热谱中。具体而言,数据库包含100个被分为子集30个受试者的受试者,每个模态和子集B 70对象,每个模态为5个图像。我们还呈现对所提出的数据库执行的基线面部检测结果以提供参考结果并比较不同模式中的性能。进行定性和定量分析,以评估伪装额外的挑战性质。数据集将公开接受研究文章。数据库可用

2rd Place Solutions in the HC-STVG track of Person in Context Challenge 2021 Authors YiYu, XinyingWang, WeiHu, XunLuo, ChengLi在本技术报告中,我们提出了我们的解决方案,以根据句子本地化一个不明测的视频中的一个时空时间人员。在上下文图片挑战中,我们在第三个人的HC STVG轨道中实现了第二viou 0.30025。我们的解决方案包含三个部分1人类属性信息从句子中提取信息,在测试阶段过滤掉管建议并监督我们的分类器以学习培训阶段的外观信息是有帮助的。 2我们用yolov5检测人类,基于Deadsort框架,追踪人类,但用泥泞的方式取代原来的Reid网络。图3示出了视觉变压器来提取用于定位目标人的时空时间管的跨模型表示。

Self-training Guided Adversarial Domain Adaptation For Thermal Imagery Authors Ibrahim Batuhan Akkaya, Fazil Altinel, Ugur Halici在大型RGB图像数据集上培训的深层模型表明了巨大的成功。对现实世界的问题应用这种深层模型很重要。然而,这些模型在照明变化下遭受了性能瓶颈。热量红外摄像机对这种变化更加稳健,因此对于真实世界问题来说非常有用。为了调查组合特征的效率丰富的可见光谱和热图像方式,我们提出了一种无监督的域适应方法,该方法不需要RGB到热图像对。我们使用大规模的RGB数据集MS Coco作为源域和热数据集FLIR ADAS作为目标域,以演示我们的方法的结果。虽然对抗域适配方法旨在对准源域和目标域的分布,但只需对齐分布不能保证对目标域的完美泛化。为此,我们提出了一种自我训练引导的对抗域适应方法,以促进对抗域适应方法的泛化能力。为了进行自我训练,将伪标签分配给目标热域上的样本,以了解目标域的更多广泛表示。广泛的实验分析表明,我们所提出的方法比现实的对抗域适应方法的状态达到更好的结果。代码和模型是公开可用的。

Object-Guided Instance Segmentation With Auxiliary Feature Refinement for Biological Images Authors Jingru Yi, Pengxiang Wu, Hui Tang, Bo Liu, Qiaoying Huang, Hui Qu, Lianyi Han, Wei Fan, Daniel J. Hoeppner, Dimitris N. Metaxas实例分割对于许多生物学应用,例如神经细胞相互作用,植物表型化和定量测量细胞对药物治疗的影响的研究非常重要。在本文中,我们提出了一种基于盒的实例分段方法。基于框的实例分段方法通过边界框捕获对象,然后在每个边界框区域内执行单独的分段。然而,由于其类似的纹理和低对比度边界,现有方法几乎不能将目标与相同边界框区域内的相邻对象区分开来。要处理此问题,请在本文中提出了一种对象引导实例分段方法。我们的方法首先检测对象的中心点,然后预测边界框参数。为了执行分割,与检测分支一起建立一个对象引导粗略分段。分段分支重用对象特征作为指导,以将目标对象与相同边界框区域内的相邻目标分开。为了进一步提高分割质量,我们设计了一种辅助特征改进模块,其密集地样本和精确边界区域中的点明智特征。三个生物图像数据集的实验结果证明了我们方法的优点。代码将可用

Selection of Source Images Heavily Influences the Effectiveness of Adversarial Attacks Authors Utku Ozbulak, Esla Timothy Anzaku, Wesley De Neve, Arnout Van Messem虽然近年来,近年来深度神经网络DNN的采用率大幅增加,但尚未发现对抗对抗性示例的脆弱性的解决方案。因此,大量的研究工作致力于解决这种弱点,许多研究通常使用源图像的子集来生成对手示例,将该子集中的每个图像视为相等。我们证明,事实上,不是每个来源图像都同样适用于这种评估。为此,我们将大规模模型设计为模型转移性场景,我们通过利用两个最常见的部署攻击来分析来自想象成中的每个合适的源图像中的每个合适的源图像生成的性质。在这种可转移性方案中,涉及七种不同的DNN模型,包括最近提出的视觉变压器,我们揭示了模型中最多12.5的差异,以模拟转移性成功,平均l 2扰动为1.01和0.03 8在所有合适的候选者中随机采样1,000个源图像时,平均L 225平均扰动。然后,我们采取第一个步骤中的一个评估用于创造逆势示例的图像的稳健性,提出了许多简单但有效的方法来识别不合适的源图像,从而可以减轻实验中的极端情况并支持高质量的基准。

SinIR: Efficient General Image Manipulation with Single Image Reconstruction Authors Jihyeong Yoo, Qifeng Chen我们提出SINIR,一个有效的基于重建的基于重建的框架,用于一般图像操作,包括超级分辨率,编辑,协调,图像,照片现实风格转移和艺术风格转移。我们在具有级联的多尺度学习的单个图像上培训我们的模型,每个刻度的每个网络都负责图​​像重建。与GAN目标相比,这种重建目标大大降低了培训的复杂性和运行时间。然而,重建目标也加剧了产出质量。因此,为了解决这个问题,我们进一步利用了简单的随机像素洗牌,这也可以控制操纵,由去噪自动化器的启发。随着定量评估,我们表明SINIR在各种图像操纵任务方面具有竞争性能。此外,通过更简单的培训目标,即,重建,SINIR培训比SINGAN更快33.5倍,对于500 x 500图像来解决类似的任务。我们的代码公开提供

Bayesian dense inverse searching algorithm for real-time stereo matching in minimally invasive surgery Authors Jingwei Song, Qiuchen Zhu, Jianyu Lin, Maani Ghaffari本文报告了CPU级实时立体声匹配方法,用于在640 480图像上进行外科图像10 Hz,具有I5 9400的单个核心。所提出的方法基于快速密集的逆搜索算法构建,其估计立体图像的视差。重叠图像修补来自不同刻度的图像的任意平方图像段基于光度致力量预测对齐。我们提出了一个贝叶斯框架,以评估不同尺度的优化斑块差异的概率。此外,我们介绍了一种空间高斯混合概率分布,以解决补丁内的像素明显概率。在体内和合成实验中表明,我们的方法可以处理因陶瓷表面和由兰伯语反射率引起的光度不一致而导致的模糊性。我们的贝叶斯方法正确地平衡了不同尺度的立体图像的补丁的概率。实验表明,估计深度具有更高的精度和比外科情景中的基线方法更少的异常值。

Discerning the painter's hand: machine learning on surface topography Authors F. Ji, M. S. McMaster, S. Schwab, G. Singh, L. N. Smith, S. Adhikari, M. O Dwyer, F. Sayed, A. Ingrisano, D. Yoder, E. S. Bolman, I. T. Martin, M. Hinczewski, K. D. Singer绘画的归属是艺术史的关键问题。本研究扩展了机器学习分析对涂漆作品的表面形貌。对积极归因的对照研究是设计了一类艺术学生制作的绘画。使用共聚焦光学探测器扫描绘画以产生表面数据。将表面数据分为虚拟斑块,并用于训练卷积神经网络CNN的集合以进行归因。在0.5至60 mm的一系列贴片大小范围内,发现所产生的归属于60至96精确,并且当使用不同颜色的区域进行比较时的两倍是使用绘画颜色图像的CNN准确的两倍。值得注意的是,短长度鳞片,小于刷毛直径的两倍,是可靠区分艺术家的关键。这些结果表明了真实世界的归属,特别是在研讨会练习的情况下。

Reducing Effects of Swath Gaps on Unsupervised Machine Learning Models for NASA MODIS Instruments Authors Sarah Chen, Esther Cao, Anirudh Koul, Siddha Ganju, Satyarth Praveen, Meher Anand Kasam由于其途径的性质,美国宇航局街区和NASA Aqua卫星捕获含有Swath间隙的图像,这是没有数据的领域。 SWATH间隙可以完全与利益区域重叠,通常通过机器学习ML型号无法使用的整个图像。当ROI很少发生时,该问题进一步加剧。飓风和发生在发生的情况下,部分重叠。通过注释数据作为监督,模型可以学习区分聚焦领域和SWATH间隙。但是,注释是昂贵的,目前绝大多数现有数据都未被解除。因此,我们提出了一种增强技术,其显着地消除了SWATH间隙的存在,以便允许CNN集中在ROI上,从而成功地使用带有SWATH间隙的数据进行训练。我们在UC Merced Land使用数据集上实验,在那里我们通过空的多边形添加了最多20%的区域,然后施加增强技术来填补条形间隙。我们将培训的模型与我们的增强技术进行了培训,在Swath差距上填充数据,模型在原始的SWATH间隙上培训的模型更少数据并注意高度增强性能。此外,我们使用激活地图进行定性分析,可视化我们训练有素的网络的有效性,不关注SWATH间隙。我们还通过人类基线评估我们的结果,并表明,在某些情况下,填充的条形间隙看起来如此逼真,即使是人类评估员也没有区分原始卫星图像和SWATH间隙填充图像。由于该方法针对未标记的数据,因此来自各种空间数据域的大规模未经讨论的数据集是广泛的宽大宽大的。

On-Off Center-Surround Receptive Fields for Accurate and Robust Image Classification Authors Zahra Babaiee, Ramin Hasani, Mathias Lechner, Daniela Rus, Radu Grosu照明条件的变化的鲁棒性是任何深视觉系统的关键目标。为此,我们的论文扩展了卷积神经网络的接受领域,具有两个残余组件,在中心和关闭中心途径上的脊椎动物的视觉处理系统中,具有兴奋中心和抑制环绕的OOC。通过其中心的光刺激存在但不在环绕着的光刺激性,而偏离中心是通过其中心的光刺激而兴奋的,而不是在其环绕声中兴奋。我们通过Gaussians的差异设计OOC途径,其方差与接收领域的大小分析计算。 OOCS途径在响应光刺激的响应中相互补充,确保这种方式强的边缘检测能力,结果,在具有挑战性的照明条件下准确且稳健的推理。我们提供广泛的经验证据,显示与标准深层模型相比,随着OOC的边缘表示提供的网络,获得精度和照明鲁棒性。

Survey: Image Mixing and Deleting for Data Augmentation Authors Humza Naveed数据增强已被广泛用于提高深形网络的性能。提出了许多方法,例如,辍学,正则化和图像增强,以避免过度发出和增强神经网络的概括。数据增强中的一个子区域是图像混合和删除。这种特定类型的增强可以混合两个图像或删除图像区域以隐藏或制定对网络困惑的图像的某些特征,以强迫它强调图像中对象的整体结构。使用这种方法培训的模型表明,与没有起步混合或删除的培训相比,该模型表现得很好。这种培训方法实现的额外福利是对图像损坏的鲁棒性。由于其近来的低计算成本和成功,提出了许多图像混合和删除技术。本文对这些设计的方法提供了详细的审查,将增强策略分为三个主要类别,切割和删除,切割和混合和混合。纸张的第二部分是对图像分类的这些方法,精细的图像识别和对象检测,其中显示了这类数据增强提高了深度神经网络的整体性能。

A baseline for semi-supervised learning of efficient semantic segmentation models Authors Ivan Grubi i 1 , Marin Or i 1 , Sini a egvi 1 1 University of Zagreb, Faculty of Electrical Engineering and Computing 由于像素级别的实际高成本,半监督学习在密集的预测上下文中特别有趣。不幸的是,大多数此类方法在过时的架构上评估了由于训练非常慢的GPU RAM的训练和高要求而受到研究。我们通过呈现一个简单而有效的基线来解决这一问题,这些基线在标准和高效的架构上运作。我们的基线基于一种方式,一致性和非线性几何和光度扰动。我们表现​​出仅扰动学

标签: 熵指数传感器entropyo热膨胀监视仪传感器mc7815ct集成电路to贴片集成电路mc33161lh19传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台