AI视野·今日CS.CV 计算机视觉论文速读 Tue, 18 May 2021 (showing first 100 of 106 entries) Totally 100 papers ???更精彩请移动主页
Daily Computer Vision Papers
Divide and Contrast: Self-supervised Learning from Uncurated Data Authors Yonglong Tian, Olivier J. Henaff, Aaron van den Oord自我监督学习承诺使用大量未标记的数据,但到目前为止,其大部分进展仅限于高度计划的预培训数据,如想象。我们探讨了对比学习从较大,较大的策划图像数据集如YFCC发现产生的表示质量差异很大。我们假设这种政策的差距是由于图像类别分布的变化,这是一个更加多样化和重尾的尾巴,导致学习相关负样本较少。我们用一种新的方法来划分和比较DNC测试这个假设,它在基于对比的努力挖掘之间交替。掠夺较少的规划数据集时,DNC它大大提高了自我监督学习对下游任务的性能,同时仍然与规划数据集的最新状态具有竞争力。 |
The Boombox: Visual Reconstruction from Acoustic Vibrations Authors Boyuan Chen, Mia Chiquier, Hod Lipson, Carl Vondrick我们介绍了使用声学振动容器重建其内容图像的臂盒。当物体与容器相互作用时,它们会产生小的声学振动。精确的振动特性取决于盒子和物体的物理特性。我们演示了如何使用这个附带信号来预测视觉结构。学习后,我们的方法仍然有效,即使机,我们的方法仍然有效。虽然我们使用低成本和低功耗的麦克风来检测振动,但结果表明,从多模态数据中学习可以将廉价的声学传感器转化为丰富的视觉传感器。由于容器无处不在,我们相信将感知集成到它们中,将在人类计算机交互和机器人中实现新的应用。我们的项目网站在 |
A Light Stage on Every Desk Authors Soumyadip Sengupta, Brian Curless, Ira Kemelmacher Shlizerman, Steve Seitz每次坐在电视或显示器前,你的脸都会被时间变化的光照亮。本文建议此时使用不同的照明,以满足任何新的照明条件。当我们这样做的时候,我们Debevec在轻阶段工作中获得灵感。,他们首先展示了在受控照明环境中捕获的人的能力。虽然现有的光级需要昂贵的房间标度球形捕获龙门,但在世界上只有一些实验室存在,我们演示了如何从普通电视或台式机监视器获取有用的数据。而不是让用户对快速闪烁的光图案感到不舒服,而是让用户观看YouTube在用户的图像上运行视频或其他标准内容。在图像上培训深度网络和给定用户的监控模式,并学会在任何目标照明监控模式下预测用户的图像。实验评估表明,我们的方法产生了真正的感知结果。可以使用视频结果 |
StrobeNet: Category-Level Multiview Reconstruction of Articulated Objects Authors Ge Zhang, Or Litany, Srinath Sridhar, Leonidas Guibas我们呈现STROBET,用于从一个或多个未铺设的一个RGB图像铰接对象的类别水平三维重建方法。一般铰接对象类别的重建具有重要的应用,但由于形状宽、铰接、外观和拓扑的变化而具有挑战性。我们通过构建类别级别铰接标准化映射观察的概念来解决这一点,从而对应于免费的多视图聚合。我们的终端训练神经网络估计具有丰富的特点D点云、铰接接头和一个或多个未铺设图像的分段。这些中间估计用于生成最终隐式3D重建。如果在大基线图像中的不同铰接中观察到它们,并重建形状的动画,即使在不同铰接中观察到对象。不同对象类别的定量和定性评估表明,我们的方法可以实现高重建精度,特别是添加更多的视图。 |
Learning to Automatically Catch Potholes in Worldwide Road Scene Images Authors J. Javier Yebes, David Montero, Ignacio Arriola坑洞是世界上任何铺设方式存在的几种道路危险中最烦人的,也涉及到更高的维护成本之一。这些危害的自动检测通过技术和研究进展越来越有趣。我们的研究解决了真实世界道路场景图像坑检测的挑战。住在主要的新颖性AI最新进展中的应用,了解坑洞的视觉外观。我们建立了一个带有坑注释的大型图像数据集。它们包含来自世界各地不同城市的道路场景,使用不同的相机、车辆和观点。然后,根据更快的速度,我们R CNN和SSD微调四种不同对象检测模型的深神经网络。我们实现了高平均精度NVIDIA DrivePX坑洞检测器在平台上进行了测试,GPGPU能力可嵌入车辆。此外,它还部署在真正的车辆上,通知检测到的坑洞IOT平台作为AutoPilot H2020年项目的一部分。 |
Unknown-box Approximation to Improve Optical Character Recognition Performance Authors Ayantha Randika, Nilanjan Ray, Xiao Xiao, Allegra Latimer光学字符识别OCR模式识别应用广泛应用于许多域。有几种功能丰富,通用OCR消费者可以提供解决方案,可以提供适度的精度水平。但是,有困难和罕见的文档域可以降低精度。预处理文档图像可用于最小化域移位。本文介绍了一种用于给定的OCR创建定制预处理器的新方法。与先前的OCR不可知的预处理技术不同,所提出的方法近似于特定OCR发动机训练预处理器模块的梯度。两个数据集和两个数据集OCR发动机实验表明,提出的预处理器可以通过将像素级操作应用于文档图像来改进基线OCR精度高达46。可以下载提出的方法,增强公共数据集的实现。 |
Pseudo-Label Ensemble-based Semi-supervised Learning for Handling Noisy Soiling Segmentation Annotations Authors Michal Uricar, Ganesh Sistu, Lucie Yahiaoui, Senthil Yogamani环绕视图相机的手动注释污染是一项非常具有挑战性和昂贵的任务。各种污染类别(水滴或泥浆颗粒)的阴影不明确,通常导致注释质量大方差。因此,在这种较差的数据中训练的模型远不是最好的。在本文中,我们专注于通过伪标签驱动的集合模型来处理这种嘈杂的注释,这使我们能够快速发现问题注释,并在大多数情况下足够固定它们。我们在嘈杂精致的标签上培养污染分割模型,用精细的注释表现出显著的改进。它还显示了可有效地改进更低的成本粗略注释。 |
Rethinking the Design Principles of Robust Vision Transformer Authors Xiaofeng Mao, Gege Qi, Yuefeng Chen, Xiaodan Li, Shaokai Ye, Yuan He, Hui Xue最近关于视觉变压器Vit的进步表明,基于自我关注的网络,利用长距离依赖性建模能力,超过了大多数愿景任务中的传统卷积神经网络CNN。为了进一步扩展对计算机视觉的适用性,提出了许多改进的变体来通过考虑CNNS,即地点,翻译不变性的优势来重新设计变压器架构,以实现更好的性能。但是,这些方法仅考虑模型的标准精度或计算成本。在本文中,我们根据稳健性重新思考VITS的设计原则。我们发现一些设计组件极大地损害了VIT的鲁棒性和泛化能力,而其他人则是有益的。通过组合强大的设计组件,我们提出了强大的视觉变压器RVT。 RVT是一款新的视觉变压器,具有卓越的性能和强大的鲁棒性。我们进一步提出了两个新的即插即用技巧,称为位置感知注意重新调整和修补明智的增强以培训我们的RVT。关于Imagenet和六个稳健性基准的实验结果表明,与先前的变压器和最先进的CNNS相比,RVT的先进鲁棒性和泛化能力。我们的RVT S还在多个强大排行榜上实现了前1个等级,包括想象成C和Imagenet草图。代码将可用 |
BigEarthNet-MM: A Large Scale Multi-Modal Multi-Label Benchmark Archive for Remote Sensing Image Classification and Retrieval Authors Gencer Sumbul, Arne de Wall, Tristan Kreuziger, Filipe Marcelino, Hugo Costa, Pedro Benevides, M rio Caetano, Beg m Demir, Volker Markl本文介绍了由590,326对的哨声1和Sentinel 2图像补丁组成的多模态大性的Bigearthnet MM基准档案,以支持多模态多标签遥感RS图像检索和分类中的深度学习DL研究。 Bigearthnet MM中的每对贴片都以2018年主题最详细的3级命名法提供了2018年的Corine Land Clc Map提供的多标签。我们的初步研究表明,只要考虑单日大型世纪MM图像,某些CLC类就可以准确描述。在本文中,我们还将另一种类命名法作为原始CLC标签的演变引入,以解决这个问题。这是通过基于在19类的新命名法中的Bigearthnet MM图像的特性来解释和安排CLC级别3命名来实现。在我们的实验中,我们通过考虑若干艺术DL模型的状态来显示大模型多标签图像检索和分类问题的Bigearthnet MM的潜力。我们还证明,从划痕上培训的DL模型在MIGEANET上占据了预先培训的那些,特别是与某些复杂的课程相关,包括农业和其他植被和自然环境。我们将所有数据和DL型号公开提供 |
Large-Scale Unsupervised Person Re-Identification with Contrastive Learning Authors Weiquan Huang, Yan Bai, Qiuyu Ren, Xinbo Zhao, Ming Feng, Yin Wang由于标签难度,现有的公共人员重新识别Reid DataSets在现代的情况下较小。虽然未标记的监控视频丰富,但相对容易获得,但目前尚不清楚如何利用这些镜头来学习有意义的Reid表示。特别是,最现有的无监督和域适应Reid方法仅在其实验中使用公共数据集,并删除标签。此外,由于数据尺寸小,这些方法通常依赖于测试域中的未标记培训数据进行微调,以实现良好的性能。灵感来自最近使用对比学习的大规模自我监督图像分类的进展,我们建议仅从大规模未标记的监视视频中学习Reid代表。从架子行人检测工具辅助,我们在图像和轨迹级施加对比损耗。与使用相机标签自由可用的主要成分分析步骤一起,我们使用大规模未标记的数据集进行评估在不使用测试域中的任何培训数据的无监督方法中显示出远远卓越的性能。此外,准确性提高了数据大小,因此我们的方法具有巨大的潜力,具有更大且多样化的数据集。 |
Multi-object Tracking with Tracked Object Bounding Box Association Authors Nanyang Yang, Yi Wang, Lap Pui ChauCentractrack跟踪算法使用简单的检测模型和单帧空间偏移来实现最简单的检测模型和单帧空间偏移来定位对象并预测其在单个网络中的关联。然而,由于较差的方法,这种联合检测和跟踪方法仍然存在高标识开关。为了减少大量的身份开关并提高跟踪精度,在本文中,我们建议基于当前帧的简单跟踪的对象边界框和基于当前帧的重叠预测到中心到Centractrack算法。具体地,我们提出了在关联步骤中的联盟IOO距离成本矩阵的交叉点,而不是简单的点位移距离。我们在MOT17测试数据集上评估我们所提出的跟踪器,显示我们所提出的方法可以显着减少22.6的标识开关,并与同一轨迹寿命下的原始CenterTrack S相比,在IDF1中获得1.5中的值得注意的改进。源代码已释放 |
Learning to Relate Depth and Semantics for Unsupervised Domain Adaptation Authors Suman Saha, Anton Obukhov, Danda Pani Paudel, Menelaos Kanakis, Yuhua Chen, Stamatios Georgoulis, Luc Van Gool我们介绍了一种用于编码视觉任务关系的方法,以提高无监督域适应UDA设置中的模型性能。语义分割和单眼深度估计被示出为多任务学习设置中的互补任务,它们的关系的正确编码可以进一步提高两个任务的性能。通过这种观察,我们提出了一种新颖的跨任务关系层CTRL,其在语义和深度预测之间编码任务依赖性。要捕获跨任务关系,我们提出了一种神经网络架构,其中包含特定的任务和跨任务细化头。此外,我们提出了一种迭代自学习ISL培训计划,该培训计划利用语义伪标签来为目标域提供额外的监督。我们通过实验地观察两个任务性能的改进,因为这些任务中存在的互补信息更好地捕获。具体而言,我们表明,我们的方法可以提高所有任务的性能,当它们是互补和相互依赖的2,CTRL有助于改善挑战UDA设置3中的语义分割和深度估计任务性能,提出的ISL训练方案进一步提高了语义分割表现。实施是可用的 |
Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space Authors Lin Wu, Teng Wang, Changyin Sun视觉地位识别是机器人领域的必不可少和挑战性问题之一。在这封信中,我们首次探索使用Dynamics不变空间中的语义和视觉模型的多模态融合来改善动态环境中的地点识别。我们通过首先设计新的深度学习架构来实现静态语义分割并直接从相应的动态图像恢复静态图像来实现这一点。然后,我们创新地利用空间金字塔匹配模型将静态语义分段编码为特征向量。并行地,使用流行的单词模型进行编码静态图像。在上述多模态特征的基础上,我们最终测量查询图像与目标地标之间的相似性,通过其语义和视觉代码的联合相似性。广泛的实验证明了在动态环境中识别识别方法的有效性和稳健性。 |
STRIDE : Scene Text Recognition In-Device Authors Rachit S Munjal, Arun D Prabhu, Nikhil Arora, Sukumar Moharana, Gopi Ramena光学字符识别OCR系统已广泛用于各种应用中,用于从图像中提取语义信息。为了让用户更控制他们的隐私,需要在设备上解决方案。本领域的当前状态太重而且复杂地部署在设备上。我们开发了一个高效的轻量级现场文本识别str系统,其参数只有0.88米,并执行实时文本识别。注意模块倾向于提高STR网络的准确性,但通常是慢性且未优化用于设备推断。因此,我们建议使用卷积注意模块到文本识别网络,该网络旨在通过添加非常最小的计算成本来向LSTM模块提供通道和空间注意信息。它若要提高了ICDAR 13 DataSet的语言准确性差不多2。我们还介绍了一种新颖的方向分类器模块,以支持同时识别水平和垂直文本。所提出的模型在与领先的商业和其他开源OCR发动机相比时,拟议的推测时间和内存占用装置的设备度量和内存占用尺寸。我们在Exynos 990芯片组设备上将系统部署在设备上,推断速度为2.44 ms的推断速度,并在ICDAR 13 DataSet上实现了88.4的准确性。 |
Temporal Prediction and Evaluation of Brassica Growth in the Field using Conditional Generative Adversarial Networks Authors Lukas Drees, Laura Verena Junker Frohn, Jana Kierdorf, Ribana Roscher农民经常评估植物的生长和性能作为决定在现场采取行动的决定,例如施肥,杂草控制或收获。植物生长的预测是一项重大挑战,因为它受到众多和高度可变的环境因素的影响。本文提出了一种新颖的监测方法,包括高通量成像传感器测量及其自动分析,以预测未来的工厂生长。我们的方法S核心是一种基于新型机器学习的基于条件生成对抗网络的生长模型,能够预测个体植物的未来外观。在实验与RGB时间序列的实验室种植拟南芥图像和田间种植的花椰菜植物,我们表明我们的方法会产生现实,可靠,合理的未来增长阶段的图像。通过神经网络的实例分段自动解释产生的图像允许衍生描述植物生长的各种表型特征。 |
HCRF-Flow: Scene Flow from Point Clouds with Continuous High-order CRFs and Position-aware Flow Embedding Authors Ruibo Li, Guosheng Lin, Tong He, Fayao Liu, Chunhua Shen3D点云中的场景流在了解动态环境中起着重要作用。尽管深度神经网络已经进行了重大进展,但由于仅考虑每个点平移运动,忽视局部地区刚性运动的约束,因此性能远非令人满意。为了解决这个问题,我们建议介绍运动一致性以强制邻近点之间的平滑度。此外,还通过为每个局部区域内的所有点共享唯一的刚性运动参数来添加对局部变换的刚性的约束。为此,部署了基于高阶CRFS的关系模块Con HCRF,以探索点的光度明智的平滑度和区域明智的刚性。为了使CRFS具有判别的联合术语,我们还介绍了将一个位置感知流程估计模块纳入CON HCRF。 Flyinghings3d和Kitti的综合实验表明,我们提出的框架HCRF流程实现了最新的性能,并显着优于先前的方法。 |
Cross-Modality Brain Tumor Segmentation via Bidirectional Global-to-Local Unsupervised Domain Adaptation Authors Kelei He, Wen Ji, Tao Zhou, Zhuoyuan Li, Jing Huo, Xin Zhang, Yang Gao, Dinggang Shen, Bing Zhang, Junfeng Zhang来自多模态磁共振的脑肿瘤的精确分割对于脑肿瘤诊断和治疗至关重要。然而,由于不同模式之间的域移位的存在,当在一个模态上训练并在另一个模式上进行训练并且在T1图像上进行训练时,网络的性能显着降低,同时在T2图像上进行T1图像,这在临床应用中通常需要。这也禁止网络在标记数据上培训,然后从不同的域转移到未标记的数据。为了克服这一点,无监督的域适应UDA方法提供有效的解决方案,以减轻标记的源数据和未标记的目标数据之间的域移位。在本文中,我们在UDA方案下提出了一种新颖的双向全球到本地BIGL适应框架。具体地,提出了一种双向图像合成和分割模块,用于使用为两个域生成的中间数据分布分段,其包括到图像转换器的图像和共享加权分段网络。此外,提出了全局到局部一致性学习模块以以集成方式构建鲁棒的表示对齐。在多模态大脑MR基准数据集上进行了广泛的实验表明,所提出的方法优于众所周知的域域改变方法的大幅度,而全面的消融研究验证了每个关键组件的有效性。我们方法的实施代码将以URL发布 |
EA-Net: Edge-Aware Network for Flow-based Video Frame Interpolation Authors Bin Zhao, Xuelong Li视频帧插值可以上升帧速率并增强视频质量。近年来,虽然插值表现取得了巨大的成功,但由于大动作,图像模糊通常发生在物体边界处。这是一个很长的问题,尚未得到解决。在本文中,我们建议通过保留内插帧中的边缘来减少图像模糊并获得清晰的物体形状。为此,所提出的边缘感知网络EA NET将边缘信息集成到帧插值任务中。它遵循结束到端架构,可以分为两个阶段,EMPE导向流量估计和边缘保护帧合成。具体地,在流程估计阶段,开发了三个边缘意识机制以强调估计流程图中的帧边缘,使得边缘映射被视为辅助信息,以提供更多的引导以提高流量精度。在框架合成阶段,流动细化模块被设计成优化流程图,并且在合成中间帧时,将注意模块进行以自适应地聚焦在双向流程图上。此外,采用框架和边缘鉴别器来进行对抗性训练策略,以提高合成框架的现实和清晰度。在三个基准测试中,包括Vimeo90k,UCF101为单帧插值和多帧插值的Adobe240 FPS,已经展示了用于视频帧插值任务的建议EA网的优越性。 |
Voxel-level Siamese Representation Learning for Abdominal Multi-Organ Segmentation Authors Chae Eun Lee, Minyoung Chung, Yeong Gil Shin最近在医学图像分割中的作品已积极探索各种深度学习架构或客观函数,以便由于图像注释有限,从容量数据编码高级功能。然而,大多数现有方法倾向于忽略交叉量全局背景并定义决策空间中的上下文关系。在这项工作中,我们提出了一种新的体素水平暹罗暹罗代表学习方法,用于改善表示空间的腹部多器官分段。所提出的方法强制了表示空间中的体素明智的特征关系,以更全面地利用有限数据集来实现更好的性能。灵感来自最近对比学习的进步,我们抑制了与同一类的Voxel明智关系在不使用阴性样本的情况下投射到同一点。此外,我们介绍了一种多分辨率上下文聚合方法,该方法聚合来自多个隐藏图层的特征,该方法为分段编码全局和本地上下文。我们在多器官数据集上的实验优先于骰子评分系数的现有方法。代表空间的定性可视化表明,改进主要由解散特征空间获得。 |
AudioVisual Video Summarization Authors Bin Zhao, Maoguo Gong, Xuelong Li音频和愿景是视频数据中的两个主要方式。多式化学习,特别是对于视听学习,最近引起了相当大的关注,这可以提高各种计算机视觉任务的性能。然而,在视频摘要中,现有方法只是在忽略音频信息时利用视觉信息。在本文中,我们认为音频模型可以帮助视觉模型来更好地了解视频内容和结构,并进一步受益于总结过程。由此激励,我们建议共同利用视频摘要任务的音频和视觉信息,并开发一个视听反复网络AVRN以实现这一目标。具体地,所提出的AVRN可以分离成三个部分1,通过捕获它们的时间依赖性,使用两个流LSTM来编码音频和视觉特征。 2,视听融合LSTM通过探索它们之间的潜在一致性来熔化两种方式。 3采用自我注意视频编码器来捕获视频中的全局依赖。最后,共同使用融合的视听信息和集成的时间和全局依赖项来预测视频摘要。实际上,在两个基准测试中,EMPH即和TVSUM的实验结果证明了每个部分的有效性,以及AVRN的优越性与仅利用视频摘要的视觉信息的方法相比。 |
Global Wheat Head Dataset 2021: an update to improve the benchmarking wheat head localization with more diversity Authors Etienne DAVID, Mario Serouart, Daniel Smith, Simon Madec, Kaaviya Velumani, Shouyang Liu, Xu Wang, Francisco Pinto Espinosa, Shahameh Shafiee, Izzat S. A. Tahir, Hisashi Tsujimoto, Shuhei Nasuda, Bangyou Zheng, Norbert Kichgessner, Helge Aasen, Andreas Hund, Pouria Sadhegi Tehran, Koichi Nagasawa, Goro Ishikawa, S bastien Dandrifosse, Alexis Carlier, Benoit Mercatoris, Ken Kuroki, Haozhou Wang, Masanori Ishii, Minhajul A. Badhon, Curtis Pozniak, David Shaner LeBauer, Morten Lilimo, Jesse Poland, Scott Chapman, Benoit de Solan, Fr d ric Baret, Ian Stavness, Wei Guo全球小麦头部检测GWHD数据集于2020年创建,并组装了193,634名标记的小麦头,从各种采集平台和7个国家机构获得的4,700 RGB图像。随着在卡格林举办的相关竞争中,GWHD已成功地吸引了计算机愿景和农业科学社区的关注。从2020年的第一次经验中,已经确定了一些改进的途径,特别是从数据大小,头部分集和标签可靠性的角度来看。为了解决这些问题,通过添加来自5个国家的1,722张图片,重新审视,重新标记和增强2020个数据集,允许添加81,553个额外的小麦头。因此,我们希望在2021年发布全球小麦头部检测GWHD数据集的新版本,这比2020版本更大,更多样化,更少嘈杂。 GWHD 2021现在公开可用 |
FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection Authors Yi Wei, Shang Su, Jiwen Lu, Jie Zhou在本文中,我们调查了弱监督3D车辆检测的问题。用于3D对象检测的传统方法需要大量的手动标记的3D数据作为监控信号。然而,注释大型数据集需要巨大的人类努力,特别是3D区域。为了解决这个问题,我们提出了Frustum意识的几何推理FGR,以检测点云中的车辆,而无需任何3D注释。我们的方法由两个级粗略3D分割和3D边界框估计组成。对于第一阶段,上下文意识的自适应区域生长算法旨在基于2D边界框对对象进行划分对象。利用预测的分割掩模,我们开发了一种抗噪声方法来估计第二阶段的3D边界框。最后,我们的方法产生的3D伪标签用于训练3D检测器。独立于任何3D Troundtruth,FGR在Kitti DataSet上以完全监督的方法达到了可比的性能。调查结果表明,它能够在3D空间中准确地检测3D空间中的对象,只有2D边界框和稀疏点云。 |
Leveraging EfficientNet and Contrastive Learning for Accurate Global-scale Location Estimation Authors Giorgos Kordopatis Zilos, Panagiotis Galopoulos, Symeon Papadopoulos, Ioannis Kompatsiaris在本文中,我们解决了全球尺度图像地理定位的问题,提出了混合分类检索方案。与严格解决此问题作为分类或检索任务的其他方法不同,我们将两种实践组合在统一的解决方案中,利用每个方法的各种方法的优势与两个不同的模块不同。首先利用高效的架构以强大的方式将图像分配给特定地理单元格。第二次引入了一种新的剩余架构,该架构具有对比学学习的培训,以将输入图像映射到嵌入空间,该嵌入空间最小化相同位置图像的成对测地距离。对于最终位置估计,两个模块与小区方案中的搜索组合,其中基于空间聚类方案聚合来自预测地理小区的大多数相似图像的位置。我们的方法在四个公共数据集中展示了非常竞争力的性能,实现了在IM2GPS3K上的1km范围内的细粒度尺度中的最新状态的最新状态,即15.0。 |
Traffic Scenario Clustering by Iterative Optimisation of Self-Supervised Networks Using a Random Forest Activation Pattern Similarity Authors Lakshman Balasubramanian, Jonas Wurst, Michael Botsch, Ke Deng交通场景分类是自动驾驶的重要组成部分,用于e。 ,g。,在运动规划算法及其验证中。在没有手工下的步骤中查找新的相关方案会减少自主驾驶的所需资源。在这项工作中,提出了一种方法来通过引入基于新的数据自适应相似度测量来引入群集技术来解决这一挑战,称为随机森林激活模式RFAP相似度。使用随机林算法中的树编码方案生成RFAP相似度。本工作中提出的群集方法考虑到有标记的方案可用,标记方案中的信息可以帮助指导未标记方案的群集。它由三个步骤组成。首先,使用定义的自我监督目标,在所有可用的交通方案上培训了一个自我监督的卷积神经网络CNN。其次,CNN精确调整,用于标记方案的分类。第三,使用标记和未标记的方案进行迭代优化过程进行群集。在迭代优化的每个时期的第三步骤中,CNN用作无监督随机林的特征发生器。训练的森林又提供了RFAP相似性,以迭代地实现CNN实现的特征生成过程。在高级数据集上已经完成了广泛的实验和消融研究。与基线聚类技术相比,该方法显示出优异的性能。 |
Class-Incremental Few-Shot Object Detection Authors Pengyang Li, Yanan Li, Donghui Wang传统的检测网络通常需要丰富的标记训练样本,而人类可以只有几个例子逐步学习新概念。本文侧重于更具挑战性,但现实的阶级增量少量射击对象检测问题IFSD。它旨在逐渐地将新型物体的模型从少数注释的样本转移到,而不会灾难性地忘记以前学识的那些。为了解决这个问题,我们提出了一种新的方法,最小的方法可以减少遗忘,更少的培训资源和更强的转移能力。具体而言,我们首先介绍转移策略,以减少不必要的重量适应并改善IFSD的传输能力。在此基础上,我们使用较少的资源消耗方法整合知识蒸馏技术来缓解遗忘并提出基于新的聚类的示例性选择过程,以保留先前学习的更多辨别特征。作为通用和有效的方法,最少可以在很大程度上提高各种基准的IFSD性能。 |
Open-set Recognition based on the Combination of Deep Learning and Ensemble Method for Detecting Unknown Traffic Scenarios Authors Lakshman Balasubramanian, Friedrich Kruber, Michael Botsch, Ke Deng驾驶场景的理解和分类对于测试和开发自主驾驶功能是重要的。机器学习模型对于场景分类非常有用,但大多数人假设在测试期间接收的数据来自培训中使用的类别。由于车辆运行的开放环境,这假设不是真的。这是由一个名为Open Set识别的新机器学习范例来解决。开放式识别是将测试样本分配给培训或未知类的类之一的问题。这项工作提出了卷积神经网络CNN和随机森林RF的组合,以便开放的交通方案识别。 CNNS用于特征生成和RF算法以及用于检测已知和未知类的极值理论。拟议的解决方案是通过探索RF中的树木的投票模式而不是大多数投票来源的。通过继承RF的集合性质,所有树木的投票模式与极值理论相结合,非常适合检测未知的类别。与现有解决方案相比,所提出的方法已经在高速和OpentRafficat数据集上进行了测试,并且在各个方面上表现出优异的性能。 |
Shared and Private VAEs with Generative Replay for Continual Learning Authors Subhankar Ghosh持续学习试图在不忘记以前学识的情况下学习新任务。实际上,大多数现有的人工神经网络ANN模型失败,而人类通过在整个生命中记住以前的作品也是如此。虽然只需存储所有过去的数据都可以缓解问题,但它需要大的内存并且在上次数据访问的真实应用程序中往往是不可行的。我们假设学习解决每个任务的模型不断具有一些任务特定的属性和一些任务不变特征。我们提出了一个混合持续学习模型,更适合实际情况,以解决任务不变共享变化自动码器和T任务特定变化自动码器的问题。我们的模型结合了生成的重放和建筑增长,以防止灾难性的遗忘。我们展示了混合模型有效避免忘记并实现了现有技术的状态,导致诸如Mnist,允许的MNIST QMNIST,CIFAR100和MiniimAgeNet数据集等视觉连续学习基准。我们讨论了几个数据集的结果,例如Svhn,Fashion Mnist,Emnist和Cifar10。 |
A Fine-Grained Visual Attention Approach for Fingerspelling Recognition in the Wild Authors Kamala Gajurel, Cuncong Zhong, Guanghui Wang当他们没有专门的手语手势时,手术展示的手指一直是沟通技术术语和适当名词的手段。自动识别手指瓣道可以帮助解决与聋人互动时的通信障碍。手指伸展识别的主要挑战是手势中的模糊性和手中的强烈关节。自动识别模型应解决手势中高级视觉视觉相似性和高帧内级别变化。 Fingerspling识别的大多数现有研究都集中在受控环境中收集的数据集。最近收集野外的大型注释的指数数据集,来自社交媒体和在线平台,捕捉了真实世界场景中的挑战。在这项工作中,我们使用变压器模型提出了一种细粒度的视觉注意机制,以便序列序列在野外数据集中序列预测任务。通过利用视频帧光流的运动变化在顺序上下文基础上与变压器编码器模型以及变压器编码器模型的改变来实现细粒度的注意。通过平衡连接员时间分类CTC丢失和最大熵损失,联合剪辑的连续视频数据集是共同训练的。所提出的方法可以在单一迭代中捕获更好的细粒度。实验评估表明它优于现有技术的状态。 |
Style-Restricted GAN: Multi-Modal Translation with Style Restriction Using Generative Adversarial Networks Authors Sho Inoue, Tad Gonsalves使用生成的对冲网络来对图像翻译的未配对图像是成功转换多个域之间的图像。此外,最近的研究已经示出了一种多样化发电机的输出的方法。但是,由于没有限制生成器如何使结果分布,因此可能会翻译一些意外的功能。在本文中,我们提出了风格受限制的GaN SRGAN,一种用不同风格将输入图像传输到不同域的新方法,改变了完全类相关的功能。此外,除了KL发散损失,我们采用了3个新损失来限制编码特征分批批量缺陷,相关性损失和直方图模仿损失的分布。该研究报告了定量以及精确,召回,密度和覆盖度的定性结果。与常规KL损失相比,建议的3次损失导致增强多样性水平。特别是,发现SRAGAN成功转换为更高的多样性,而不会在Celeba面部数据集中更改类无关的功能。我们的实施提供了 |
Towards Unsupervised Domain Adaptation for Deep Face Recognition under Privacy Constraints via Federated Learning Authors Weiming Zhuang, Xin Gan, Yonggang Wen, Xuesen Zhang, Shuai Zhang, Shuai Yi已经广泛采用无监督的域适应来概括在目标域中的未标记数据的模型,在源域中给出标记的数据,其数据分布与目标域不同。但是,现有的作品可在隐私约束下不适用于面对识别,因为它们需要在两个域之间共享敏感面部图像。为了解决这个问题,我们提出了一种小说未经监督的联邦面部识别方法FEDFR。 FEDFR通过通过联合学习来通过迭代地聚合来自源域的知识来提高目标域中的性能。它通过传输模型而不是域之间的原始数据来保护数据隐私。此外,我们提出了一个新的域约束损失DCL,以正规化源域培训。 DCL抑制源域的数据量优势。我们还提高了分层聚类算法,以准确地预测未标记的目标域的伪标签。为此,FEDFR在源域2中形成一个端到端训练管线1预先列车在源域2通过在目标域3中的聚类来预测伪标签,在两个域中进行域约束被约束的联合学习。两种新建基准的广泛实验和分析展示了FEDFR的有效性。在更现实的基准测试中,它以超过4个在目标域中的基线和经典方法优于超过4。我们相信,FEDFR将在隐私约束下将联合学习应用于更多计算机愿景任务。 |
Differentiable SLAM-net: Learning Particle SLAM for Visual Navigation Authors Peter Karkus, Shaojun Cai, David Hsu同时本地化和映射SLAM对许多下游应用(例如视觉机器人导航)仍然具有挑战性,因为快速转弯,无特色墙壁和相机质量差。我们介绍了可差异化的SLAM网络SLAM网络以及导航架构,以在以前看不见的室内环境中启用平面机器人导航。 SLAM NET在可差化的计算图中编码基于粒子滤波器的SLAM算法,并通过通过SLAM算法反向来学习面向任务的神经网络组件。因为它可以针对最终目标共同优化所有型号组件,因此Slam Net学会在具有挑战性的条件下具有稳健性。我们在具有不同现实世界RGB和RGB D数据集的栖息地平台中运行实验。 SLAM NET显着优于嘈杂的条件下广泛适应的ORB SLAM。我们的导航架构与SLAM网的导航架构改善了栖息地挑战2020 Pointnav任务的艺术状态,通过大型保证金37到64成功。项目网站 |
Vision Transformers are Robust Learners Authors Sayak Paul, Pin Yu Chen由多种自我注意层组成的变形金刚对适用于不同数据模型的通用学习原语,包括计算机视觉近期突破,实现了艺术SOTA标准精度的最新突破,具有更好的参数效率。由于自我关注有助于模型系统地对齐输入数据内部存在的不同组件,因此它留下了地面来研究其在模型稳健性基准下的性能。在这项工作中,我们研究了视觉变压器VIT的稳健性,避免常见的腐败和扰动,分布偏移和自然对抗例。我们使用六种不同的多样化想象数据集关于强大的分类,以进行Vit模型和Sota卷积神经网络CNNS,大转移的综合性能比较。通过一系列系统地设计的实验,我们将提供分析,这些分析提供定量和定性指示,以解释为什么VITS确实更强大的学习者。例如,具有较少的参数和类似的数据集和预训练组合,VIT在ImageNet A上给出了28.10的前1个精度,这是比比特的可比变体高4.3x。我们对图像屏蔽,傅里叶谱灵敏度和传播的分析,在离散余弦能量谱上揭示了Vit归因于改善鲁棒性的迷恋性质。在此处提供再现我们的实验的代码 |
Rethinking "Batch" in BatchNorm Authors Yuxin Wu, Justin JohnsonBatchnorm是现代卷积神经网络中的关键构建块。它在批处理而不是单个样本上运营的独特性质引入了深度学习中大多数其他操作的显着不同的行为。结果,它导致许多隐藏的警告,可以以微妙的方式对模型进行模范。本文彻底评论了视觉识别任务中的此类问题,并显示解决它们的关键是在Batchnorm中重新考虑批量概念中的不同选择。通过呈现这些警告及其缓解,我们希望这篇评论可以帮助研究人员更有效地使用Batchnorm。 |
Layerwise Optimization by Gradient Decomposition for Continual Learning Authors Shixiang Tang, Dapeng Chen, Jinguo Zhu, Shijie Yu, Wanli Ouyang深度神经网络实现了最先进的状态,有时在各个领域之间的超级性能。然而,当顺序学习任务时,网络容易忘记以前任务的知识,称为灾难性遗忘。为实现旧任务和新任务之间的常规,一个有效的解决方案是修改更新的渐变。以前的方法为不同的任务强制执行独立的渐变约束,而我们考虑这些渐变包含复杂信息,并建议通过梯度分解来利用任务信息。特别是,旧任务的梯度被分解为由所有旧任务和特定于该任务的一部分共享的部分。更新的渐变应接近新任务的渐变,与所有旧任务共享的渐变,以及与特定于旧任务的渐变跨越的空间正交。通过这种方式,我们的方法鼓励普通知识合并而不损害任务特定知识。此外,对每个层的梯度分别执行优化而不是在以前的作品中的所有梯度的串联执行。这有效地避免了不同层中梯度幅度变化的影响。广泛的实验验证了梯度分解优化和层面更新的效果。我们所提出的方法实现了持续学习的各种基准的艺术状态。 |
Prototype-supervised Adversarial Network for Targeted Attack of Deep Hashing Authors Xunguang Wang, Zheng Zhang, Baoyuan Wu, Fumin Shen, Guangming Lu由于其强大的代表学习和高效计算能力,深度散列在大规模图像检索方面取得了重大进展。然而,深度散列网络容易受到对抗的例子,这是一个实用的安全问题,但很少在散列的检索场中研究。在本文中,我们提出了一种新颖的原型监督对冲网络优点GaN,其制定了一种灵活的生成架构,用于有效且有效的目标散列攻击。据我们所知,这是第一代攻击深层散列网络的方法。通常,我们提出的框架由三个部分,即原型原型,发电机和鉴别器组成。具体地,设计的原型内容将目标标签嵌入到语义表示中,并将原型代码作为代表目标标签的类别级别。此外,语义表示和原始图像被共同馈送到发电机中以进行灵活的目标攻击。特别地,采用原型代码来监控发电机通过最小化对手示例的散列码和原型代码之间的汉明距离来构建目标的对抗示例。此外,发电机是针对鉴别器,以同时鼓励对抗性示例在视觉上现实和语义表示信息。广泛的实验验证了所提出的框架可以有效地产生具有更好的针对性攻击性能的对抗性示例,并通过近散迹的最新状态的可转换性。相关代码可以在 |
Algorithmic Principles of Camera-based Respiratory Motion Extraction Authors Wenjin Wang, Albertus C. den Brinker已经提出了从基于身体运动的视频中测量呼吸信号,并最近在用于视频健康监测的产品中成熟。该测量的核心算法是借鉴呼吸诱导的微小胸部腹部运动,并且基本挑战是运动敏感性。尽管在具有真实人类主体的验证上报告了现有技术,但没有彻底的严格基准,以量化基于运动的核心呼吸算法的敏感性和边界条件,测量视频帧之间的子像素位移的副像素位移。在本文中,我们设计了一种具有完全可控的物理幻影的设置,以研究核心算法的本质,以及包含两个运动估计策略和三个空间表示的数学模型,导致六种呼吸信号提取组合。通过幻影基准讨论和澄清他们的承诺和局限性。本文获得的见解旨在改善基于相机的呼吸测量在健康监测中的理解和应用。 |
Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional Architectures in a Contextual Approach for Video-Based Visual Emotion Recognition in the Wild Authors Ioannis Pikoulis, Panagiotis P. Filntisis, Petros Maragos在这项工作中,我们在野外基于视频情感识别的任务。在由于头部机身取向,低分辨率低和差的照射不可进入上述情感信息来源,依赖于身体和面部特征的依赖性依赖于身体和面部特征的提取通常缺乏精确的情感预测。我们渴望通过利用场景特征和属性形式利用视觉上下文来缓解这个问题,作为更广泛的情感识别框架的一部分。时间段网络TSN构成了我们所提出的模型的骨干。除了RGB输入模态之外,通过直观的多流方法进行更有效地编码运动之后,我们利用密集的光流。此外,我们将注意力转移到基于骨架的学习,并利用中心数据作为预训练空间时间图卷积网络ST GCN的手段,用于情感识别的任务。我们对挑战性肢体语言数据集的广泛实验粗体验证了我们对现有方法的方法的优势,同时通过妥善结合在网络集合中的所有上述模块,我们设法通过大边距超越先前的最佳发布识别分数。 |
Fast-GANFIT: Generative Adversarial Network for High Fidelity 3D Face Reconstruction Authors Baris Gecer, Stylianos Ploumpis, Irene Kotsia, Stefanos Zafeiriou通过利用深度卷积神经网络DCNNS的力量来重建从单个图像中重建3D面部结构的大量工作。在最近的作品中,纹理特征对应于线性纹理空间的组件,或者由自动编码器直接从野外图像中学习。在所有情况下,面部纹理重建的质量仍然不能以高频细节建模面部质地。在本文中,我们采取了彻底不同的方法,并利用生成的对抗性网络GAN和DCNN的力量,以重建从单个图像的面部纹理和形状。也就是说,我们利用GAN从大规模3D纹理数据集开始培训一个非常强大的面部纹理。然后,我们重新审视原始的3D可变模型3DMMS拟合利用非线性优化来找到最佳重建测试图像但在新的视角下的最佳潜在参数。为了使初始化和加快拟合过程的强大,我们提出了一种新的自我监督基于回归的方法。我们展示了在我们的知识中最佳的选择3D面部重建的光电态度和身份保存,并且首次实现了卓越的结果,并且具有高频细节的面部纹理重建。 |
Uncertainty in Minimum Cost Multicuts for Image and Motion Segmentation Authors Amirhossein Kardoost, Margret Keuper最小成本提升的多型方法在广泛的应用中已经证明了实际上的性能,例如图像分解,网格分割,多对象跟踪和运动分段。它在基于图形模型中解决了这些问题,其中真实值的成本被分配给实体之间的边缘,使得最小切割将图分解为最佳的段数。由最低成本多贸易的概率制定驱动,我们为在优化期间做出的决定的不确定性提供了措施。我们认为,在许多实际应用中,对这种不确定性的访问至关重要,并通过在图像分解BSDS 500和运动分段Davis2016和FBMS59的上下文中,通过对三种不同,广泛使用的数据集进行评估,以便在信息VI的变化方面和FBMS59兰德指数ri。 |
TSDF++: A Multi-Object Formulation for Dynamic Object Tracking and Reconstruction Authors Margarita Grinvald, Federico Tombari, Roland Siegwart, Juan Nieto同时跟踪和重建在场景中移动的多个对象的能力对于诸如自主导航和交互等机器人任务来说至关重要。实际上,所有先前映射多个动态对象的尝试已经发展以将各个对象存储在单独的重建卷中并跟踪它们之间的相对姿势。虽然简单直观,但这种制剂在场景中的物体数量方面并不刻度,并介绍了对显式遮挡处理策略的需求。相比之下,我们提出了一个地图表示,允许为整个场景和其中的所有对象维护单个卷。为此,我们介绍了一种新的多对象TSDF制剂,可以在地图中的任何给定位置编码多个物体表面。在多动态对象跟踪和重建场景中,我们的表示允许保持对表面的准确重建,即使它们被移动在其接近的其他物体暂时遮挡。我们在公共合成数据集中评估所提出的TSDF制剂,并展示其与标准TSDF地图表示相比保护闭塞表面的重建的能力。 |
3D to 4D Facial Expressions Generation Guided by Landmarks Authors Naima Otberdout, Claudio Ferrari, Mohamed Daoudi, Stefano Berretti, Alberto Del Bimbo虽然最近基于深度学习的3D面部产生了进展,但是较少研究了动态3D 4D面部表达合成的问题。在本文中,我们向以下问题提出了一个新的解决方案给定一个输入3D中性面,可以从中生成动态3D 4d面部表达式来解决这个问题,我们首先提出了一个网格编码器解码器架构expr ed exprode 3D地标从中性对应物生成富有效应的3D面部。然后,我们通过使用能够从表达式标签Motion3DaNGaN的歧管值GaN建模面部表达式的歧管值GaN来扩展到4D。所生成的地标被馈入网格编码器解码器,最终产生一系列3D表达面。通过解耦这两个步骤,我们分别地解决了网格变形和运动动力学引起的非线性。 COMA DataSet上的实验结果表明,我们的网格编码器解码器由地标引导的基于其他地标3D拟合方法引导了显着的改进,并且我们可以产生高质量的动态面部表达式。该框架还使3D表达强度能够连续地从低到高强度。最后,我们显示我们的框架可以应用于其他任务,例如2D 3D面部表情转移。 |
MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions Authors Yixuan Li, Lei Chen, Runyu He, Zhenzhi Wang, Gangshan Wu, Limin WangSpatio时间作用检测是视频理解中的一个重要和具有挑战性的问题。现有的动作检测基准在修整视频或相对低的原子动作中的少量实例的方面有限。本文旨在展示一项新的多人数据集,Spatio Temporal局部体育活动,包括为MultiSports。我们首先通过提出具有良好定义的边界的三个标准1动作依赖性识别,3个相对高水平的等级,分析为时效时间作用检测构建逼真和具有挑战性数据集的重要成分。基于这些指南,我们通过选择4个运动类,收集大约3200个视频剪辑的数据集,并通过907K边界框提供围绕37790的动作实例进行注释。我们的数据集是具有强大多样性,详细注释和高质量的重要属性。我们的多个运动,具有逼真的环境和密集的注释,暴露了行动本地化的内在挑战。为了基准,我们将多个代表方法调整到我们的数据集中,并对我们数据集中的行动本地化的难度进行深入分析。我们希望我们的Multisports可以作为未来时空时间作用检测的标准基准。我们的数据集网站是在 |
Is Image Size Important? A Robustness Comparison of Deep Learning Methods for Multi-scale Cell Image Classification Tasks: from Convolutional Neural Networks to Visual Transformers Authors Wanli Liu, Chen Li, Hongzan Sun, Weiming Hu, Haoyuan Chen, Changhao Sun, Marcin Grzegorzek宫颈癌是妇女的一种非常常见和致命的癌症,但可以通过早期检查和治疗来预防它。细胞病理学图像通常用于筛选癌症。然后,由于这种方法的大量可能性误差的可能性,开发了基于深度学习的计算机辅助诊断系统。深度学习方法所需的图像输入通常是一致的,但临床医学图像的大小不一致。在直接调整图像之后,内部信息丢失,因此它是不合理的。大量研究是直接调整图像大小,结果仍然是强大的。为了找到合理的解释,22种深度学习模型用于处理不同尺度的图像,并且在SipakMed数据集上进行实验。结论是深度学习方法对图像的大小变化非常强大。此结论也在Herlev DataSet上验证。 |
Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval Authors Kazuya Ueki视觉语义嵌入是一个有趣的研究主题,因为它对各种任务非常有用,例如视觉问题应答VQA,图像文本检索,图像标题和场景图生成。在本文中,我们专注于使用句子作为查询的零拍摄图像检索,并对这一领域的技术趋势进行了调查。首先,我们提供了全面的技术历史概述,从讨论图像到文本匹配的早期研究以及技术如何随着时间的推移而发展。另外,介绍了在实验中常用的数据集的描述以及每种方法的评估结果的比较。我们还在GitHub上介绍了可用的实现,以确认实验的准确性和进一步的改进。我们希望这份调查纸将鼓励研究人员进一步发展他们对桥接图像和语言的研究。 |
Semi-supervised Contrastive Learning with Similarity Co-calibration Authors Yuhang Zhang, Xiaopeng Zhang, Robert.C.Qiu, Jie Li, Haohang Xu, Qi Tian半监督学习是一种利用大规模未标记数据的有效方法。在本文中,我们提出了一种新颖的培训策略,被称为半监督对比学习SSCL,其将自我监督学习的众所周知的对比损失与半监督学习中的交叉熵损失相结合,并联合优化了两个目标结束方式。突出显示是与基于自训练的半监督学习不同,在相同的模型权重中进行预测和再培训,SSCL在两个分支之间的未标记数据上交换预测,因此我们发现的CO校准过程是有益的更好的预测,避免被困在局部最小值。对此目标来说,使用从跨熵分支产生的最近邻域的对比损耗分支模拟样品之间的成对相似性,并且互校准交叉熵分支的预测分布与对比度相似度。我们表明SSCL产生了更具歧视性的代表性,并且有利于少量学习。值得注意的是,在与reset50的ImageNet中作为骨干,SSCL分别实现了60.2和72.1前1个精度,分别具有1和10个标记的样本,这显着优于基线,并且优于前一个半监督和自我监督方法。 |
BDANet: Multiscale Convolutional Neural Network with Cross-directional Attention for Building Damage Assessment from Satellite Images Authors Yu Shen, Sijie Zhu, Taojiannan Yang, Chen Chen, Delu Pan, Jianyu Chen, Liang Xiao, Qian Du当自然灾害时,需要快速和有效的响应。,地震,飓风等罢工。在部署救灾工作之前,从卫星图像建立损伤评估是至关重要的。通过一对前后灾害卫星图像,建立损伤评估旨在预测建筑物的损坏程度。具有强大的特征表示能力,深度神经网络已成功应用于建立损害评估。大多数现有的工作只需将前后灾害图像连接到深神经网络的输入而不考虑其相关性。在本文中,我们提出了一种新颖的两级卷积神经网络,用于建立损害评估,称为BDANET。在第一阶段,U网用于提取建筑物的位置。然后,第一阶段的网络权重在第二阶段共享以进行损害评估。在第二阶段,使用两个分支多尺度U Net作为骨干,其中预先和灾后图像分别馈送到网络中。建议横向注意模块探讨预先灾害和灾后图像之间的相关性。此外,利用Cutmix数据增强来解决困难课程的挑战。所提出的方法在大规模数据集XBD上实现了现有性能的状态。代码可用 |
ExSinGAN: Learning an Explainable Generative Model from a Single Image Authors ZiCheng Zhang, CongYing Han, TianDe Guo从单个样本产生图像,作为图像合成的新发展分支,引起了广泛的关注。在本文中,我们将该问题与单个图像的条件分布采样,并提出了一种分层框架,通过连续学习了关于结构,语义和纹理的分布的连续学习,简化了复杂条件分布的学习学习和一代可理解。在此基础上,我们设计了由三个级联的GAN组成的Exsingan,用于从给定图像学习可解释的生成模型,其中级联的GANS先后模拟了结构,语义和纹理的分布。由于以前的作品所做的,但也是从给定图像的内部补丁所学到的,而且来自GaN反演技术的外部之前,不仅从给定的图像的内部补丁学习了exsingan。与先前作品相比,Exsingan与内部和外部信息的适当组合有利于内部和外部信息的适当组合,对图像操纵任务进行了更强大的生成和竞争泛化能力。 |
Neighbourhood-guided Feature Reconstruction for Occluded Person Re-Identification Authors Shijie Yu, Dapeng Chen, Rui Zhao, Haobin Chen, Yu Qiao由监控摄像机捕获的人物图像通常被各种障碍丢弃,这导致特征表示和伤害人员重新识别性能缺陷。为了解决这一挑战,我们建议通过充分利用在画廊图像集中的附近的信息来重建遮挡部分的特征表示。具体地,我们首先通过用于每个人图像的身体掩模来引入可见部分的特征。然后,我们使用可见功能识别其相邻的样本,并通过将所有相邻样本作为输入重建了异物可移动图形神经网络来重建全身的表示。广泛的实验表明,该方法取得了重大改进。在大规模的遮挡Dukemtmc基准测试中,我们的方法实现了64.2次映射和67.6级别1精度,这分别优于最大的边缘,即20.4和12.5的现有技术方法,指示我们对遮挡RE ID问题的效果。 |
Unsupervised Super-Resolution of Satellite Imagery for High Fidelity Material Label Transfer Authors Arthita Ghosh, Max Ehrlich, Larry Davis, Rama Chellappa由于难以获得人类注释,尤其是在低分辨率卫星图像上,遥感图像中的城市材料识别是一个非常相关的,但极具挑战性的问题。为此,我们提出了一种使用对抗学习的无监督域适应方法。我们的目标是从较小的高分辨率数据源域中收集信息,并利用相同的超声分辨率的低分辨率图像目标域。这可能潜在地涉及语义以及从丰富的注释源到目标结构域的材料标签转移。 |
Ma |