AI视野·今日CS.CV 计算机视觉论文速读 Wed, 16 Jun 2021 Totally 76 papers ???更精彩请移动主页

Daily Computer Vision Papers
| Is this Harmful? Learning to Predict Harmfulness Ratings from Video Authors Johan Edstedt, Johan Karlsson, Francisca Benavente, Anette Novak, Amanda Berg, Michael Felsberg视频中有害内容的自动识别是应用广泛的重要任务。然而,由于收集高质量的标签和苛刻的计算要求,没有一般的方法来满足任务。通常只考虑问题的小子集,比如识别暴力内容。在解决一般问题的同时,粗略的近似和简化了缺乏标签和计算复杂性。在这项工作中,我们识别并解决了两个主要障碍。首先,由该领域的专业人士注释,我们创建了大约4000个视频片段的数据集。其次,我们展示了视频识别的进步,使我们的数据集能够在考虑场景的完整性时实现培训模型。我们对我们的建模选择进行了深入的研究,发现我们非常受益于结合视觉和音频模型、大规模视频识别数据集和级平衡采样的预订,进一步提高了性能。我们还进行了定性研究,揭示了我们数据集的大量模态。出版时将提供我们的数据集。 |
| Dynamic Head: Unifying Object Detection Heads with Attentions Authors Xiyang Dai, Yinpeng Chen, Bin Xiao, Dongdong Chen, Mengchen Liu, Lu Yuan, Lei Zhang组合定位和物体检测分类的复杂性导致了繁荣方法的发展。以前的作品试图提高各种对象检测头中的性能,但无法呈现统一视图。在本文中,我们提出了统一对象检测头的新动态头框架。规模意识是通过结合特征层次之间的多重自我关注机制进行的。在空间意识的空间位置和任务意识的输出信道中,提出的方法显著提高了对象在没有任何计算费用的情况下检测磁头的表达能力。进一步的实验表明,拟议的动态头对Coco基准的有效性和效率。使用标准ResNext 101 DCN骨干网,我们大大提高了流行对象探测器的性能,并在54.0 AP实现了新的现有技术。此外,使用最新的变压器骨干和额外数据,我们可以使用最好的CoCo结果推动到60.6 AP的新记录。该代码将被释放 |
| Gradient Forward-Propagation for Large-Scale Temporal Video Modelling Authors Mateusz Malinowski, Dimitrios Vytiniotis, Grzegorz Swirszcz, Viorica Patraucean, Joao Carreira如何在大量时间数据上有效地训练神经网络,计算更新参数所需的渐变,BackPropagation阻止计算,直到前后通行证完成。对于时间信号,它引入了高延迟,阻碍了实时学习。它还在连续层之间产生耦合,限制了模型的并行性,增加了存储器的消耗。在本文中,我们侧向构建,避免在时间前传播近似梯度,并提出了基于跳过连接的不同变体的时间集成机制。我们还展示了如何将个人神经模块委托给不同的设备,允许分布式和平行训练。建议跳过侧面实现低延迟训练、模型并行性,重要的是提取时间特征,导致更稳定的训练,提高现实世界动作识别视频数据集的性能,如HMDB51,UCF101和大动力学600 。最后,我们还表明,跳过横向训练的模型比侧向模型有更好的未来框架,因此它们可以更好地利用运动线索。 |
| Multi-StyleGAN: Towards Image-Based Simulation of Time-Lapse Live-Cell Microscopy Authors Tim Prangemeier, Christoph Reich, Christian Wildner, Heinz Koeppl荧光显微镜的时间间隔TLFM结合预测数学建模是研究单个细胞水平固有动态生命过程的有力工具。实验昂贵、复杂、劳动密集型。免费的方法和完全的方法Silico实验中的一步,是综合图像本身。基于过去的实验,我们提出了一种模拟活细胞时间间隔荧光显微图像的多种描述方法。对抗网络合成了连续时间步导的多个域序列。我们在微结构环境中展示了多个活酵母细胞的图像,并在我们的实验室中记录在列车上。模拟捕获细胞形态、生长、物理相互作用、荧光报告蛋白强度等基本生物物理因素和时间依赖性。立即应用是为特征提取算法生成额外的培训和验证数据,或帮助和加快先进的实验技术的发展,如在线监测或控制细胞。 |
| Generating Data Augmentation samples for Semantic Segmentation of Salt Bodies in a Synthetic Seismic Image Dataset Authors Luis Felipe Henriques, S rgio Colcher, Ruy Luiz Milidi , Andr Bulc o, Pablo Barros地下盐体本地化和描述,又称盐体的语义细分,是地球上最具挑战性的物理主义任务之一。因此,识别大盐体臭名昭著,对于识别烃储层和钻道规划至关重要。该工作提出了一种基于训练两种生成模型的数据增强方法,以增加用于盐体语义分割的地震图像数据集中的样本数量。为了增强数据,我们的方法使用深度学习模型来生成对地震图像贴片和各自的盐掩模。第一种型号是变形式自动化器,负责生产盐掩模斑块。二是条件归一化流量模型,其接收生成的掩码作为输入并产生相关地震图像斑块。通过比较两个合成地震图像的数据集中,比较了语义分割十个不同状态的十个不同状态的性能,并从两个合成地震图像的数据集中进行了评估。在所有的比较模型中,拟议方法都会产生8.57平均改善。最好的结果是通过DEEPLABV在我们的增强过程中,3模型变体实现了95.17的iou得分。此外,我们的提案表现优于六种选择的数据增强方法,通过增强弹性转换来实现我们DA,实现了9.77比较中最显著的改进。最后,我们展示了这种方法来适应较大的上下文尺寸,以实现相当于较小上下文尺寸的结果。 |
| Multi-script Handwritten Digit Recognition Using Multi-task Learning Authors Mesay Samuel Gondere, Lars Schmidt Thieme, Durga Prasad Sharma, Randolf Scholz手写数字识别是机器学习中的广泛研究领域之一。除了在Mnist DataSet除了更广泛的手写数字识别研究外,还有许多关于各种脚本识别的研究工作。然而,多脚本数字识别并不常见,这鼓励了强大和多用途系统的发展。此外,在多脚本数字识别方面,脚本分类可视为相关任务的脚本分类。显然,通过电感转移,利用相关任务中包含的信息来提高模型性能。因此,在本研究中,将研究使用多任务学习的多脚本手写数字识别。作为解决问题的具体情况,Amharic手写字符识别也将是实验。研究了三个脚本的手写数字,括拉丁语,阿拉伯语和kannada,表明,具有对各个任务的重新制定的多项任务模型已经显示出有前途的结果。在这项研究中,提出了一种使用各个任务预测的新方式,以帮助分类性能并规范不同的损失以获得主要任务的目的。此发现优于基线和传统的多任务学习模型。更重要的是,它避免了需要加权不同损失的任务损失,这是多任务学习中的挑战之一。 |
| Towards Total Recall in Industrial Anomaly Detection Authors Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Sch lkopf, Thomas Brox, Peter Gehler能够发现有缺陷的部件是大规模工业制造中的关键组成部分。我们在这项工作中解决的特殊挑战是冷启动问题适合使用标称无缺陷示例图像的模型。虽然每个级别的手工制作的解决方案是可能的,但目标是构建自动在许多不同任务上同时运行的系统。最好的PEFORMING方法将嵌入与异常检测模型的Imagenet模型组合。在本文中,我们在此工作行中扩展并提出了PatchCore,它使用最大代表性的名义补丁功能。 PatchCore提供竞争力的推理时间,同时实现检测和本地化的最先进性能。在标准数据集MVTEC广告中,PACKCORE实现了图像级异常检测AUROC评分为99.1,而不是与下一个最佳竞争对手相比的错误。我们进一步报告了两个额外数据集的竞争结果,并在少数样品制度中找到了竞争结果。 |
| BEiT: BERT Pre-Training of Image Transformers Authors Hangbo Bao, Li Dong, Furu Wei我们介绍了一个自我监督的视觉表达模型Beit,其代表来自图像变压器的双向编码器表示。在自然语言处理区域开发的BERT之后,我们向前拉视觉变压器提出了一个蒙面的图像建模任务。具体地,每个图像在我们的预训练中具有两个视图,即,诸如16x16像素的图像补丁以及Visual tokens i.e.,离散令牌。我们首先将原始图像授予视觉令牌。然后我们随机掩盖一些图像修补程序并将其送入骨干变压器。预训练目标是根据损坏的图像补丁恢复原始的视觉令牌。在Pre训练Beit之后,我们通过在佩带的编码器上附加任务图层直接微调下游任务的模型参数。图像分类和语义分割的实验结果表明,我们的模型通过先前的预培训方法实现了竞争力。例如,基本尺寸BEIT在Imagenet 1K上实现了83.2前1个精度,从划痕Deit训练81.8具有相同的设置,显着优化。此外,大尺寸BEIT仅使用Imagenet 1K获得86.3,甚至优于vit L,在想象成22K 85.2上有监督的预训练。代码和预磨料型号可用 |
| Spot the Difference: Topological Anomaly Detection via Geometric Alignment Authors Steffen Czolbe, Aasa Feragen, Oswin Krause几何对齐出现在各种应用中,从域间适配,最佳运输和机器学习光流量中的归一化流量,以及在计算机视觉中的学习中学到的生物医学成像中的可变形登记。经常性挑战是域的对齐,其拓扑在下游分析中常规忽略的问题不同样的问题。作为解决这种对准问题的第一步,我们提出了一种无监督的拓扑差异检测算法。该模型基于条件变形自动编码器,并检测关于登记步骤的参考的拓扑异常。我们考虑在空间变化和B意外转换下的图像中的拓扑变化。我们的方法是在图像中无监督异常检测的代理任务验证。 |
| A Spacecraft Dataset for Detection, Segmentation and Parts Recognition Authors Dung Anh Hoang, Bo Chen, Tat Jun Chin几乎所有现代生活的各个方面都依赖于太空技术。由于伟大的计算机愿景促进了一般的基于深度学习的技术,特别是在几十年中,世界目睹了深入学习的越来越多,在解决空间应用中的问题,如自动驾驶机器人,示踪剂,像机器人这样的昆虫宇宙和健康监测航天器。这些只是在深度学习的帮助下具有高级空间产业的一些突出示例。然而,深度学习模型的成功需要大量的培训数据来进行体面的性能,而另一方面,有很多有限的公共空间数据集,用于深入学习模型的培训。目前,没有用于基于空间的对象检测或实例分段的公共数据集,部分原因是手动注释对象分割掩码,因为它们需要像素级标记时非常耗时,更不用说从空间获得图像的挑战。在本文中,我们的目标是通过释放用于航天器检测,实例分割和部分识别的数据集来填补这种差距。这项工作的主要贡献是使用空间站和卫星图像的数据集的开发,具有丰富的注释,包括用自动过程和手动努力的混合物获得的空间盒和掩模的横向箱和掩模。我们还提供对象检测和实例分段中的最先进方法的评估作为数据集的基准。可以在下载所提出的数据集的链接 |
| Weakly-Supervised Photo-realistic Texture Generation for 3D Face Reconstruction Authors Xiangnan Yin, Di Huang, Zehua Fu, Yunhong Wang, Liming Chen虽然最近在3D面部重建方面取得了很大进展,但最先前的工作已经致力于预测准确和细粒度的3D形状。相比之下,相对较少的工作侧重于产生高保真面纹理。与照片现实2D面貌图像生成的繁荣相比,尚未研究高保真3D面纹理生成。在本文中,我们提出了一种新的UV地图生成模型,其预测来自单个面部图像的UV映射。该模型由UV采样器和UV发生器组成。通过选择性地对输入面部图像S像素进行采样并调整它们的相对位置,UV采样器产生不完整的UV地图,可以忠实地重建原始面。不完整的UV地图中缺少纹理由UV发生器填充。培训基于由3DMM纹理和输入面纹理混合的伪接地真理,从而弱监督。要处理伪紫外线图中的伪影,可以利用多个部分UV映射鉴别器。 |
| Generating Thermal Human Faces for Physiological Assessment Using Thermal Sensor Auxiliary Labels Authors Catherine Ordun, Edward Raff, Sanjay Purushotham热图像揭示了关于人类压力,炎症迹象和可见图像中无法看到的情绪的重要生理信息。提供一种从可见图像产生热面的方法对于远程医疗社区来说是非常有价值的,以便显示该医疗信息。据我们所知,热VT面平移可见有限的作品,并且许多电流工作变得相反的方向,以产生来自热监测图像电视的可见面进行执法应用。结果,我们介绍了FAVTGAN,该VT GAN使用与辅助传感器标签预测网络的PIX2PIX图像转换模型用于从可见图像产生热面。由于大多数电视方法仅在一个热传感器汲取的一个数据源上培训,因此我们将数据集与面孔和城市的培训结合起来。这些组合数据从类似的传感器捕获,以便引导训练和转移学习任务,特别是有价值的,因为可见热面数据集是有限的。与单独的单个数据集上的训练相比,这些组合数据集上的实验表明,FavTan表示生成的热面的SSIM和PSNR分数增加。 |
| Computer-aided Interpretable Features for Leaf Image Classification Authors Jayani P. G. Lakshika, Thiyanga S. Talagala植物物种识别是耗时,昂贵,并且需要大量的努力和专业知识。最近,许多研究人员使用深入学习方法来使用植物图像直接对植物进行分类。虽然深入学习模式取得了巨大的成功,但缺乏可解释性限制了他们的广泛应用。为了克服这一点,我们探讨了从植物叶片图像中提取的可解释,可测量和计算机辅助特征的使用。图像处理是特征提取中最具挑战性和关键步骤之一。图像处理的目的是通过去除不期望的失真来改善叶图像。我们算法的主要图像处理步骤涉及我将原始图像转换为RGB红色绿色蓝色图像,II灰度缩放,III高斯平滑,IV二进制阈值,V删除茎,VI关闭孔和VII调整大小。图像处理后的下一步是从植物叶片图像中提取特征。我们介绍了52个计算上有效的功能来分类植物物种。这些功能主要分为四组,因为II形状的特征,II基于颜色的特征,III基于纹理的特征,以及IV Scagnostic功能。长度,宽度,面积,纹理相关,单调和粗糙度是为了命名其中很少。我们探讨了在监督学习和无监督的学习环境下歧视兴趣阶层的功能的能力。为此,监督维度降低技术,线性判别分析LDA和无监督的维度降低技术,主要成分分析PCA用于转换和可视化数字图像空间的图像到特征空间。结果表明,在监督和无监督的学习设置下,该特征足以区分兴趣的课程。 |
| Mutation Sensitive Correlation Filter for Real-Time UAV Tracking with Adaptive Hybrid Label Authors Guangze Zheng, Changhong Fu, Junjie Ye, Fuling Lin, Fangqiang Ding无人机的空中车辆无人机的视觉跟踪面临着众多挑战,例如,对象运动和闭塞。这些挑战通常引入目标外观的意外突变并导致跟踪失败。然而,由于预定标签,基于普遍的判别相关滤波器DCF基于诱变的跟踪器对目标突变不敏感,其仅仅专注于训练区域的中心。同时,由遮挡或类似物体引起的外观突变通常会导致错误信息的不可避免地学习。为了应对外观突变,本文提出了一种基于DCF的基于DCF的方法,以增强具有适应性杂交标签的敏感性和抗突变,即MSCF。理想标签与相关滤波器共同优化,仍然是时间的一致性。此外,施加一种新的突变测量,施加称为突变威胁因子MTF以动态校正标签。广泛使用的UAV基准进行了相当大的实验。结果表明,MSCF跟踪器的性能超过了基于技术和基于深的跟踪器的其他26状态。具有38帧的实时速度,所提出的方法足以让UAV跟踪佣金。 |
| Relation Modeling in Spatio-Temporal Action Localization Authors Yutong Feng, Jianwen Jiang, Ziyuan Huang, Zhiwu Qing, Xiang Wang, Shiwei Zhang, Mingqian Tang, Yue Gao本文介绍了CVPR 2021的AVA动力学交叉挑战的解决方案。我们的解决方案利用了多种类型的时空模型方法检测,并采用培训策略来集成多个关系建模,以结束多个关系建模到两者结束训练大规模视频数据集。还调查了使用记忆库和长尾分布的FINETUNING,以进一步提高性能。在本文中,我们详细介绍了我们解决方案的实施,并提供了实验结果和相应的讨论。我们终于在AVA动力学测试集上实现了40.67张地图。 |
| Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera Authors Franziska Mueller, Micah Davis, Florian Bernard, Oleksandr Sotnychenko, Mickeal Verschoor, Miguel A. Otaduy, Dan Casas, Christian Theobalt我们提出了一种用于两个强烈互动手的实时姿态和形状重建的新方法。我们的方法是结合有利性质的广泛列表的前两手跟踪解决方案,即它的标记较少,使用单个消费级别深度相机,实时运行,处理帧间和帧内冲突,并自动调整给用户S手形状。为了实现这一点,我们将最近的参数化手姿和形状模型和基于深神经网络的密集对应预测器嵌入到合适的能量最小化框架中。对于训练对应预测网络,我们基于物理仿真综合了两只手数据集,该物理模拟包括手部姿势和形状注释,同时避免手部穿透。为了达到实时速率,我们在非线性最小二乘问题方面短语拟合,以便可以基于基于高效的GAUSE Newton优化器来优化能量。我们在以前的工作中显示的场景中显示了最先进的场景,包括紧张的两只手掌,显着的手部闭塞和手势相互作用。 |
| Demographic Fairness in Face Identification: The Watchlist Imbalance Effect Authors Pawel Drozdowski, Christian Rathgeb, Christoph Busch最近,不同的研究人员发现,面部数据库的图库组合可以诱导对面部识别系统的性能差异,其中将探测图像与所有存储的参考图像进行比较以达到生物识别决定。这种负效应被称为观察列表不平衡效果。在这项工作中,我们向理论上估计的方法估计了对生物识别系统的效果的方法,因为其在人口统计组和所使用的画廊的组成上给出了其验证性能。此外,我们使用开源Accface面部识别系统向公共学术Morph数据库的不同组合的人口亚群,即女性和男性进行识别实验的结果。结果表明,即使在验证方案中的性能差异不太明显,数据库组合物对生物识别系统中的性能差异产生了巨大影响。本研究代表了对观察列表不平衡效应的第一次详细分析,这预计将对面部识别领域的未来研究具有高兴趣。 |
| Object detection and Autoencoder-based 6D pose estimation for highly cluttered Bin Picking Authors Timon H fer, Faranak Shamsafar, Nuri Benbarka, Andreas ZellBin采摘是工业环境和机器人的核心问题,主要模块为6D姿势估计。然而,当涉及到小物体时,工业深度传感器缺乏准确性。因此,我们提出了一种在具有小对象的高度杂乱场景中的姿势估计框架,其主要依赖于RGB数据并利用仅用于姿势细化的深度信息。在这项工作中,我们比较对象检测和姿势估计的合成数据生成方法,并引入姿势过滤算法,确定最准确的估计姿势。我们会做我们的 |
| Hotel Recognition via Latent Image Embedding Authors Boris Tseytlin, Ilya Makarov深受深度度量学习的酒店识别问题。我们概述了现有的方法,并提出了对对比增生损失的对比损失的修改。我们构建一个强大的管道,用于基准测试度量学习模型,并对酒店50k和Cub200数据集进行实验。对比增长的三态损失显示在50k酒店达到更好的检索。我们开源我们的代码。 |
| A Clinically Inspired Approach for Melanoma classification Authors Prathyusha Akundi, Soumyasis Gun, Jayanthi Sivaswamy黑色素瘤是由于皮肤病死亡而导致死亡的主要原因,因此,对黑素瘤的早期和有效诊断感兴趣。当前对黑色素瘤的自动诊断方法使用图案识别或分析识别,如ABCDE不对称,边界,颜色,直径和不断的标准。然而,在实践中,一种差分方法,其中检测到异常值丑小鸭并用于评估奈维病变。在计算机辅助诊断中的差异识别尚未探索差异识别,但可能有益,因为它可以为导出的决定提供临床理由。我们通过执行邻近Nevi的患者患者对比分析IPCA来介绍一种识别和量化丑陋鸭草的方法。然后将其包含在CAD系统设计中进行黑素瘤检测。该设计可确保灵活地处理无法实现IPCA的情况。我们在公共数据集上的实验表明,取决于使用强大的效率网络或中度强大的VGG或Reset Classifier,可以帮助将检测的灵敏度提升到4.0至8.9的检测的灵敏度。 |
| Color2Style: Real-Time Exemplar-Based Image Colorization with Self-Reference Learning and Deep Feature Modulation Authors Hengyuan Zhao, Wenhao Wu, Yihao Liu, Dongliang He遗产黑白照片充满了人们的怀旧和过去的光荣回忆。为了更好地重温,在本文中,我们介绍了一个名为Color2Style的基于更深的示例性图像着色方法,以通过用充满活力的颜色填充它们来复活这些灰度图像介质。通常,由于难以获得输入和地理图像对的难度,通常采用无监测和未配对的训练。为了训练示例性的彩色模型,当前算法通常努力实现两个程序,我预先检索具有高相似性的大量参考图像,这是不可避免的和繁琐的II设计复杂模块以将参考图像的颜色传输到传输参考图像的颜色,以便将参考图像的颜色传输到传输到参考图像的颜色来传输参考图像的颜色通过计算和利用它们之间的深度语义对应,例如非本地操作,灰度图像。与以前的方法相反,我们在一端解决和简化上述两个步骤以结束学习程序。首先,我们采用自增强的自我参考训练方案,其中参考图像由来自原始彩色的图形变换产生,由此可以以配对方式配制训练。其次,代替计算复杂和莫名的对应图,我们的方法利用简单且有效的深度特征调制DFM模块,该模块将从参考图像中提取的颜色嵌入物注射到输入灰度图像的深表示中。这种设计更轻便和可理解,实现了实时处理速度的吸引力。此外,我们的模型不需要多种损失函数和正则化术语,如现有方法,但只有两个广泛使用的损耗功能。代码和模型将可用 |
| Compositional Sketch Search Authors Alexander Black, Tu Bui, Long Mai, Hailin Jin, John Collomosse我们介绍了一种使用描述多个对象的外观和相对位置的自由手写来搜索图像集合的算法。基于素描的图像检索SBIR方法主要匹配包含单个主导对象不变的查询到其位置。我们的工作利用图纸作为指定整个场景组成的简明和直观的代表。我们训练卷积神经网络CNN,以将屏蔽的视觉特征进行编码,将其汇集到编码组合物中对象的空间关系和外观的空间描述符。在三层损耗下训练CNN骨架作为暹罗网络产生了用于测量组成相似度的公制搜索嵌入,这可以通过应用产品量化有效地利用以供视觉搜索。 |
| SAR Image Classification Based on Spiking Neural Network through Spike-Time Dependent Plasticity and Gradient Descent Authors Jiankun Chen, Xiaolan Qiu, Chibiao Ding, Yirong Wu目前,基于卷积神经网络CNN的合成孔径雷达SAR图像分类方法面临着一些问题,例如抗噪声阻力差和泛化能力。尖峰神经网络SNN是智力的核心组成部分之一,具有良好的应用前景。本文根据具有复杂时空时间信息的尖峰序列,基于SNN的无监督和监督学习的完整SAR图像分类器。我们首先阐述了尖峰神经元模型,SNN的接受领域,以及尖峰序列的构建。然后,我们提出了一种基于STDP的无监督学习算法和基于梯度下降的监督学习算法。在MSTAR数据集中的三类图像中单层和双层无监督学习SNN的平均分类准确性分别为80.8和85.1。此外,无监督学习的收敛输出尖峰序列可以用作教学信号。基于TensoRFlow框架,从底部构建单层监督学习SNN,分类精度达到90.05。通过比较SNN和CNNS之间的抗噪声和模型参数,验证了SNN的有效性和优势。重现我们的实验的代码可以在URL上获得 |
| Zero-sample surface defect detection and classification based on semantic feedback neural network Authors Yibo Guo, Yiming Fan, Zhiyang Xiang, Haidi Wang, Wenhua Meng, Mingliang Xu缺陷检测和分类技术已从传统的人工视野发生变化到当前的智能自动化检查,但大多数当前的缺陷检测方法都是基于数据驱动方法的训练相关检测模型,考虑到收集一些样本数据的难度工业领域。我们将零射击学习技术应用于工业领域。针对现有潜在特征指南的问题属性注意LFGAA零拍摄图像分类网络,输出潜在属性和人工定义的属性在语义空间中不同,这导致模型性能下降的问题,提出了基于的LGFAA网络通过构建语义嵌入式模块和反馈机制来改进的模型性能和改进的模型性能。同时,对于零拍摄学习的常见域移位问题,基于CO训练算法的思想,使用不同视图之间的差异信息来彼此学习,我们提出了一种集合CO训练算法,可自适应地减少从多个角度嵌入图像标签中的预测误差。在零拍数据集和工业领域中的气缸衬套数据集进行各种实验提供了竞争力的结果。 |
| Cascading Convolutional Temporal Colour Constancy Authors Matteo Rizzo, Cristina Conati, Daesik Jang, Hui Hu计算颜色恒定CCC包括估计场景中的一个或多个光源的颜色并使用它们去除不需要的色变失真。许多研究专注于单幅图像对CCC的发光体估计,几次尝试利用相关图像序列中的时间信息,例如,视频中的帧,称为时间颜色常量TCC的任务。用于TCC的技术是TCCNET,一种深入学习架构,它使用CONMLSTM来聚合由CNN子模块以序列中的每个图像产生的编码。我们将该架构扩展了具有不同型号,该架构通过用C4代替TCCNET子模块,用于CCC定位图像II的现有方法II添加级联策略来执行发光体估计的迭代改进。我们在最近发布的TCC基准测试中测试了我们的模型,并实现了超越现有技术的结果。分析了发光体估计数量对性能的影响,我们表明可以通过在序列中少量选定的帧上训练模型来减少推理时间,同时保持可比的精度。 |
| Direction-aware Feature-level Frequency Decomposition for Single Image Deraining Authors Sen Deng, Yidan Feng, Mingqiang Wei, Haoran Xie, Yiping Chen, Jonathan Li, Xiao Ping Zhang, Jing Qin我们提出了一种新的方向意识的特征级频率分解网络,用于单幅图像。与现有解决方案相比,所提出的网络具有三种令人信服的特性。首先,与以前的算法不同,我们建议在特征级别而不是图像级别执行频率分解,允许在训练过程中包含包含细节的结构和高频图的低频图。其次,我们进一步在低频贴图和高频映射之间建立通信信道,以交互式捕获来自高频贴图的结构,并将它们加回低频贴图,同时从低频贴图提取细节并将其发送回高频图,从而消除雨条纹,同时保留输入图像中更精细的特征。第三,与所有方向一致的卷积滤波器不同的现有算法不同,我们提出了一个方向意识的过滤器,以捕获雨条的方向,以更有效地彻底地清除雨条的输入图像。我们在三个代表性数据集中广泛评估了所提出的方法和实验结果,证实了我们的方法始终如一地优于艺术派威算法的状态。 |
| Image Feature Information Extraction for Interest Point Detection: A Comprehensive Review Authors Junfeng Jing, Tian Gao, Weichuan Zhang, Yongsheng Gao, Changming Sun兴趣点检测是计算机视觉和图像处理中最基本和最严重的问题之一。在本文中,我们对感兴趣点检测的图像特征信息进行了全面的图像特征信息IFI提取技术。为了系统地介绍现有的兴趣点检测方法如何从输入图像中提取IFI,我们提出了一种用于感兴趣点检测的IFI提取技术的分类。根据该分类法,我们讨论了不同类型的IFI提取技术进行兴趣点检测。此外,我们确定与现有的IFI提取技术相关的主要未解决的问题,用于感兴趣点检测和之前未讨论的任何感兴趣点检测方法。提供了现有的流行数据集和评估标准,并评估并讨论了18个现有技术的表演。此外,详细阐述了对IFI提取技术的未来研究方向。 |
| ReS2tAC -- UAV-Borne Real-Time SGM Stereo Optimized for Embedded ARM and CUDA Devices Authors Boitumelo Ruf, Jonas Mohrs, Martin Weinmann, Stefan Hinz, J rgen Beyerer随着低成本机器人系统的出现,如无人驾驶飞行器,嵌入式高性能图像处理的重要性增加了。长期以来,FPGA是唯一能够高性能计算的处理硬件,而同时保持低功耗,对于嵌入式系统是必不可少的。然而,最近增加了基于GPU的系统的可用性,例如由ARM CPU和NVIDIA TEGRA GPU组成的NVIDIA Jetson系列,允许在图形硬件上大规模并行嵌入计算。考虑到这一点,我们提出了一种在ARM和CUDA的设备上实时嵌入式立体声处理的方法,该设备是基于流行和广泛使用的半全局匹配算法。在此,我们通过使用大规模并行计算,以及使用霓虹内在机构来优化嵌入式臂CPU上的矢量化SIMD处理算法的嵌入式CUDA GPU算法优化嵌入式CUDA GPU算法。我们已经在两个公共立体声基准数据集上评估了不同配置的方法,以证明它们可以达到3.3的错误率。此外,我们的实验表明,在VGA图像分辨率上,我们的方法的最快配置达到了高达46个FP。最后,在一个具体情况下具体的定性评估中,我们已经评估了我们方法的功耗,并在连接到DJI矩阵210v2 RTK无人空中车辆UAV的DJI歧管2g上部署它,证明了其实时立体声处理的适用性无人机。 |
| Encouraging Intra-Class Diversity Through a Reverse Contrastive Loss for Better Single-Source Domain Generalization Authors Thomas Duboudin imagine , Emmanuel Dellandr a, Corentin Abgrall, Gilles H naff, Liming Chen当在培训数据领域之外测试时,传统的深度学习算法通常无法概括。因为一旦一个学习的模型部署数据分布可以动态地在现实生活中应用的改变,在本文中,我们感兴趣的是单一来源域泛化SDG其目的是开发能够从一个单一的培训域概括测试在没有信息深学习算法域名可在培训时间提供。首先,我们设计了两个简单的MNISTbased SDG基准,即MNIST颜色SDG MP和MNIST颜色SDG起来,这突出困难增加1类相关训练域模式缺少SDG MP,或2个不相关的两个不同的基本SDG问题类SDG UP,在测试数据域。这与当前域泛化DG基准相比鲜明对比,该基准与不同的相关性和变化因子混合,从而在基准测试DG算法时难以解开成功或失效因素。我们进一步通过我们的简单的基准,即MNIST颜色SDG MP,并显示该问题SDG MP主要是,尽管在发展DG算法努力了十年未解决的评价艺术SDG算法几个州。最后,我们还提出了部分逆转对比损失,鼓励类的内多样性,发现少密切相关的模式,应对SDG MP,并表明,该方法是在我们的MNIST颜色SDG MP基准是非常有效的。 |
| Mixed Model OCR Training on Historical Latin Script for Out-of-the-Box Recognition and Finetuning Authors Christian Reul, Christoph Wick, Maximilian N th, Andreas B ttner, Maximilian Wehner, Uwe Springmann为了完全自动将光学字符识别OCR应用于拉丁文脚本的历史印刷,我们报告我们的努力在盒子中施加外,我们努力构建一个广泛适用的多边识别模型,以左右2个左右2的字符错误率CER。此外,我们展示了如何进一步向特定的印刷类进一步开发到特定的手动和计算工作。混合或多边形模型在各种各样的材料上培训,从15日到19世纪的年龄,排版各种类型的护腿和抗谜,以及其他类型的语言,德国,拉丁语和法语。优化我们组合的结果,如预先预订,数据增强和投票等OCR培训的建立技术。此外,我们使用各种预处理方法来丰富培训数据并获得更强大的模型。我们还实现了两级方法,首先在所有可用的,大量不平衡数据上列车,然后通过对所选择的更平衡子集进行培训来改进输出。 29以前看不见的书籍的评估导致1.73的CER,优于一个广泛使用的标准模型,即近40的CER为2.84。从我们的混合模型开始训练一些看不见的早期现代拉丁书籍,从我们的混合模型导致1.47的CER,与从上述标准模型的训练相比,培训和高达30的培训相比,增长50次。我们的新混合模型是公开可供社区开放的。 |
| Vision-Language Navigation with Random Environmental Mixup Authors Chong Liu, Fengda Zhu, Xiaojun Chang, Xiaodan Liang, Yi Dong ShenVision语言导航VLN任务要求代理通过步骤逐步导航,同时感知视觉观察并理解自然语言指令。大数据偏置,这是由小数据量表和大型导航空间之间的视差比率引起的,使得VLN任务具有挑战性。以前的作品提出了各种数据增强方法来减少数据偏差。但是,这些作品不会明确降低不同房间场景的数据偏差。因此,该代理将覆盖所见的场景并在看不见的场景中实现较差的导航性能。为了解决这个问题,我们提出了随机环境混合REM方法,它通过混合环境为增强数据产生交叉连接的房屋场景。具体地,我们首先根据每个场景的房间连接图选择键视点。然后,我们交叉连接不同场景的关键视图以构建增强场景。最后,我们在交叉连接场景中生成增强的指令路径对。基准数据集的实验结果表明,我们通过REM的增强数据帮助代理商会降低所看到和看不见的环境之间的性能差距,提高整体性能,使我们的模型成为标准VLN基准上的最佳现有方法。 |
| Reverse Engineering of Generative Models: Inferring Model Hyperparameters from Generated Images Authors Vishal Asnani, Xi Yin, Tal Hassner, Xiaoming Liu艺术状态的SOTA生成模型GMS可以合成难以为人类的照片逼真的图像来区分真实照片。我们建议执行GM的逆向工程,从这些模型生成的图像中推断模型超参数。我们定义了一种新颖的问题,模型解析,因为通过检查其生成的图像来估计通用网络架构和培训损失功能,这是一个似乎对人类不可能的任务。为了解决这个问题,我们提出了一种与两个组件的框架,该组件是指纹估计网络FEN,其通过用四个约束训练来估计来自生成的图像,以鼓励指纹具有预测网络的解析网络PN,其预测网络估计指纹的架构和损失函数。为了评估我们的方法,我们收集一个带有100k图像的假图像数据集,由100 GM生成。广泛的实验表明,令人鼓舞的结果在解析看不见的模型的超级参数方面。最后,我们的指纹估计可以利用DeepFake检测和图像归因,因为我们通过报告SOTA在最近的Celeb DF和图像归因基准上显示。 |
| Domain Adaptive SiamRPN++ for Object Tracking in the Wild Authors Zhongzhou Zhang, Lei Zhang受益于大规模培训数据,基于暹罗的物体跟踪的最近进步已经取得了正常序列上的引人注目的结果。虽然基于暹罗的跟踪器假设培训和测试数据遵循相同的分布。假设有一组有雾或多雨的测试序列,不能保证在正常图像上培训的跟踪器对属于其他域的数据表现良好。在对象检测和语义分割区域中已经讨论了训练和测试数据之间的域移位问题,然而,尚未对视觉跟踪进行调查。为此,基于SIAMRPN,我们介绍了一个域自适应SIAMRPN,即DASIAMRPN,以提高跟踪器的跨域可转换性和鲁棒性。灵感来自距离理论,我们呈现了两个域自适应模块,像素域适配PDA和语义域适配SDA。 PDA模块对齐模板和搜索区域图像的特征映射,以消除天气,照明等引起的像素级域移位。SDA模块对齐跟踪目标S外观的特征表示,以消除语义级域移位。 PDA和SDA模块通过以侵权培训方式学习域分类器来减少域视差。域分类器强制执行网络以学习域不变功能表示。在两个不同结构域的标准数据集上进行广泛的实验,包括合成有雾和TIR序列,这证明了所提出的跟踪器的可转换性和域适应性。 |
| Keep CALM and Improve Visual Feature Attribution Authors Jae Myung Kim, Junsuk Choe, Zeynep Akata, Seong Joon Oh类激活映射或凸轮一直是多个愿景任务的特征归因方法的基石。其简单性和有效性导致了广泛的应用在视觉预测和弱监督本地化任务中的应用。但是,Cam有自己的缺点。归因映射的计算依赖于不属于训练计算图的临时校准步骤,使我们难以理解归因值的真实含义。在本文中,通过明确地结合编码提示位置的潜变量来改进CAM以在制定中识别,从而将归属映射归入训练计算图。由此产生的模型,类激活潜在映射或平静,接受期望最大化算法培训。我们的实验表明,平静地识别比凸轮和其他视觉归属基线更准确地识别图像分类器的判别属性。平静还显示出对弱监督对象本地化基准的现有技术的性能改进。我们的代码可供选择 |
| A Hybrid mmWave and Camera System for Long-Range Depth Imaging Authors Diana Zhang, Akarsh Prabhakara, Sirajum Munir, Aswin Sankaranarayanan, Swarun Kumar由于MMWAVE无线电频率的高带宽,MM波雷达提供出色的深度分辨率。然而,它们本质上从角度分辨率差,这是比相机系统更差的数量级,因此不是能够隔离的3D成像解决方案。我们提出了Metamoran,该系统结合了雷达和摄像机系统的互补优势,以高方位角分辨率在几十米高的高精度下获得深度图像,高精度,全部来自单个固定的有利程度。 Metamoran通过应用于路边安全基础设施,监控和广域映射,使得富裕的远程深度成像。我们的主要洞察力是使用计算机视觉技术(包括图像分割和单眼深度估计)从相机中使用高方位角分辨率,以获得对象形状并使用这些作为我们的新型镜面波束形成算法的前沿。我们还将这种算法设计在杂乱的环境中,具有薄的反射和部分遮挡的场景。我们在200多个场景中对Metamoran S深度成像和传感能力进行了详细的评估。我们的评估表明,Metamoran估计,与28厘米的中值误差,与单眼雷达相机基线相比,与单眼雷达相机基线相比,相比单眼雷达相机基线相比,对物体的深度估计高达60米的深度。 |
| G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person Re-Identification Authors Lin Wan, Zongyuan Sun, Qianyan Jing, Yehansen Chen, Lijing Lu, Zhihang LiRGB红外IR人员RE识别旨在检索异构模式之间的兴趣,患有由不同感官设备引起的大型模塑差异。现有方法主要关注全球水平的方式对齐,而忽视样品水平的模态分歧,在一定程度上导致性能下降。本文试图从解决样本水平模态差异找到RGB IR REID解决方案,并提出了一种几何指导双对准学习框架G 2 DA,它共同增强了模态不变性,并加强了具有人类拓扑结构的特征,以提高整体匹配性能。具体而言,G 2Da用姿势估计器提取精确的身体部位特征,用作辅助全局描述符中的丢失的本地细节的语义桥。基于提取的局部和全局特征,引入了从最佳运输中得出的新的分布限制以减轻细粒样的样品水平方式的模态间隙。在两种模式的双方关系之外,它还测量了不同部分的结构相似性,因此多级别特征和它们的关系在共同的特征空间中保持一致。考虑到固有的人体拓扑信息,我们进一步提前了一种几何指导图形学习模块来优化每个零件特征,其中可以强调相关区域,而无意义的区域被抑制,有效地促进了鲁棒特征学习。两个标准基准数据集的广泛实验验证了我们所提出的方法的优势,对最先进的方法产生竞争性能。 |
| Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection Authors Zhenyu Zhang, Yanhao Ge, Renwang Chen, Ying Tai, Yan Yan, Jian Yang, Chengjie Wang, Jilin Li, Feiyue Huang非参数面建模旨在仅从没有形状假设的图像重建3D面。虽然预测了合理的面部细节,但模型倾向于过度取决于局部颜色外观并遭受模糊的噪音。为了解决此类问题,本文提出了一种新颖的学习,用于汇总和个性化无监督的鲁棒3D面部建模的LAP框架。该方法而不是使用受控环境,而是隐式解散来自无约束的照片集的ID一致和场景特定面。具体地,为了学习ID一致的面,LAP基于新颖的课程学习方法自适应地聚集了身份的内在面部因素,具有宽松的一致性损失。为了使面部适应个性化场景,我们提出了一种新颖的属性炼油网络,可以使用目标属性和细节修改ID一致面。基于所提出的方法,我们从有意义的图像面部结构和可能更高的分辨率制作无监督的3D面部建模。与基准展示圈的大量实验展示圈恢复了卓越的面部形状和纹理,与有或没有先前和监督的艺术SOTA方法相比。 |
| Cluster-guided Asymmetric Contrastive Learning for Unsupervised Person Re-Identification Authors Mingkun Li, Chun Guang Li, Jun Guo未经监督的人重新识别RE ID旨在将行人图像与无监督设置中不同的相机视图匹配。未经监督者RE ID的现有方法通常基于群集群集的伪标签构建。然而,聚类的质量大量取决于学习特征的质量,这些功能的质量压倒地由图像中的颜色绝大地占主导地位,特别是在无监督的环境中。在本文中,我们提出了一种针对无监督者RE ID的集群引导的不对比对比学习CACL方法,其中利用集群结构来指导特征学习在适当设计的不对称对比学习框架中。具体而言,我们提出了一种新的聚类水平对比损失,以帮助暹罗网络有效地在不同数据增强视图内和之间的集群结构中的特征学习中的不变性。在三个基准数据集中进行的广泛实验表明了我们提案的卓越表现。 |
| Canonical Face Embeddings Authors David McNeely White, Ben Sattelberg, Nathaniel Blanchard, Ross Beveridge我们展示了证据表明,许多常见的卷积神经网络CNNS接受过面部验证的CNN,学习旋转几乎等同的功能。更具体地,我们证明了一个面部验证模型S嵌入物I.E。最后一层激活可以直接与旋转或线性变换之后直接与另一模型S嵌入式进行比较,具有很小的性能损失。使用IJB C 1 1验证在训练数据集,CNN架构,角度损失的方式变化的基于架CNN的架子CNN的架子验证模型中的十种现代的组合中进行了演示。或者达到平均值真正的接受率为0.96,假接受率为0.01。当代替评估从两个CNN生成的嵌入物时,其中一个CNN S嵌入具有线性变换的映射,使用相同的验证范例映射到0.95的平均值。限制这些线性映射仅执行旋转产生的平均真实接受率为0.91。这些映射存在表明,通过培训或结构的变化来学习共同的表示。诸如此类可能具有广泛影响的发现,我们提供了一个应用程序,其中脸部嵌入可以使用有限数量的样本来匿名。 |
| Efficient Facial Expression Analysis For Dimensional Affect Recognition Using Geometric Features Authors Vassilios Vonikakis, Stefan Winkler尽管他们持续受欢迎,但影响识别的分类方法有局限性,特别是在现实生活中。影响的尺寸模型为识别微妙表达和更细粒度的分析提供了重要的优势。我们介绍了一个简单但有效的面部表情分析FEA系统,用于尺寸影响,仅基于几何特征和偏最小二乘PLS回归。该系统联合学会从一组面部图像中估算唤醒和价额定值。所提出的方法是强大,高效,并且对当代深度学习模型表现出可比的性能,同时需要一小部分计算资源。 |
| Dynamic Distillation Network for Cross-Domain Few-Shot Recognition with Unlabeled Data Authors Ashraful Islam, Chun Fu Chen, Rameswar Panda, Leonid Karlinsky, Rogerio Feris, Richard J. Radke大多数现有的作品在很少的镜头学习依赖于Meta学习网络的大型基础数据集,该数据集通常是与目标数据集相同的域。我们解决跨域的问题很少的镜头学习,基础和目标域之间存在大移位。与未标记的目标数据的横域几乎拍摄的问题很大程度上是在文献中毫无压紧的。启动是使用自我训练解决此问题的第一个方法。但是,它使用标记为基础数据集的固定教师预先磨削,为未标记的目标样本创建软标签。由于基础数据集和未标记的数据集来自不同的域,将基本数据集的类域中的目标图像投影,具有固定的预磨模模型可能是子最佳的。我们提出了一种简单的动态蒸馏基础方法,便于从新型基础数据集中的未标记图像。我们通过从教师网络的未标记图像的弱增强版本计算预测并将其与来自学生网络的强大版本匹配的预测来施加一致性正常化。教师网络的参数被更新为学生网络参数的指数移动平均值。我们表明,所提出的网络了解可以轻松适应目标域的表示,即使它尚未在预先预测阶段的目标特定类别训练。我们的模型优于现有技术的现有状态4.4拍摄1次,3.6在BSCD FSL基准中的5次拍摄分类,并在传统域名射门学习任务中显示了竞争性能。我们的代码将可用 |
| DFM: A Performance Baseline for Deep Feature Matching Authors Ufuk Efe, Kutalmis Gokalp Ince, A. Aydin Alatan提出了一种新颖的图像匹配方法,其利用由搁架深神经网络提取的学习特征来获得有希望的性能。该方法使用预先训练的VGG架构作为特征提取器,并且不需要特定的任何额外训练来改善匹配。受到心理区域的良好概念的启发,例如精神旋转范式,由于初步几何变换估计而进行初始翘曲。这些估计简单地基于待匹配的图像的VGG网络输出终端层的最近邻居的密集匹配。在该初始对准之后,在参考和对准图像之间再次重复相同的方法以分层方式达到良好的本地化和匹配性能。我们的算法以平均匹配的精度MMA实现了0.57和0.80的总体分数,分别在HPAPTES数据集上分别匹配1像素和2个像素阈值,这表明了比现有技术的更好的性能。 |
| Flow Guided Transformable Bottleneck Networks for Motion Retargeting Authors Jian Ren, Menglei Chai, Oliver J. Woodford, Kyle Olszewski, Sergey Tulyakov人类议案retrargeting旨在将一个人的运动转移到驾驶视频或一组图像中给另一个人。现有努力从每个目标人员利用长期训练视频来训练主题特定运动转移模型。然而,这种方法的可扩展性是有限的,因为每个模型只能为给定的目标主体生成视频,并且这种培训视频是获得和过程的劳动力集约化。很少拍摄运动传输技术,只需要目标中的一个或几个图像,最近引起了相当大的关注。方法解决此任务通常使用2D或显式的3D表示来传输运动,并且在这样做时,牺牲准确的几何建模或结束以结束学习的统计数据。灵感来自可转换的瓶颈网络,它呈现了刚性物体的新颖观点和操纵,我们提出了一种基于图像内容的隐式体积表示的方法,然后可以使用体积流场在空间上操纵。我们解决了如何在不同身体姿势聚合信息的挑战性问题,学习流场,其允许将内容与高度刚性人体对象的高度刚性人体的输入图像的相应区域组合成单个隐式体积表示。这使我们能够仅从移动人们的视频来学习我们的3D表示。使用3D对象理解和结束到结束学习渲染,这种明显的新颖表示提供了艺术图像生成质量的状态,如我们的定量和定性评估所示。 |
| Potato Crop Stress Identification in Aerial Images using Deep Learning-based Object Detection Authors Sujata Butte, Aleksandar Vakanski, Kasia Duellman, Haotian Wang, Amin Mirkouei最近关于遥感和基于深度学习的应用在精密农业中的应用研究表明了改善作物管理和农业生产环境影响的潜力。尽管有希望的结果,但这些技术对于实际情况部署的实际相关性需要新颖的算法,用于分析农业图像和自然场地图像的鲁棒。本文介绍了使用深神经网络分析马铃薯作物的空中图像的方法。主要目标是展示在植物水平的健康与强调作物的自动空间识别。具体而言,我们检查早产植物衰老导致赤褐色伯班鹬马铃薯植物的干旱胁迫。所提出的深度学习模型命名为Retina Unet AG,是Retina Unet Jaeger等人的变种,2018年,并包括从低级语义密集表示地图到特征金字塔网络的连接。本文还介绍了用独奏无人机飞行器携带的鹦鹉红杉相机获取的现场图像的数据集。实验验证证明了区分健康和强调植物在现场图像中的能力,实现了0.74的平均骰子评分系数。与对象检测的艺术深度学习模型的相关状态的比较揭示了所提出的方法对于手头的任务是有效的。此处应用的方法有利于评估和识别马铃薯作物应激早期植物衰老在这种情况下在真实条件下收集的天然空中野外图像中产生的干旱胁迫。 |
| Learning Deep Morphological Networks with Neural Architecture Search Authors Yufei Hu, Nacim Belkhir, Jesus Angulo, Angela Yao, Gianni Franchi通过顺序执行线性和非线性过程来产生深神经网络DNN。使用线性和非线性过程的组合对于产生足够深的特征空间至关重要。大多数非线性运算符是激活函数或池功能的推导。数学形态是数学的分支,为各种图像处理问题提供非线性运营商。我们调查在本文结束时结束结束深入学习框架的效用。 DNN旨在获得特定工作的现实表现。形态学算子提供拓扑描述符,其传达关于图像中描绘的物体的形状的突出信息。我们提出了一种基于Meta学习的方法,将形态运算符纳入DNN。学习的架构演示了我们的新形态操作如何显着提高各种任务的DNN性能,包括图像分类和边缘检测。 |
| Face Age Progression With Attribute Manipulation Authors Sinzith Tatikonda, Athira Nambiar, Anurag Mittal面部是人识别的主要方法之一。在老化过程中,人类的脸部容易出现许多因素,例如时间,属性,天气和其他主题的特定变化。面部衰老的文献中没有很好地研究这些因素的影响。在本文中,我们在这方面提出了一种新的整体模型。,具有属性操纵FAWAM的面部年龄进展,即在不同年龄的生成面部图像,同时改变属性和其他主题特定特征。我们以自下而上的方式解决任务,作为两个子模块I.E.面对年龄的进展和面部属性操纵。对于面部老化,我们使用具有金字塔生成的对抗网络的属性意识的面部老化模型,可以模拟年龄特异性面部变化,同时保持内在的主题特定特征。对于面部属性操纵,使用所需属性操纵年龄处理的面部图像,同时保留其他细节不变,利用属性生成的对抗网络架构。我们在标准大规模数据集中进行广泛的分析,我们的模型定量和定性地实现了显着性能。 |
| Self-Supervised Learning with Kernel Dependence Maximization Authors Yazhe Li, Roman Pogodin, Danica J. Sutherland, Arthur Gretton从统计依赖角度来看,我们接近自我监督的图像表示的学习,提出了与希尔伯特施密特独立性标准SSL HSIC的自我监督学习。 SSL HSIC最大化了图像和图像标识的转换版本的表示之间的依赖性,同时最小化这些特征的内核方差。这种自我监督的学习框架产生了对Infonce的新了解,在不同变换之间的相互信息中的变分下限。虽然已知MI本身具有可能导致毫无意义的表现出来的病理学,但其界限更好地表明它表明它用略微不同的规范器隐含地逼近SSL HSIC。我们的方法也向我们深入了解拜来,因为SSL HSIC同样了解了样本的当地社区。 SSL HSIC允许我们直接在批量大小中直接优化统计依赖性,而无限制的数据假设或间接互信息估计。 SSL HSIC培训或没有目标网络,SSL HSIC与Imagenet上的标准线性评估,半导体监督学习和转移到其他分类,深度估计和对象识别等分类和视觉任务的标准线性评估。 |
| Efficient Micro-Structured Weight Unification for Neural Network Compression Authors Sheng Lin, Wei Jiang, Wei Wang, Kaidi Xu, Yanzhi Wang, Shan Liu, Songnan Li压缩深度神经网络DNN模型以缓解存储和计算要求对于实际应用至关重要,特别是对于资源限制设备。尽管能够减少合理量的模型参数,之前的非结构化或结构化的重量修剪方法可以很难真正地加速推理,其是由于非结构化稀疏性的差或由于结构修剪网络的低稀疏速率而导致的硬件兼容性差。旨在减少存储和计算,以及保留原始任务性能,我们提出了一种在硬件兼容的微结构化水平的广义权重统一框架,以实现大量的压缩和加速度。统一所选微结构块的重量系数以减少块的存储 |