AI视野·今日CS.CV 计算机视觉论文速度 Wed,16 Jun 2021 Totally 76 papers ???更精彩请移动主页
Daily Computer Vision Papers
Is this Harmful? Learning to Predict Harmfulness Ratings from Video Authors Johan Edstedt,Johan Karlsson,Francisca Benavente,Anette Novak,Amanda Berg,Michael Felsberg自动识别视频中的有害内容是广泛应用程序的一项重要任务。然而,由于收集高质量的标签和苛刻的计算要求,没有满足任务的一般方法。通常,只考虑问题的儿童集,如识别暴力内容。在解决一般问题时,粗略地简化了缺乏标签和计算复杂性。在这项工作中,我们识别并解决了两个主要障碍。首先,我们创建了一个大约4000个视频片段的数据集,由该领域的专业人员进行注释。其次,我们展示了视频识别的进步,使我们的数据集能够在考虑场景的完整性的上下文中实现培训模型。我们对我们的建模选择进行了深入的研究,发现我们非常受益于视觉和音频模型的结合,以及大型视频识别数据集和级平衡采样的预订,进一步提高了性能。我们还进行了定性研究,揭示了我们的大量模型。我们的数据集将在出版时提供。 |
Dynamic Head: Unifying Object Detection Heads with Attentions Authors Xiyang Dai,Yinpeng Chen,Bin Xiao,Dongdong Chen,Mengchen Liu,Lu Yuan,Lei Zhang组合定位和物体检测分类的复杂性导致了繁荣的方法发展。以前的作品试图提高各种对象检测头中的性能,但无法呈现统一视图。在本文中,我们提出了一种新的动态头框架,统一对象检测头的注意事项。通过相互结合特征级别之间的多重自我注意机制来进行规模意识,在空间意识的空间位置,以及在用于任务意识的输出信道内,所提出的方法显着提高了对象检测磁头的表示能力,而没有任何计算开销。进一步的实验表明,拟议的动态头对Coco标准的有效性和效率。使用标准ResNext 101 DCN骨干网,我们大大提高了流行对象探测器的性能,并在54.0 AP新的现有技术已经实现。此外,使用最新的变压器骨干和额外数据,我们可以使用最好的CoCo结果推动到60.6 AP新记录。该代码将被释放 |
Gradient Forward-Propagation for Large-Scale Temporal Video Modelling Authors Mateusz Malinowski,Dimitrios Vytiniotis,Grzegorz Swirszcz,Viorica Patraucean,Joao Carreira如何在大量时间数据上有效地训练神经网络,计算更新参数所需的渐变,BackPropagation阻止计算,直到前后通行证完成。对于时间信号,它引入了高延迟,阻碍了实时学习。它还在连续层之间产生耦合,这限制了模型的并行性,并增加了存储器的消耗。在本文中,我们侧向构建,以避免在时间之前向前传输类似的梯度,并提出了基于跳过连接的不同变体的时间集成机制。我们还展示了如何将计算和指定的个人神经模块委托给不同的设备,允许分布式和并行训练。建议跳过侧面实现低延迟训练、模型并行性,重要的是提取时间特征,导致更稳定的训练和视频数据集,如HMDB51,UCF101和大动力学600 。最后,我们还表明,跳过横向训练的模型比侧向模型有更好的未来框架,因此他们可以更好地利用运动线索。 |
Multi-StyleGAN: Towards Image-Based Simulation of Time-Lapse Live-Cell Microscopy Authors Tim Prangemeier,Christoph Reich,Christian Wildner,Heinz Koeppl荧光显微镜的时间间隔TLFM结合预测数学建模是研究单个细胞水平固有动态生命过程的有力工具。这个实验昂贵、复杂、劳动密集型。一种免费的方法和完全的方法Silico实验的步骤是综合图像本身。在这里,我们提出了一种基于过去实验的多样式描述活细胞时间间隔荧光显微图像的方法。新颖的生成对抗网络合成了连续时间步导的多个域序列。我们在微结构环境中展示了多个活酵母细胞的图像,并将数据集记录在我们的实验室中。模拟捕获细胞形态、生长、物理相互作用、荧光报告蛋白强度等基本生物物理因素和时间依赖性。立即应用程序是为特征提取算法生成额外的培训和验证数据,或帮助和加快开发先进的实验技术,如在线监测或控制细胞。 |
Generating Data Augmentation samples for Semantic Segmentation of Salt Bodies in a Synthetic Seismic Image Dataset Authors Luis Felipe Henriques,S rgio Colcher,Ruy Luiz Milidi ,Andr Bulc o,Pablo Barros如今,地下盐体的本地化和描述,也被称为盐体的语义细分,是地球上最具挑战性的物理主义任务之一。因此,识别大盐体是臭名昭著的,对于识别碳氢化合物储存层和钻井规划至关重要。本工作提出了一种基于培训两种生成模型的数据增强方法,以增加用于盐体语义分割的地震图像数据集中的样本数量。我们的方法使用深度学习模型来生成地震图像补丁和各自的盐模型,以增强数据。第一个模型是一个负责生成盐模块的变形式自动化器。二是条件属于一体化流量模型,其接收生成的代码作为输入和生成相关的地震图像斑块。通过比较两个合成地震图像的数据集中,我们比较了十个不同状态的十个不同状态的性能,并从两个合成地震图像的数据集中进行了评估。所有比较模型的方法都将生成8个地震图像。.57平均改善。最好的结果是通过DEEPLABV在我们的增强过程中,3模型变体实现了95.17的iou得分。此外,我们的提案表现优于六种选择的数据增强方法,通过增强弹性转换来实现我们DA,实现了9.77比较中最显著的改进。最后,我们表明,该方法适应了较大的上下文尺寸,以实现相当于较小上下文尺寸的结果。 |
Multi-script Handwritten Digit Recognition Using Multi-task Learning Authors Mesay Samuel Gondere,Lars Schmidt Thieme,Durga Prasad Sharma,Randolf Scholz手写数字识别是机器学习中的广泛研究领域之一。Mnist DataSet上的手写数字识别方面的更广泛的研究外,还有许多关于各种脚本识别的研究工作。然而,对于多脚本数字识别并不是很常见,这鼓励开发强大和多用途系统。另外,在多脚本数字识别上工作,可以将脚本分类视为相关任务的脚本分类。显然,使用相关任务中包含的信息,多任务学习通过电感转移来提高模型性能。因此,在本研究中,将研究使用多任务学习的多脚本手写的数字识别。作为证明问题解决方案的具体情况,Amharic手写字符识别也将进行实验。研究了三个脚本的手写数字,包括拉丁语,阿拉伯语和kannada,表明,具有对各个任务的重新制定的多项任务模型已经显示出有前途的结果。在这项研究中,提出了一种使用各个任务预测的新方式,以帮助分类性能并规范不同的损失以获得主要任务的目的。此发现优于基线和传统的多任务学习模型。更重要的是,它避免了需要加权不同损失的任务损失,这是多任务学习中的挑战之一。 |
Towards Total Recall in Industrial Anomaly Detection Authors Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Sch lkopf, Thomas Brox, Peter Gehler能够发现有缺陷的部件是大规模工业制造中的关键组成部分。我们在这项工作中解决的特殊挑战是冷启动问题适合使用标称无缺陷示例图像的模型。虽然每个级别的手工制作的解决方案是可能的,但目标是构建自动在许多不同任务上同时运行的系统。最好的PEFORMING方法将嵌入与异常检测模型的Imagenet模型组合。在本文中,我们在此工作行中扩展并提出了PatchCore,它使用最大代表性的名义补丁功能。 PatchCore提供竞争力的推理时间,同时实现检测和本地化的最先进性能。在标准数据集MVTEC广告中,PACKCORE实现了图像级异常检测AUROC评分为99.1,而不是与下一个最佳竞争对手相比的错误。我们进一步报告了两个额外数据集的竞争结果,并在少数样品制度中找到了竞争结果。 |
BEiT: BERT Pre-Training of Image Transformers Authors Hangbo Bao, Li Dong, Furu Wei我们介绍了一个自我监督的视觉表达模型Beit,其代表来自图像变压器的双向编码器表示。在自然语言处理区域开发的BERT之后,我们向前拉视觉变压器提出了一个蒙面的图像建模任务。具体地,每个图像在我们的预训练中具有两个视图,即,诸如16x16像素的图像补丁以及Visual tokens i.e.,离散令牌。我们首先将原始图像授予视觉令牌。然后我们随机掩盖一些图像修补程序并将其送入骨干变压器。预训练目标是根据损坏的图像补丁恢复原始的视觉令牌。在Pre训练Beit之后,我们通过在佩带的编码器上附加任务图层直接微调下游任务的模型参数。图像分类和语义分割的实验结果表明,我们的模型通过先前的预培训方法实现了竞争力。例如,基本尺寸BEIT在Imagenet 1K上实现了83.2前1个精度,从划痕Deit训练81.8具有相同的设置,显着优化。此外,大尺寸BEIT仅使用Imagenet 1K获得86.3,甚至优于vit L,在想象成22K 85.2上有监督的预训练。代码和预磨料型号可用 |
Spot the Difference: Topological Anomaly Detection via Geometric Alignment Authors Steffen Czolbe, Aasa Feragen, Oswin Krause几何对齐出现在各种应用中,从域间适配,最佳运输和机器学习光流量中的归一化流量,以及在计算机视觉中的学习中学到的生物医学成像中的可变形登记。经常性挑战是域的对齐,其拓扑在下游分析中常规忽略的问题不同样的问题。作为解决这种对准问题的第一步,我们提出了一种无监督的拓扑差异检测算法。该模型基于条件变形自动编码器,并检测关于登记步骤的参考的拓扑异常。我们考虑在空间变化和B意外转换下的图像中的拓扑变化。我们的方法是在图像中无监督异常检测的代理任务验证。 |
A Spacecraft Dataset for Detection, Segmentation and Parts Recognition Authors Dung Anh Hoang, Bo Chen, Tat Jun Chin几乎所有现代生活的各个方面都依赖于太空技术。由于伟大的计算机愿景促进了一般的基于深度学习的技术,特别是在几十年中,世界目睹了深入学习的越来越多,在解决空间应用中的问题,如自动驾驶机器人,示踪剂,像机器人这样的昆虫宇宙和健康监测航天器。这些只是在深度学习的帮助下具有高级空间产业的一些突出示例。然而,深度学习模型的成功需要大量的培训数据来进行体面的性能,而另一方面,有很多有限的公共空间数据集,用于深入学习模型的培训。目前,没有用于基于空间的对象检测或实例分段的公共数据集,部分原因是手动注释对象分割掩码,因为它们需要像素级标记时非常耗时,更不用说从空间获得图像的挑战。在本文中,我们的目标是通过释放用于航天器检测,实例分割和部分识别的数据集来填补这种差距。这项工作的主要贡献是使用空间站和卫星图像的数据集的开发,具有丰富的注释,包括用自动过程和手动努力的混合物获得的空间盒和掩模的横向箱和掩模。我们还提供对象检测和实例分段中的最先进方法的评估作为数据集的基准。可以在下载所提出的数据集的链接 |
Weakly-Supervised Photo-realistic Texture Generation for 3D Face Reconstruction Authors Xiangnan Yin, Di Huang, Zehua Fu, Yunhong Wang, Liming Chen虽然最近在3D面部重建方面取得了很大进展,但最先前的工作已经致力于预测准确和细粒度的3D形状。相比之下,相对较少的工作侧重于产生高保真面纹理。与照片现实2D面貌图像生成的繁荣相比,尚未研究高保真3D面纹理生成。在本文中,我们提出了一种新的UV地图生成模型,其预测来自单个面部图像的UV映射。该模型由UV采样器和UV发生器组成。通过选择性地对输入面部图像S像素进行采样并调整它们的相对位置,UV采样器产生不完整的UV地图,可以忠实地重建原始面。不完整的UV地图中缺少纹理由UV发生器填充。培训基于由3DMM纹理和输入面纹理混合的伪接地真理,从而弱监督。要处理伪紫外线图中的伪影,可以利用多个部分UV映射鉴别器。 |
Generating Thermal Human Faces for Physiological Assessment Using Thermal Sensor Auxiliary Labels Authors Catherine Ordun, Edward Raff, Sanjay Purushotham热图像揭示了关于人类压力,炎症迹象和可见图像中无法看到的情绪的重要生理信息。提供一种从可见图像产生热面的方法对于远程医疗社区来说是非常有价值的,以便显示该医疗信息。据我们所知,热VT面平移可见有限的作品,并且许多电流工作变得相反的方向,以产生来自热监测图像电视的可见面进行执法应用。结果,我们介绍了FAVTGAN,该VT GAN使用与辅助传感器标签预测网络的PIX2PIX图像转换模型用于从可见图像产生热面。由于大多数电视方法仅在一个热传感器汲取的一个数据源上培训,因此我们将数据集与面孔和城市的培训结合起来。这些组合数据从类似的传感器捕获,以便引导训练和转移学习任务,特别是有价值的,因为可见热面数据集是有限的。与单独的单个数据集上的训练相比,这些组合数据集上的实验表明,FavTan表示生成的热面的SSIM和PSNR分数增加。 |
Computer-aided Interpretable Features for Leaf Image Classification Authors Jayani P. G. Lakshika, Thiyanga S. Talagala植物物种识别是耗时,昂贵,并且需要大量的努力和专业知识。最近,许多研究人员使用深入学习方法来使用植物图像直接对植物进行分类。虽然深入学习模式取得了巨大的成功,但缺乏可解释性限制了他们的广泛应用。为了克服这一点,我们探讨了从植物叶片图像中提取的可解释,可测量和计算机辅助特征的使用。图像处理是特征提取中最具挑战性和关键步骤之一。图像处理的目的是通过去除不期望的失真来改善叶图像。我们算法的主要图像处理步骤涉及我将原始图像转换为RGB红色绿色蓝色图像,II灰度缩放,III高斯平滑,IV二进制阈值,V删除茎,VI关闭孔和VII调整大小。图像处理后的下一步是从植物叶片图像中提取特征。我们介绍了52个计算上有效的功能来分类植物物种。这些功能主要分为四组,因为II形状的特征,II基于颜色的特征,III基于纹理的特征,以及IV Scagnostic功能。长度,宽度,面积,纹理相关,单调和粗糙度是为了命名其中很少。我们探讨了在监督学习和无监督的学习环境下歧视兴趣阶层的功能的能力。为此,监督维度降低技术,线性判别分析LDA和无监督的维度降低技术,主要成分分析PCA用于转换和可视化数字图像空间的图像到特征空间。结果表明,在监督和无监督的学习设置下,该特征足以区分兴趣的课程。 |
Mutation Sensitive Correlation Filter for Real-Time UAV Tracking with Adaptive Hybrid Label Authors Guangze Zheng, Changhong Fu, Junjie Ye, Fuling Lin, Fangqiang Ding无人机的空中车辆无人机的视觉跟踪面临着众多挑战,例如,对象运动和闭塞。这些挑战通常引入目标外观的意外突变并导致跟踪失败。然而,由于预定标签,基于普遍的判别相关滤波器DCF基于诱变的跟踪器对目标突变不敏感,其仅仅专注于训练区域的中心。同时,由遮挡或类似物体引起的外观突变通常会导致错误信息的不可避免地学习。为了应对外观突变,本文提出了一种基于DCF的基于DCF的方法,以增强具有适应性杂交标签的敏感性和抗突变,即MSCF。理想标签与相关滤波器共同优化,仍然是时间的一致性。此外,施加一种新的突变测量,施加称为突变威胁因子MTF以动态校正标签。广泛使用的UAV基准进行了相当大的实验。结果表明,MSCF跟踪器的性能超过了基于技术和基于深的跟踪器的其他26状态。具有38帧的实时速度,所提出的方法足以让UAV跟踪佣金。 |
Relation Modeling in Spatio-Temporal Action Localization Authors Yutong Feng, Jianwen Jiang, Ziyuan Huang, Zhiwu Qing, Xiang Wang, Shiwei Zhang, Mingqian Tang, Yue Gao本文介绍了CVPR 2021的AVA动力学交叉挑战的解决方案。我们的解决方案利用了多种类型的时空模型方法检测,并采用培训策略来集成多个关系建模,以结束多个关系建模到两者结束训练大规模视频数据集。还调查了使用记忆库和长尾分布的FINETUNING,以进一步提高性能。在本文中,我们详细介绍了我们解决方案的实施,并提供了实验结果和相应的讨论。我们终于在AVA动力学测试集上实现了40.67张地图。 |
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera Authors Franziska Mueller, Micah Davis, Florian Bernard, Oleksandr Sotnychenko, Mickeal Verschoor, Miguel A. Otaduy, Dan Casas, Christian Theobalt我们提出了一种用于两个强烈互动手的实时姿态和形状重建的新方法。我们的方法是结合有利性质的广泛列表的前两手跟踪解决方案,即它的标记较少,使用单个消费级别深度相机,实时运行,处理帧间和帧内冲突,并自动调整给用户S手形状。为了实现这一点,我们将最近的参数化手姿和形状模型和基于深神经网络的密集对应预测器嵌入到合适的能量最小化框架中。对于训练对应预测网络,我们基于物理仿真综合了两只手数据集,该物理模拟包括手部姿势和形状注释,同时避免手部穿透。为了达到实时速率,我们在非线性最小二乘问题方面短语拟合,以便可以基于基于高效的GAUSE Newton优化器来优化能量。我们在以前的工作中显示的场景中显示了最先进的场景,包括紧张的两只手掌,显着的手部闭塞和手势相互作用。 |
Demographic Fairness in Face Identification: The Watchlist Imbalance Effect Authors Pawel Drozdowski, Christian Rathgeb, Christoph Busch最近,不同的研究人员发现,面部数据库的图库组合可以诱导对面部识别系统的性能差异,其中将探测图像与所有存储的参考图像进行比较以达到生物识别决定。这种负效应被称为观察列表不平衡效果。在这项工作中,我们向理论上估计的方法估计了对生物识别系统的效果的方法,因为其在人口统计组和所使用的画廊的组成上给出了其验证性能。此外,我们使用开源Accface面部识别系统向公共学术Morph数据库的不同组合的人口亚群,即女性和男性进行识别实验的结果。结果表明,即使在验证方案中的性能差异不太明显,数据库组合物对生物识别系统中的性能差异产生了巨大影响。本研究代表了对观察列表不平衡效应的第一次详细分析,这预计将对面部识别领域的未来研究具有高兴趣。 |
Object detection and Autoencoder-based 6D pose estimation for highly cluttered Bin Picking Authors Timon H fer, Faranak Shamsafar, Nuri Benbarka, Andreas ZellBin采摘是工业环境和机器人的核心问题,主要模块为6D姿势估计。然而,当涉及到小物体时,工业深度传感器缺乏准确性。因此,我们提出了一种在具有小对象的高度杂乱场景中的姿势估计框架,其主要依赖于RGB数据并利用仅用于姿势细化的深度信息。在这项工作中,我们比较对象检测和姿势估计的合成数据生成方法,并引入姿势过滤算法,确定最准确的估计姿势。我们会做我们的 |
Hotel Recognition via Latent Image Embedding Authors Boris Tseytlin, Ilya Makarov深受深度度量学习的酒店识别问题。我们概述了现有的方法,并提出了对对比增生损失的对比损失的修改。我们构建一个强大的管道,用于基准测试度量学习模型,并对酒店50k和Cub200数据集进行实验。对比增长的三态损失显示在50k酒店达到更好的检索。我们开源我们的代码。 |
A Clinically Inspired Approach for Melanoma classification Authors Prathyusha Akundi, Soumyasis Gun, Jayanthi Sivaswamy黑色素瘤是由于皮肤病死亡而导致死亡的主要原因,因此,对黑素瘤的早期和有效诊断感兴趣。当前对黑色素瘤的自动诊断方法使用图案识别或分析识别,如ABCDE不对称,边界,颜色,直径和不断的标准。然而,在实践中,一种差分方法,其中检测到异常值丑小鸭并用于评估奈维病变。在计算机辅助诊断中的差异识别尚未探索差异识别,但可能有益,因为它可以为导出的决定提供临床理由。我们通过执行邻近Nevi的患者患者对比分析IPCA来介绍一种识别和量化丑陋鸭草的方法。然后将其包含在CAD系统设计中进行黑素瘤检测。该设计可确保灵活地处理无法实现IPCA的情况。我们在公共数据集上的实验表明,取决于使用强大的效率网络或中度强大的VGG或Reset Classifier,可以帮助将检测的灵敏度提升到4.0至8.9的检测的灵敏度。 |
Color2Style: Real-Time Exemplar-Based Image Colorization with Self-Reference Learning and Deep Feature Modulation Authors Hengyuan Zhao, Wenhao Wu, Yihao Liu, Dongliang He遗产黑白照片充满了人们的怀旧和过去的光荣回忆。为了更好地重温,在本文中,我们介绍了一个名为Color2Style的基于更深的示例性图像着色方法,以通过用充满活力的颜色填充它们来复活这些灰度图像介质。通常,由于难以获得输入和地理图像对的难度,通常采用无监测和未配对的训练。为了训练示例性的彩色模型,当前算法通常努力实现两个程序,我预先检索具有高相似性的大量参考图像,这是不可避免的和繁琐的II设计复杂模块以将参考图像的颜色传输到传输参考图像的颜色,以便将参考图像的颜色传输到传输到参考图像的颜色来传输参考图像的颜色通过计算和利用它们之间的深度语义对应,例如非本地操作,灰度图像。与以前的方法相反,我们在一端解决和简化上述两个步骤以结束学习程序。首先,我们采用自增强的自我参考训练方案,其中参考图像由来自原始彩色的图形变换产生,由此可以以配对方式配制训练。其次,代替计算复杂和莫名的对应图,我们的方法利用简单且有效的深度特征调制DFM模块,该模块将从参考图像中提取的颜色嵌入物注射到输入灰度图像的深表示中。这种设计更轻便和可理解,实现了实时处理速度的吸引力。此外,我们的模型不需要多种损失函数和正则化术语,如现有方法,但只有两个广泛使用的损耗功能。代码和模型将可用 |
Compositional Sketch Search Authors Alexander Black, Tu Bui, Long Mai, Hailin Jin, John Collomosse我们介绍了一种使用描述多个对象的外观和相对位置的自由手写来搜索图像集合的算法。基于素描的图像检索SBIR方法主要匹配包含单个主导对象不变的查询到其位置。我们的工作利用图纸作为指定整个场景组成的简明和直观的代表。我们训练卷积神经网络CNN,以将屏蔽的视觉特征进行编码,将其汇集到编码组合物中对象的空间关系和外观的空间描述符。在三层损耗下训练CNN骨架作为暹罗网络产生了用于测量组成相似度的公制搜索嵌入,这可以通过应用产品量化有效地利用以供视觉搜索。 |
SAR Image Classification Based on Spiking Neural Network through Spike-Time Dependent Plasticity and Gradient Descent Authors Jiankun Chen, Xiaolan Qiu, Chibiao Ding, Yirong Wu目前,基于卷积神经网络CNN的合成孔径雷达SAR图像分类方法面临着一些问题,例如抗噪声阻力差和泛化能力。尖峰神经网络SNN是智力的核心组成部分之一,具有良好的应用前景。本文根据具有复杂时空时间信息的尖峰序列,基于SNN的无监督和监督学习的完整SAR图像分类器。我们首先阐述了尖峰神经元模型,SNN的接受领域,以及尖峰序列的构建。然后,我们提出了一种基于STDP的无监督学习算法和基于梯度下降的监督学习算法。在MSTAR数据集中的三类图像中单层和双层无监督学习SNN的平均分类准确性分别为80.8和85.1。此外,无监督学习的收敛输出尖峰序列可以用作教学信号。基于TensoRFlow框架,从底部构建单层监督学习SNN,分类精度达到90.05。通过比较SNN和CNNS之间的抗噪声和模型参数,验证了SNN的有效性和优势。重现我们的实验的代码可以在URL上获得 |
Zero-sample surface defect detection and classification based on semantic feedback neural network Authors Yibo Guo, Yiming Fan, Zhiyang Xiang, Haidi Wang, Wenhua Meng, Mingliang Xu缺陷检测和分类技术已从传统的人工视野发生变化到当前的智能自动化检查,但大多数当前的缺陷检测方法都是基于数据驱动方法的训练相关检测模型,考虑到收集一些样本数据的难度工业领域。我们将零射击学习技术应用于工业领域。针对现有潜在特征指南的问题属性注意LFGAA零拍摄图像分类网络,输出潜在属性和人工定义的属性在语义空间中不同,这导致模型性能下降的问题,提出了基于的LGFAA网络通过构建语义嵌入式模块和反馈机制来改进的模型性能和改进的模型性能。同时,对于零拍摄学习的常见域移位问题,基于CO训练算法的思想,使用不同视图之间的差异信息来彼此学习,我们提出了一种集合CO训练算法,可自适应地减少从多个角度嵌入图像标签中的预测误差。在零拍数据集和工业领域中的气缸衬套数据集进行各种实验提供了竞争力的结果。 |
Cascading Convolutional Temporal Colour Constancy Authors Matteo Rizzo, Cristina Conati, Daesik Jang, Hui Hu计算颜色恒定CCC包括估计场景中的一个或多个光源的颜色并使用它们去除不需要的色变失真。许多研究专注于单幅图像对CCC的发光体估计,几次尝试利用相关图像序列中的时间信息,例如,视频中的帧,称为时间颜色常量TCC的任务。用于TCC的技术是TCCNET,一种深入学习架构,它使用CONMLSTM来聚合由CNN子模块以序列中的每个图像产生的编码。我们将该架构扩展了具有不同型号,该架构通过用C4代替TCCNET子模块,用于CCC定位图像II的现有方法II添加级联策略来执行发光体估计的迭代改进。我们在最近发布的TCC基准测试中测试了我们的模型,并实现了超越现有技术的结果。分析了发光体估计数量对性能的影响,我们表明可以通过在序列中少量选定的帧上训练模型来减少推理时间,同时保持可比的精度。 |
Direction-aware Feature-level Frequency Decomposition for Single Image Deraining Authors Sen Deng, Yidan Feng, Mingqiang Wei, Haoran Xie, Yiping Chen, Jonathan Li, Xiao Ping Zhang, Jing Qin我们提出了一种新的方向意识的特征级频率分解网络,用于单幅图像。与现有解决方案相比,所提出的网络具有三种令人信服的特性。首先,与以前的算法不同,我们建议在特征级别而不是图像级别执行频率分解,允许在训练过程中包含包含细节的结构和高频图的低频图。其次,我们进一步在低频贴图和高频映射之间建立通信信道,以交互式捕获来自高频贴图的结构,并将它们加回低频贴图,同时从低频贴图提取细节并将其发送回高频图,从而消除雨条纹,同时保留输入图像中更精细的特征。第三,与所有方向一致的卷积滤波器不同的现有算法不同,我们提出了一个方向意识的过滤器,以捕获雨条的方向,以更有效地彻底地清除雨条的输入图像。我们在三个代表性数据集中广泛评估了所提出的方法和实验结果,证实了我们的方法始终如一地优于艺术派威算法的状态。 |
Image Feature Information Extraction for Interest Point Detection: A Comprehensive Review Authors Junfeng Jing, Tian Gao, Weichuan Zhang, Yongsheng Gao, Changming Sun兴趣点检测是计算机视觉和图像处理中最基本和最严重的问题之一。在本文中,我们对感兴趣点检测的图像特征信息进行了全面的图像特征信息IFI提取技术。为了系统地介绍现有的兴趣点检测方法如何从输入图像中提取IFI,我们提出了一种用于感兴趣点检测的IFI提取技术的分类。根据该分类法,我们讨论了不同类型的IFI提取技术进行兴趣点检测。此外,我们确定与现有的IFI提取技术相关的主要未解决的问题,用于感兴趣点检测和之前未讨论的任何感兴趣点检测方法。提供了现有的流行数据集和评估标准,并评估并讨论了18个现有技术的表演。此外,详细阐述了对IFI提取技术的未来研究方向。 |
ReS2tAC -- UAV-Borne Real-Time SGM Stereo Optimized for Embedded ARM and CUDA Devices Authors Boitumelo Ruf, Jonas Mohrs, Martin Weinmann, Stefan Hinz, J rgen Beyerer随着低成本机器人系统的出现,如无人驾驶飞行器,嵌入式高性能图像处理的重要性增加了。长期以来,FPGA是唯一能够高性能计算的处理硬件,而同时保持低功耗,对于嵌入式系统是必不可� |