资讯详情

【AI视野·今日CV 计算机视觉论文速览 第189期】Fri, 1 Jan 2021

AI视野·今日CS.CV 计算机视觉论文速读 Fri, 1 Jan 2021 Totally 98 papers ???更精彩请移动主页

在这里插入图片描述

Interesting:

****??FPCC-Net, 高速点云聚类算法用于实例分割,主要用于机器人抓取问题,处理多个同类物体的实例分割。 bin-picking 应用场景。(from 东北大学 日本Tohoku) 在机器人捕获的场景中,相互阻挡的类似物体非常复杂,因此需要高效的三维实例分割算法。它主要包括两个模块,一个用于推理特征中心,另一个用于描述每个点的特征。

dataset:Fraunhofer IPA Bin-Picking dataset (IPA) [35] ,XA Bin-Picking dataset (XA) [37]

**??DeepSurfels,一种用于几何和外观的混合场景表达方法,采用显式和神经网络方法对几何特征和外观信息进行联合编码,更好地表达高频特征,适用于在线更新和集成。Scene Representations (from ETH Zurich) 几何拟合过程: 两个模块的具体组成:

3D models from free3d.com and turbosquid.com

*??DEEPSPHERE, 基于图纸的球卷积。(from 洛桑理工) 一些球空间数据示例: https://github.com/deepsphere

??OSTeC, 单样本人脸纹理补全,将侧脸转为正脸(from 帝国理工)

https://github.com/barisgecer/OSTeC

??DUT-LFSaliency多功能光场数据集, 可实现RGB,RGBD和光场的显著性检测,并提出了聚焦流和RGB台式机和移动终端分别用流两种光场表示的模型。(from 大连理工) 本文提出的双信息流检测算法: 现有光场数据集的比较 code:https://github.com/OIPLab-DUT/DUTLF-V2

**??快速高光谱图像重建算法、编码孔径快照光谱成像技术、双目相机压缩图像快速重建/ (from RIKEN) Coded aperture snapshot spectral imaging (CASSI)可利用2D测量捕获高光谱图像。RGB用于估计稀疏,CASSI测量用于提供正交光谱信息。(ref:https://www.doc88.com/p-0711464143433.html) 高光谱数据集dataset: https://www.usgs.gov/ http://icvl.cs.bgu.ac.il/hyperspectral/ http://www1.cs.columbia.edu/CAVE/databases/multispectral/ 高光谱相机:https://www.specim.fi/spectral-cameras/ DeSCI:https://github.com/liuyang12/DeSCI SCI将多帧压缩成一帧的方法 Snapshot compressive imaging:https://arxiv.org/pdf/1807.07837.pdf

*??NeuralMagicEye, 魔眼算法autostereogram,看到隐藏在图像后面的物体(from 密歇根大学安娜堡分校)

??CorrNet3D, 用于匹配密点云间特征的非监督方法。(from 香港城市大学)。 除了特征提取模块外,该模型还包括相应的指示器和对称的变形模块。它们可以生成相应的矩阵,并相互转换输入的两个点云,驱动模型学习两个点云之间的特征。 对应的指示器用于生成两个点云特征之间的对应矩阵,转换器用于点云之间的相互转换: 对应的颜色显示了点云各部分的对应程度: non-rigid: Surreal [13] as the training dataset, test on the SHREC dataset [10] rigid shape: Surreal dataset [13] related methods:DeepGFM [10], DCP [47] and RPMNet [50]

??SparsePipe并行计算框架用于点云, 多GPU支持点云等稀疏数据的计算,构建稀疏张表示(from 弗罗里达大学)

稀疏卷积库:https://github.com/traveller59/spconv

**??视频处理教学系统,包括详细的教材和真实世界的样本,以及互动课程组织。 (from 奥斯丁德克萨斯大学分校) 课程:EE381V

??总结和总结光照估计相关工作, (from Institute for Information Transmission Problems 俄罗斯) SpyderCube calibration object Cube dataset that was used in IEC#1

??使用相机的心率检测, (from VicarVision) dataset:: www.vicarvision.nl/datasets/vicarppg2

??视频压缩编码直接用于边缘设备的深度学习, (from Universidade Federal de S?ao Paulo巴西)

??多媒体仇恨言论检测, (from Abhishek Das)

??结肠镜检测和分割息肉, (from SimulaMet UiT The Arctic University of Norway) MediaEval 2020 dataset:Kvasir-SEG https://multimediaeval.github.io/editions/2020/tasks/medico/

??什么样的视频令人印象深刻, (from University of Essex, UK) MediaEval 2020 dataset:TRECVid 2019 Video-to-Text dataset

??FLAME森林火警数据集, (from Northern Arizona University, US) https://ieee-dataport.org/open-access/flame-dataset-aerial-imagery-pile-burn-detection-using-drones-uavs

Daily Computer Vision Papers

Real-time Wecam Heart-Rate and Variability Estimation with Clean Ground Truth for Evaluation Authors Amogh Gudi, Marian Bittner, Jan van Gemert远程体积容积描记法rPPG使用相机估计人的心率HR。类似于心率如何提供有关人的生命体征的有用信息,可以从心率变异性HRV获得有关潜在生理心理状况的见解。 HRV是心跳间隔中细微波动的量度。但是,该措施需要高精度地临时定位心跳。我们引入了一种经过改进的高效实时rPPG管道,该管道具有新颖的滤波和运动抑制功能,不仅可以估算心率,还可以提取脉搏波形以计时心跳并测量心率变异性。这种不受监督的方法不需要rPPG专门培训,并且能够实时运行。我们还将介绍一个新的多模态视频数据集VicarPPG 2,该数据集专门用于评估HR和HRV估计上的rPPG算法。我们在各种条件下,在广泛的公共和自记录数据集上验证和研究了我们的方法,显示了最新的结果并提供了对某些独特方面的有用见解。最后,我们提供CleanerPPG,它是现有rPPG数据集的经过人工验证的地面真实峰值心跳注释的集合。这些经过验证的注释应使rPPG算法的未来评估和基准测试更加准确,标准化和公平。

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers Authors Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang最新的语义分段方法采用具有编码器解码器体系结构的全卷积网络FCN。编码器逐渐降低空间分辨率,并学习具有更大接收域的更多抽象语义视觉概念。由于上下文建模对于分割至关重要,因此,最新的工作集中在通过扩大的无声卷积或插入注意模块来增加接受域。但是,基于编码器解码器的FCN体系结构保持不变。在本文中,我们旨在通过将语义分割视为序列预测任务的序列来提供替代观点。具体来说,我们部署了一个纯变换器,即不进行卷积和分辨率降低,而是将图像编码为补丁序列。通过在变压器的每一层中建模全局上下文,该编码器可以与简单的解码器组合以提供功能强大的分段模型,称为SEgmentation TRANSformer SETR。广泛的实验表明,SETR在ADE20K 50.28 mIoU,Pascal Context 55.83 mIoU和Cityscapes的竞争结果方面达到了新的水平。特别是,我们在竞争激烈的ADE20K测试服务器排行榜中获得了第一个44.42 mIoU的位置。

Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans Authors Sida Peng, Yuanqing Zhang, Yinghao Xu, Qianqian Wang, Qing Shuai, Hujun Bao, Xiaowei Zhou本文从非常稀疏的摄像机视图集中解决了人类表演者新颖的视图合成所面临的挑战。最近的一些工作表明,在密集的输入视图下,学习3D场景的隐式神经表示可实现非凡的视图合成质量。但是,如果视图非常稀疏,则表示学习将不适当。为了解决这个不适的问题,我们的关键思想是整合对视频帧的观察。为此,我们提出了一种新的人体表示形式“神经体”,它假设在不同框架上学习到的神经表示共享锚定在可变形网格上的同一组潜在代码,从而可以自然地整合跨框架的观察结果。可变形网格还为网络提供了几何指导,以更有效地学习3D表示。在新收集的多视图数据集上进行的实验表明,在视图合成质量方面,我们的方法大大优于以前的工作。我们还展示了我们的方法从People Snapshot数据集上的单目视频中重建移动的人的能力。代码和数据集将在以下位置提供

A CNN Approach to Simultaneously Count Plants and Detect Plantation-Rows from UAV Imagery Authors Lucas Prado Osco, Mauro dos Santos de Arruda, Diogo Nunes Gon alves, Alexandre Dias, Juliana Batistoti, Mauricio de Souza, Felipe David Georges Gomes, Ana Paula Marques Ramos, L cio Andr de Castro Jorge, Veraldo Liesenberg, Jonathan Li, Lingfei Ma, Jos Marcato Junior, Wesley Nunes Gon alves在本文中,我们提出了一种基于卷积神经网络CNN的新颖的深度学习方法,该方法可以同时检测并定位人工林行,同时考虑到高度密集的人工林配置对其植物进行计数。在具有不同生长阶段的玉米田和柑橘园中评估了实验设置。这两个数据集都表征了不同的植物密度情景,位置,农作物类型,传感器和日期。在我们的CNN方法中实现了两个分支的体系结构,其中,在种植行中获得的信息被更新为植物检测分支,并向行分支进行逆向输入,然后通过多阶段优化方法对其进行优化。在具有成年和成熟两个生长阶段的玉米种植数据集中,我们的方法返回的每个图像斑块的平均绝对误差MAE为6.224株,平均相对误差MRE为0.1038,精确度和召回率分别为0.856和0.905,并且F度量等于0.876。这些结果优于使用相同任务和数据集评估的其他深度网络HRNet,Faster R CNN和RetinaNet的结果。对于人工林行检测,我们的方法分别返回0.913、0.941和0.925的精度,召回率和F量度分数。为了测试模型在不同农业类型下的稳健性,我们在柑桔园数据集中执行了相同的任务。它返回的MAE等于每个补丁1.409棵柑橘树,MRE为0.0615,精度为0.922,召回率为0.911,F值为0.965。对于柑橘种植园行检测,我们的方法得出的精确度,召回率和F度量值分别等于0.965、0.970和0.964。所提出的方法实现了对来自不同类型农作物的无人机图像中的植物和植物行进行计数和地理定位的最新技术性能。

iGOS++: Integrated Gradient Optimized Saliency by Bilateral Perturbations Authors Saeed Khorram, Tyler Lawson, Fuxin Li深度网络的黑匣子性质解释了为什么他们做出某些预测极具挑战性。显着图是缓解此问题的最广泛使用的本地解释工具之一。生成显着性图的主要方法之一是通过在输入维度上优化掩码,以使网络的输出受到掩码的影响最大。但是,先前的工作仅通过从输入中删除证据来研究这种影响。在本文中,我们介绍了iGOS,它是生成显着图的框架,该显着图经过优化,可以通过删除或保留一小部分输入来更改黑盒系统的输出。此外,我们建议在优化中添加一个双边总变化项,以提高显着性图的连续性,尤其是在高分辨率和薄物体部分的情况下。通过将iGOS与最新的显着性图方法进行比较得出的评估结果显示,在定位人类可以直接解释的显着区域方面,有了显着的改进。我们将iGOS用于从X射线图像中对19例COVID病例进行分类的任务中,发现在进行分类时,有时CNN网络会过度适合打印在X射线图像上的字符。通过数据清理解决此问题,大大提高了分类器的准确性和召回率。

Illumination Estimation Challenge: experience of past two years Authors Egor Ershov, Alex Savchik, Ilya Semenkov, Nikola Bani , Karlo Koscevi , Marko Suba i , Alexander Belokopytov, Zhihao Li, Arseniy Terekhin, Daria Senshina, Artem Nikonorov, Yanlin Qian, Marco Buzzelli, Riccardo Riva, Simone Bianco, Raimondo Schettini, Sven Lon ari , Dmitry Nikolaev照明估计是计算色彩恒定性的必要步骤,它是现代数码相机各种图像处理管道的核心部分之一。具有准确而可靠的照度估算对于减少照度对图像颜色的影响很重要。为了激励这一领域的新思想的产生和新算法的发展,进行了第二次照明估计挑战IEC 2。与在某些已知数据集上进行测试相比,对挑战进行测试的主要优势在于,直到提交结果之前,挑战测试图像的地面真相照明都是未知的,这可以防止可能进行的任何超参数调整有偏见。

SelectScale: Mining More Patterns from Images via Selective and Soft Dropout Authors Zhengsu Chen, Jianwei Niu, Xuefeng Liu, Shaojie Tang卷积神经网络CNN在图像识别方面取得了显著成功。尽管CNN有效地学习了输入图像的内部模式,但是这些模式仅构成输入图像中包含的有用模式的一小部分。这可以归因于这样一个事实,即如果所学习的模式足以进行正确的分类,则CNN将停止学习。诸如dropout和SpatialDropout之类的网络正则化方法可以缓解此问题。在训练期间,他们会随机删除这些功能。从本质上讲,这些辍学方法会改变网络学习的模式,进而迫使网络学习其他模式以进行正确的分类。然而,上述方法具有重要的缺点。随机丢弃特征通常效率低下,并且会引入不必要的噪声。为了解决这个问题,我们建议使用SelectScale。 SelectScale可以随机选择网络中的重要功能,并在训练过程中对其进行调整,而不是随机丢弃它们。使用SelectScale,我们可以提高CIFAR和ImageNet上CNN的性能。

Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection Authors Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li3D对象检测的最新进展在很大程度上取决于如何表示3D数据,即基于体素或基于点的表示。许多现有的高性能3D检测器都是基于点的,因为这种结构可以更好地保留精确的点位置。然而,由于无序存储,点级功能导致高计算开销。相反,基于体素的结构更适合于特征提取,但由于输入数据被划分为网格,因此通常产生较低的精度。在本文中,我们采取略有不同的观点,我们发现原始点的精确定位对于高性能3D对象检测不是必不可少的,并且粗体素粒度还可以提供足够的检测精度。牢记这一观点,我们设计了一个简单但有效的基于体素的框架,名为Voxel R CNN。通过在两阶段方法中充分利用体素功能,我们的方法可实现与基于点的最新模型可比的检测精度,但计算成本却很小。 Voxel R CNN由3D骨干网络,2D鸟瞰BEV区域提议网络和检测头组成。设计了体素RoI池以直接从体素特征中提取RoI特征,以进行进一步优化。在广泛使用的KITTI数据集和最新的Waymo Open数据集上进行了广泛的实验。我们的结果表明,与现有的基于体素的方法相比,Voxel R CNN可以提供更高的检测精度,同时在NVIDIA RTX 2080 Ti GPU上以25 FPS的速度保持实时帧处理速率(emph)。该代码将很快发布。

NeuralMagicEye: Learning to See and Understand the Scene Behind an Autostereogram Authors Zhengxia Zou, Tianyang Shi, Yi Yuan, Zhenwei Shi自动立体图,又称魔术眼图像,是可以从2D纹理创建3D场景的视觉幻觉的单个图像立体图。本文研究了一个有趣的问题,即能否训练深层的CNN来恢复自动立体图背后的深度并理解其内容。自动立体图魔术的关键在于解决这种问题的立体视觉,模型必须学会发现和估计准周期性纹理的差异。我们展示了嵌入视差卷积的深CNN,这是本文提出的一种新颖的卷积层,可以模拟立体视点并编码视差,在以自我监督的方式在大型3D对象数据集上经过充分训练后,可以很好地解决此类问题。我们将我们的方法称为NeuralMagicEye。实验表明,该方法可以准确地恢复自动立体图背后的深度,并具有丰富的细节和渐变平滑度。实验还显示了神经网络和人眼之间自动立体图感知的完全不同的工作机制。我们希望这项研究可以帮助有视觉障碍的人和查看自动立体图有困难的人。我们的代码可从url获得

CNN-based Single Image Crowd Counting: Network Design, Loss Function and Supervisory Signal Authors Haoyue Bai, S. H. Gary Chan单图像人群计数是一个具有挑战性的计算机视觉问题,在公共安全,城市规划,交通管理等方面具有广泛的应用。本次调查旨在通过密度图估计,对基于卷积神经网络CNN的最新高级人群计数技术进行全面总结。我们的目标是提供有关最新方法的最新评论,并教育该领域的新研究人员设计原则和权衡取舍。在介绍了公开可用的数据集和评估指标之后,我们将对三个主要设计模块进行详细比较,以对最新进展进行回顾,以对深度神经网络设计,损失函数和监督信号进行人群计数。我们以一些未来的方向来结束调查。

Unsupervised Monocular Depth Reconstruction of Non-Rigid Scenes Authors Ay a Takmaz, Danda Pani Paudel, Thomas Probst, Ajad Chhatkuli, Martin R. Oswald, Luc Van Gool复杂和动态场景的单眼深度重建是一个极具挑战性的问题。尽管对于刚性场景,基于学习的方法即使在无人监督的情况下也已提供了令人鼓舞的结果,但几乎没有文献针对动态和可变形场景解决同样的问题。在这项工作中,我们提出了一种用于动态场景密集深度估计的无监督单目框架,该框架可以联合重建刚性和非刚性零件,而无需显式建模摄像机运动。使用密集的对应关系,我们得出了一个训练目标,旨在机会性地保留重建的3D点之间的成对距离。在此过程中,使用尽可能严格的假设隐式地学习密集深度图。我们的方法提供了令人鼓舞的结果,证明了其从非刚性场景的具有挑战性的视频中重建3D的能力。此外,所提出的方法还提供了无监督的运动分割结果作为辅助输出。

CorrNet3D: Unsupervised End-to-end Learning of Dense Correspondence for 3D Point Clouds Authors Yiming Zeng, Yue Qian, Zhiyu Zhu, Junhui Hou, Hui Yuan, Ying He本文解决了以点云的形式计算3D形状之间的密集对应关系的问题,这是计算机视觉和数字几何处理中具有挑战性和根本的问题。常规方法通常以监督方式解决该问题,需要大量带注释的数据,这很难获得或昂贵。出于这样的直觉,即人们可以比未对齐的对更容易,更有意义地将两个对齐的点云彼此转换,因此我们提出了CorrNet3D,这是第一个无监督的,端到端的深度学习框架,通过像重建以克服对带注释数据的需求。具体来说,CorrNet3D包含一个深层特征嵌入模块和两个名为对应指示器和对称变形的新颖模块。馈入一对原始点云,我们的模型首先学习点状特征,并将其传递到指标中,以生成用于对输入对进行置换的可学习的对应矩阵。具有附加正则损失的对称变形器将两个置换的点云彼此转换,以驱动对对应关系的无监督学习。在刚性和非刚性3D形状的合成数据集和真实世界数据集上进行的广泛实验表明,我们的CorrNet3D在很大程度上优于最新方法,包括那些以网格为输入的方法。 CorrNet3D是一个灵活的框架,如果有注释的数据可用,它可以轻松地适应监督学习。

A Deep Retinal Image Quality Assessment Network with Salient Structure Priors Authors Ziwen Xu, beiji Zou, Qing Liu视网膜图像质量评估是诊断视网膜疾病的必要前提。它的目的是识别清晰清晰地显示出吸引眼科医生关注的解剖结构和病变的视网膜图像,同时剔除劣质眼底图像。因此,我们模仿了眼科医生评估视网膜图像质量的方法,并提出了一种称为SalStructuIQA的方法。首先,两个重要的结构用于自动视网膜质量评估。一种是大尺寸的突出结构,包括视盘区域和大尺寸的渗出液。另一个是微小的显着结构,主要包括血管。然后,我们将提出的两个显着结构先验与深度卷积神经网络CNN合并,以将CNN的重点转移到显着结构上。因此,我们开发了两种CNN架构:双分支SalStructIQA和单分支SalStructIQA。双分支SalStructIQA包含两个CNN分支,一个分支由大尺寸的突出结构引导,而另一个分支由小尺寸的突出结构引导。单个分支SalStructIQA包含一个CNN分支,该分支由大小和大小均显着的结构的串联引导。在Eye Quality数据集上的实验结果表明,我们提出的双分支SalStructIQA优于目前用于视网膜图像质量评估的方法,而Single Branch SalStructIQA与最先进的深度视网膜图像质量评估方法相比重量轻,并且仍具有竞争优势。

Patch-wise++ Perturbation for Adversarial Targeted Attacks Authors Lianli Gao, Qilong Zhang, Jingkuan Song, Heng Tao Shen尽管在针对深度神经网络DNN的对抗攻击方面已取得了巨大进展,但其可传递性仍然不尽人意,尤其是针对有针对性的攻击。有两个长期以来被忽视的问题:1传统的T迭代设置具有epsilon T的步长以符合epsilon约束。在这种情况下,大多数像素都可以添加非常小的噪声,这比epsilon和2通常要处理的像素噪声要少得多。然而,由DNN提取的像素的特征受其周围区域的影响,并且不同的DNN通常在识别中着重于不同的区分区域。为了解决这些问题,我们提出了一种补丁式迭代方法PIM,旨在制作具有高可移植性的对抗示例。具体来说,我们在每次迭代中为步长引入一个放大因子,并且溢出一个epsilon约束的一个像素s的整体坡度由项目内核适当地分配给其周围区域。但是有针对性的攻击旨在将对抗性示例推入特定类别的领域,并且放大系数可能会导致拟合不足。因此,我们介绍了温度,并提出了一种逐块迭代方法PIM,以在不显着牺牲白盒攻击性能的情况下进一步提高可传递性。我们的方法通常可以集成到任何基于梯度的攻击方法中。与当前最先进的攻击方法相比,我们将防御模型的成功率平均提高了35.9,对于经过常规训练的模型,则平均提高了32.7。

Incremental Embedding Learning via Zero-Shot Translation Authors Kun Wei, Cheng Deng, Xu Yang, Maosen Li通过学习一组预定义的数据集,现代深度学习方法在机器学习和计算机视觉领域取得了巨大的成功。但是,当将这些方法应用于现实世界时,它们的性能不能令人满意。这种现象的原因是,学习新任务导致训练有素的模型很快忘记了旧任务的知识,这被称为灾难性的忘记。当前最先进的增量学习方法可解决传统分类网络中的灾难性遗忘问题,而忽略了嵌入网络中存在的问题,后者是图像检索,人脸识别,零镜头学习等的基本网络。与传统的增量分类网络不同,在相邻学习环境下,嵌入网络是两个相邻任务的嵌入空间之间的语义鸿沟。因此,我们提出了一种新型的嵌入网络类增量方法,称为零镜头翻译类增量方法ZSTCI,它利用零镜头翻译来估计和补偿语义间隙而没有任何示例。然后,我们尝试在顺序学习过程中为两个相邻任务学习统一的表示形式,从而准确地捕获先前课程和当前课程的关系。此外,ZSTCI可以轻松地与现有的基于正则化的增量学习方法结合使用,以进一步提高嵌入网络的性能。我们对CUB 200 2011和CIFAR100进行了广泛的实验,实验结果证明了该方法的有效性。我们的方法代码已发布。

Audio-Visual Floorplan Reconstruction Authors Senthil Purushwalkam, Sebastian Vicenc Amengual Gari, Vamsi Krishna Ithapu, Carl Schissler, Philip Robinson, Abhinav Gupta, Kristen Grauman仅需看一眼环境,我们就可以推断出整个平面图的多少。现有方法只能映射从上下文可见或立即可见的内容,因此需要在空间中进行大量移动才能完全映射它。我们探讨了音频和视觉传感如何共同从有限的角度提供快速的平面图重建。音频不仅有助于感知相机视野之外的几何形状,而且还揭示了远方自由空间的存在,例如,狗在另一个房间里吠叫,并暗示了相机看不见的房间的存在,例如,洗碗机在嗡嗡声中嗡嗡作响是左边的厨房。我们介绍了AV Map,这是一种新颖的多模式编码器解码器框架,该框架共同针对音频和视觉进行推理,以从短输入视频序列中重建平面图。我们训练模型来预测环境的内部结构和相关房间的语义标签。我们在85个大型现实环境中获得的结果仅显示了一个区域26个区域的几处瞥见,因此,我们可以以66个精度估算整个区域,其效果明显优于现有的可视化地图推断方法。

Learned Multi-Resolution Variable-Rate Image Compression with Octave-based Residual Blocks Authors Mohammad Akbari, Jie Liang, Jingning Han, Chengjie Tu最近,基于深度学习的图像压缩已显示出超越传统编解码器的潜力。然而,大多数现有方法针对多个比特率训练多个网络,这增加了实现复杂性。在本文中,我们提出了一个新的可变速率图像压缩框架,该框架使用广义八度音阶卷积GoConv和广义八度音阶转置卷积GoTConv,并内置了广义除数归一化GDN和逆GDN IGDN层。在编码器和解码器网络中,还开发了基于GoConv和GoTConv的新型残差块。我们的方案还使用基于随机舍入的标量量化。为了进一步提高性能,我们将来自解码器网络的输入和重建图像之间的残差编码为增强层。为了使单个模型能够以不同的比特率运行并学习多速率图像特征,引入了新的目标函数。实验结果表明,所提出的采用可变速率目标函数训练的框架优于标准编解码器,例如基于H.265 HEVC的BPG和基于最新技术的可变速率方法。

TransTrack: Multiple-Object Tracking with Transformer Authors Peize Sun, Yi Jiang, Rufeng Zhang, Enze Xie, Jinkun Cao, Xinting Hu, Tao Kong, Zehuan Yuan, Changhu Wang, Ping Luo多目标跟踪MOT主要由检测算法进行的复杂和多步跟踪控制,该算法分别执行目标检测,特征提取和时间关联。单目标跟踪SOT中的查询关键机制通过前一帧的目标特征来跟踪当前帧的目标,具有建立简单的联合检测和跟踪MOT范式的巨大潜力。但是,由于查询键方法无法检测新出现的对象,因此很少进行研究。在这项工作中,我们提出了TransTrack,这是使用Transformer进行MOT的基准。它利用查询键机制,并将一组学习到的对象查询引入管道中,以检测新的即将到来的对象。 TransTrack具有三个主要优点:1是基于查询键机制的在线联合检测和跟踪管道。简化了先前方法中的复杂步骤和多步骤组件。 2这是基于Transformer的全新体系结构。学习的对象查询将检测当前帧中的对象。来自上一帧的对象特征查询将那些当前对象与先前的对象相关联。 3我们首次展示了一种基于查询键机制的简单有效的方法,而Transformer体系结构可以在MOT17挑战数据集上实现具有竞争力的65.8 MOTA。我们希望TransTrack可以为多对象跟踪提供新的视角。该代码位于url

SID: Incremental Learning for Anchor-Free Object Detection via Selective and Inter-Related Distillation Authors Can Peng, Kun Zhao, Sam Maksoud, Meng Li, Brian C. Lovell增量学习需要一个模型来从流数据中不断学习新任务。但是,在新任务上对训练有素的深度神经网络进行传统的微调会极大地降低旧任务的性能,这是一个灾难性的遗忘问题。在本文中,我们在无锚对象检测的背景下解决了这个问题,这是计算机视觉的一种新趋势,因为它简单,快速且灵活。由于缺乏对特定模型结构的考虑,在这些无锚检测器上简单地采用当前的增量学习策略是失败的。为了应对无锚对象检测器上增量学习的挑战,我们提出了一种新型的增量学习范例,称为选择性和相互相关的蒸馏SID。此外,提出了一种新颖的评估指标,以更好地评估增量学习条件下检测器的性能。通过在适当的位置进行选择性蒸馏并进一步转移其他实例关系知识,我们的方法在基准数据集PASCAL VOC和COCO上显示出显着的优势。

SharpGAN: Receptive Field Block Net for Dynamic Scene Deblurring Authors Hui Feng, Jundong Guo, Sam Shuzhi Ge当在海上航行时,智能船不可避免地会由于风,浪和电流的作用而产生摇摆运动,这使得视觉传感器收集的图像显得运动模糊。这将对基于视觉传感器的物体检测算法产生不利影响,从而影响智能船的航行安全。为了消除智能船航行过程中图像的运动模糊,我们提出了一种基于生成对抗网络的新型图像去模糊方法SharpGAN。首先,将接收场块网络RFBNet引入去模糊网络,以增强网络提取模糊图像特征的能力。其次,我们提出了一种特征损失,该特征损失结合了不同级别的图像特征,以指导网络执行更高质量的去模糊,并改善还原图像和清晰图像之间的特征相似度。最后,我们建议使用轻量级的RFB模块来提高去模糊网络的实时性能。与大规模真实海图数据集和大规模去模糊数据集上的去模糊方法相比,该方法不仅在视觉感知和定量标准上具有更好的去模糊性能,而且具有更高的去模糊效率。

Beating Attackers At Their Own Games: Adversarial Example Detection Using Adversarial Gradient Directions Authors Yuhang Wu, Sunpreet S. Arora, Yanhong Wu, Hao Yang对抗示例是专门为欺骗机器学习分类器而设计的输入示例。现有技术的对抗示例检测方法通过量化多个扰动下特征变化的幅度或通过测量其与估计的良性示例分布的距离来将输入示例表征为对抗。代替使用这种度量,所提出的方法基于以下观察:在制作新的对抗示例时,对抗梯度的方向在表征对抗空间中起关键作用。与使用多个扰动的检测方法相比,该方法是有效的,因为它仅对输入示例应用单个随机扰动。在两个不同的数据库CIFAR 10和ImageNet上进行的实验表明,所提出的检测方法在五种不同的对抗攻击下平均分别达到97.9和98.6 AUC ROC,并且优于多种先进的检测方法。结果证明了使用对抗梯度方向进行对抗示例检测的有效性。

3D Human motion anticipation and classification Authors Emad Barsoum, John Kender, Zicheng Liu人体运动的预测和理解是一个具有挑战性的问题。由于人类运动的复杂动态和未来预测的不确定性。我们提出了一种新的序列到序列模型,用于人类运动预测和特征学习,并使用生成的对抗网络的修改版进行了训练,并具有自定义损失函数,该函数从人类运动动画中汲取灵感,并可以控制来自同一运动的多个预测运动之间的差异输入姿势。

Provident Vehicle Detection at Night: The PVDN Dataset Authors Lars Ohnemus, Lukas Ewecker, Ebubekir Asan, Stefan Roos, Simon Isele, Jakob Ketterer, Leopold M ller, Sascha Saralajew对于高级驾驶员辅助系统,至关重要的是尽早获得有关迎面驶来的车辆的信息。在夜间,由于光线不足,此任务特别困难。为此,在夜间,每辆车都使用大灯来改善视线,从而确保安全行驶。作为人类,我们通过检测前照灯引起的光反射,直观地假设即将迎面驶来的车辆在实际物理上可见之前。在本文中,我们提出了一个新颖的数据集,其中包含夜晚农村环境中349个不同场景中的54659个带注释的灰度图像。在这些图像中,标记了所有迎面驶来的车辆,其相应的照明对象(例如前照灯)以及它们各自的光反射(例如护栏上的光反射)。这伴随着对数据集特征的深入分析。有了这些,我们将为第一个开源数据集提供全面的地面真实数据,从而使人们能够研究基于即将到来的车辆的光检测方法,这些方法将在车辆直接可见之前对其进行光反射。我们认为这是进一步缩小当前先进的驾驶员辅助系统与人类行为之间的性能差距所必不可少的步骤。

OSTeC: One-Shot Texture Completion Authors Baris Gecer, Jiankang Deng, Stefanos Zafeiriou最近几年见证了非线性生成模型在合成高质量逼真的面部图像方面的巨大成功。最近许多来自单一图像方法的3D面部纹理重建和姿势操纵仍然依赖于大型且干净的面部数据集,以将图像训练为图像生成对抗网络GAN。然而,如此大规模的高分辨率3D纹理数据集的收集仍然非常昂贵并且难以维持年龄种族平衡。此外,基于回归的方法在野外条件下普遍存在,无法微调至目标图像。在这项工作中,我们提出了一种无需监督的3D面部纹理补全方法,该方法不需要大规模的纹理数据集,而是可以利用存储在2D面部生成器中的知识。所提出的方法基于可见部分,通过在2D人脸生成器中重建旋转后的图像,以3D旋转输入图像并填充看不见的区域。最后,我们在UV图像平面中以不同角度缝合最可见的纹理。此外,我们通过将完成的纹理投影到生成器中来使目标图像正面化。定性和定量实验表明,完整的UV纹理和正面图像质量很高,类似于原始标识,可用于训练用于3DMM拟合的纹理GAN模型并改善姿势不变的面部识别。

Knowledge Distillation with Adaptive Asymmetric Label Sharpening for Semi-supervised Fracture Detection in Chest X-rays Authors Yirui Wang, Kang Zheng, Chi Tung Chang, Xiao Yun Zhou, Zhilin Zheng, Lingyun Huang, Jing Xiao, Le Lu, Chien Hung Liao, Shun Miao通过半监督学习SSL设置来利用可用的病历来训练高性能的计算机辅助诊断CAD模型正在兴起,以解决大规模医学图像注释所涉及的过高的人工成本。尽管SSL受到了广泛关注,但以前的方法未能1解释病历中疾病的低发生率,而2利用病历中指示的图像水平诊断。这两个问题都是SSL对于CAD模型所特有的。在这项工作中,我们提出了一种新的知识蒸馏方法,该方法可以有效地利用从病历中提取的大规模图像级标签,并添加有限的专家注释区域级标签,以训练胸部X射线CXR的肋骨和骨骨折CAD模型。我们的方法利用了师生模型范例,并采用了一种新颖的自适应不对称标签锐化AALS算法来解决医疗领域中特别存在的标签不平衡问题。我们的方法已在2008年至2016年的9年中,在匿名医院的创伤登记处对所有CXR N 65,845进行了最广泛的评估,涉及最常见的肋骨和锁骨骨折。实验结果表明,我们的方法达到了最先进的骨折检测性能,即在肋骨骨折上的接收器工作特性曲线AUROC下的面积为0.9318,自由响应接收器工作特性FROC得分为0.8914,大大优于以前的方法。 AUROC缺口为1.63,FROC改善为3.74。在锁骨骨折检测中也观察到一致的性能提升。

Active Annotation of Informative Overlapping Frames in Video Mosaicking Applications Authors Loic Peter, Marcel Tella Amo, Dzhoshkun Ismail Shakir, Jan Deprest, Sebastien Ourselin, Juan Eugenio Iglesias, Tom Vercauteren视频镶嵌需要注册序列中位于遥远时间点的重叠帧,以确保重建场景的全局一致性。然而,当图像本身的注册很困难时,这种长距离对的全自动配准是一个挑战,并且由于要注册的候选对数量众多,因此对于长序列而​​言在计算上是昂贵的。在本文中,我们为序列中的长距离成对对应关系的有效注释引入了一种有效的框架。我们的框架提出了一些图像对,这些图像对Oracle代理(例如人类用户)或在每个建议对上提供视觉对应关系的可靠匹配算法都具有参考价值。信息对是根据迭代策略检索的,该策略基于原则上的注释奖励以及两个互补且在线自适应的帧重叠模型。除了有效地构建镶嵌图之外,我们的框架还提供了可用于评估或学习目的的地面真实地标对应物作为副产品。我们通过在合成序列上进行的实验,在航空影像学上可公开获得的数据集以及在胎儿手术过程中用于胎盘镶嵌的临床数据集上的实验来评估我们在自动化和互动场景中的方法。

Temporally-Transferable Perturbations: Efficient, One-Shot Adversarial Attacks for Online Visual Object Trackers Authors Krishna Kanth Nakka, Mathieu Salzmann近年来,基于暹罗网络的跟踪器已经成为视觉对象跟踪VOT的高效工具。尽管这些方法很容易受到对抗攻击,但作为大多数用于视觉识别任务的深层网络,针对VOT跟踪器的现有攻击都需要扰动每个输入帧的搜索区域才能有效,考虑到这是不可忽略的代价VOT是一项实时任务。在本文中,我们提出了一个仅从对象模板图像生成单个可在时间上转移的对抗性扰动的框架。然后可以将此干扰添加到每个搜索图像中,这几乎是免费的,并且仍然成功地使跟踪器蒙骗。我们的实验证明,在无目标的情况下,我们的方法优于对标准VOT基准的最新攻击。此外,我们表明,形式主义自然可以扩展到针对性攻击,这些攻击通过预先计算各种方向性扰动来迫使跟踪器遵循任何给定的轨迹。

Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation Authors Zhengxiong Luo, Zhicheng Wang, Yan Huang, Tieniu Tan, Erjin Zhou热图回归已成为当今人体姿势估计方法中最普遍的选择。地面真相热图通常是通过2D高斯核覆盖所有骨骼关键点来构造的。这些内核的标准偏差是固定的。但是,对于自下而上的方法,需要处理很大范围的人类比例和标签模糊性,当前的做法似乎是不合理的。为了更好地解决这些问题,我们提出了比例自适应热图回归SAHR方法,该方法可以自适应地调整每个关键点的标准差。这样,SAHR更能容忍各种人类规模和标签的歧义。但是,SAHR可能会加剧背景样本之间的不平衡,从而有可能损害SAHR的提高。因此,我们进一步介绍了权重自适应热图回归WAHR,以帮助平衡前面的背景样本。大量实验表明,SAHR和WAHR一起可以大大提高自下而上的人体姿势估计的准确性。结果,我们最终以1.5AP的性能跑赢了最先进的模型,并在COCO测试dev2017上达到了72.0 AP,这与大多数自顶向下方法的性能相当。

MM-FSOD: Meta and metric integrated few-shot object detection Authors Yuewen Li, Wenquan Feng, Shuchang Lyu, Qi Zhao, Xuliang Li在目标检测任务中,CNN卷积神经网络模型在训练过程中始终需要大量带注释的示例。为了减少昂贵注解的依赖性,几乎没有镜头物体检测已成为越来越多的研究焦点。在本文中,我们提出了一个有效的目标检测框架MM FSOD,该框架集成了度量学习和元学习,可以解决少数镜头目标检测任务。我们的模型是可与类别无关的检测模型,可以准确地识别训练样本中未出现的新类别。具体来说,为了快速学习新类别的特征而无需微调过程,我们提出了一种元表示模块MR模块来学习类内均值原型。 MR模块通过元学习方法进行训练,以获得重建高级特征的能力。为了进一步实现支持原型与查询RoIs特征之间的相似性,我们提出了一个用作分类器的Pearson度量模块PR模块。与以前常用的度量方法相比,余弦距离度量。 PR模块使模型能够将特征对齐到判别性嵌入空间中。我们对基准数据集FSOD,MS COCO和PASCAL VOC进行了广泛的实验,以证明该模型的可行性和效率。与先前的方法相比,MM FSOD获得了最新的SOTA结果。

DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency Detection Authors Yongri Piao, Zhengkun Rong, Shuang Xu, Miao Zhang, Huchuan Lu光场数据表现出有利于显着性检测的有利特性。基于学习的光场显着性检测的成功在很大程度上取决于如何构建全面的数据集以提高模型的通用性,如何有效利用高维光场数据以及如何设计灵活的模型以实现台式机的多功能性电脑和移动设备。为了回答这些问题,我们首先引入一个大规模数据集,以支持RGB,RGB D和光场显着性检测的通用应用程序,其中包含102个类别和4204个样本。其次,我们提出了由Focal流和RGB流组成的非对称两流模型。 Focal流被设计为在台式计算机上实现更高的性能,并依靠两个定制模块将焦点知识转移到RGB流。 RGB流通过三种蒸馏方案保证了移动设备的灵活性和内存计算效率。实验表明,我们的Focal流可实现最先进的性能。 RGB流在DUTLF V2上达到了Top 2 F度量,与性能最佳的方法相比,该模型极大地减小了模型尺寸83%,将FPS提升了5倍。此外,我们提出的蒸馏方案适用于RGB显着性模型,在确保灵活性的同时实现了令人印象深刻的性能提升。

RTS3D: Real-time Stereo 3D Detection from 4D Feature-Consistency Embedding Space for Autonomous Driving Authors Peixuan Li, Shun Su, Huaici Zhao尽管最近使用伪LiDAR表示的基于图像的3D对象检测方法已显示出强大的功能,但与基于LiDAR的方法相比,效率和准确性仍然存在明显差距。此外,由于过度依赖独立的深度估计器,在训练阶段需要大量的像素级注释,并且在推理阶段需要更多的计算,因此限制了实际应用中的缩放比例。

Bidirectional Mapping Coupled GAN for Generalized Zero-Shot Learning Authors Tasfia Shermin, Shyh Wei Teng, Ferdous Sohel, Manzur Murshed, Guojun Lu基于双向映射的生成模型通过学习从类语义构造视觉特征并从生成的视觉特征重新构造类语义,从而在广义零镜头学习GZSL识别方面取得了卓越的性能。这些模型的性能取决于综合特征的质量。这取决于模型通过关联语义视觉空间,学习判别信息以及重新定位学习的分布以识别看不见的数据来捕获潜在的可见数据分布的能力。这意味着学习可见的看不见的域联合分布对于GZSL任务至关重要。但是,由于无法访问看不见的数据,因此现有模型仅学习可见域的基础分布。在这项工作中,我们建议利用可用的看不见的类语义以及所见的类语义,并通过强大的视觉语义耦合来学习双域联合分布。因此,通过将耦合生成对抗网络CoGAN扩展到双域学习双向映射模型,我们提出了双向映射耦合生成对抗网络BMCoGAN。我们进一步集成了Wasserstein生成对抗性优化,以监督联合分布学习。为了在合成的视觉空间中保留独特的信息并减少对可见类的偏见,我们设计了一种优化方法,将合成的可见特征推向真实的可见特征,并将合成的看不见的特征从真实可见的特征中拉出。我们根据当代方法在几个基准数据集上评估了BMCoGAN,并显示了其卓越的性能。此外,我们提供了烧蚀分析,以证明BMCoGAN中不同组件的重要性。

SkiNet: A Deep Learning Solution for Skin Lesion Diagnosis with Uncertainty Estimation and Explainability Authors Rajeev Kumar Singh, Rohan Gorantla, Sai Giridhar Allada, Narra Pratap皮肤癌被认为是人类最常见的恶性肿瘤。每年在美国记录约500万新的皮肤癌病例。皮肤病灶的早期识别和评估具有重要的临床意义,但是在大多数发展中国家,不成比例的皮肤科医生患者比例构成了重大问题。因此,提出了一种基于深度学习的架构,称为SkiNet,其目的是在临床诊断过程中为新近训练的医师提供更快的筛选解决方案并提供帮助。 Skinet的设计和开发背后的主要动机是提供白盒解决方案,以解决信任和可解释性这一关键问题,这对于医疗从业人员广泛采用计算机辅助诊断系统至关重要。 SkiNet是一个两阶段的管道,其中病变分割之后是病变分类。在我们的SkiNet方法中,蒙特卡洛辍学和测试时间增加技术已被用于估计认知和无意识不确定性,同时探索了基于显着性的方法来为深度学习模型提供事后解释。公开可用的数据集ISIC 2018用于执行实验和消融研究。结果建立了模型在传统基准上的鲁棒性,同时解决了此类模型的黑匣子性质,通过将透明性和置信度纳入模型的预测中,从而减轻了医生的怀疑态度。

Damaged Fingerprint Recognition by Convolutional Long Short-Term Memory Networks for Forensic Purposes Authors Jaouhar Fattahi, Mohamed Mejri指纹识别通常是改变犯罪分子证据的游戏规则。但是,我们越来越多地发现,犯罪分子故意以各种方式更改其指纹,从而使技术人员和自动传感器难以识别其指纹,这使调查人员在法医程序中针对他们建立强有力的证据变得乏味。从这个意义上讲,深度学习是帮助识别受损指纹的主要候选方法。特别是卷积算法。在本文中,我们重点研究卷积长短期记忆网络对受损指纹的识别。我们介绍了模型的架构,并演示了其性能超过95精度,99精度,并达到95召回率和99 AUC。

NBNet: Noise Basis Learning for Image Denoising with Subspace Projection Authors Shen Cheng, Yuzhi Wang, Haibin Huang, Donghao Liu, Haoqiang Fan, Shuaicheng Liu在本文中,我们介绍了NBNet,这是一种用于图像去噪的新颖框架。与以前的作品不同,我们建议从新的角度通过图像自适应投影降低噪声来解决这一难题。具体而言,我们建议通过学习特征空间中的一组重建基础来训练可以分离信号和噪声的网络。随后,可以通过选择信号子空间的相应基础并将输入投影到这种空间中来实现图像去噪。我们的主要见识在于,投影可以自然地保持输入信号的局部结构,尤其是在光线较弱或纹理较弱的区域。为此,我们提出了SSA,这是一个非本地子空间注意模块,专门设计用于学习基础生成以及子空间投影。我们进一步将SSA与NBNet结合在一起,NBNet是一种为端到端图像去噪设计的UNet结构化网络。我们对包括SIDD和DND在内的基准进行评估,并且NBNet在PSNR和SSIM上达到了最先进的性能,而计算成本却大大降低了。

Towards Unsupervised Deep Image Enhancement with Generative Adversarial Network Authors Zhangkai Ni, Wenhan Yang, Shiqi Wang, Lin Ma, Sam Kwong对于公众而言,提高图像的美学质量是充满挑战和渴望的。为了解决这个问题,大多数现有算法都是基于监督学习方法来学习用于配对数据的自动照片增强器,该照片增强器由低质量的照片和相应的专家修饰版本组成。但是,专家修饰的照片的样式和特征可能无法满足一般用户的需求或偏好。在本文中,我们提出了一种无监督的图像增强生成对抗网络UEGAN,该网络以无监督的方式从一组具有所需特征的图像中学习对应的图像到图像的映射,而不是学习大量的配对图像。所提出的模型基于单个深度GAN,它嵌入了调制和注意机制以捕获更丰富的全局和局部特征。基于提出的模型,我们引入了两种损失来处理无监督的图像增强1保真度损失,其定义为预训练VGG网络的特征域中的L2正则化,以确保增强图像和输入图像之间的内容相同,并且2质量损失被表示为相对论铰链对抗损失,以赋予输入图像所需的特性。定量和定性结果均表明,该模型有效地提高了图像的美学质量。我们的代码位于

2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition Authors Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis3D卷积网络普遍用于视频识别。在标准基准上获得出色的识别性能的同时,它们在具有3D卷积的帧序列上运行,因此对计算的要求很高。利用不同视频之间的巨大差异,我们引入了Ada3D,这是一个条件计算框架,可学习实例特定的3D使用策略来确定要在3D网络中使用的帧和卷积层。这些策略是通过以每个输入视频剪辑为条件的两头轻型选择网络得出的。然后,在3D模型中仅使用由选择网络选择的帧和卷积来生成预测。选择网络使用策略梯度方法进行了优化,以最大化奖励,从而鼓励以有限的计算来做出正确的预测。我们在三个视频识别基准上进行了实验,并证明了我们的方法具有与最新3D模型相似的准确性,同时在不同数据集上所需的计算量减少了20 50。我们还显示,学习到的策略是可转让的,并且Ada3D与不同的主干和现代剪辑选择方法兼容。我们的定性分析表明,我们的方法为静态输入分配了较少的3D卷积和帧,但为运动密集型剪辑分配了更多的3D卷积和帧。

SALA: Soft Assignment Local Aggregation for 3D Semantic Segmentation Authors Hani Itani, Silvio Giancola, Ali Thabet, Bernard Ghanem我们介绍了在基于网格的聚合函数中使用可学习的邻居对网格进行软分配的想法,以实现3D语义分割的任务。文献中的先前方法在预定的几何网格上运行,例如局部体积分区或不规则的核点。这些方法使用几何函数将局部邻居分配给其相应的网格。对于语义分段的最终任务,这种几何启发式方法可能是次优的。此外,它们在网络的整个深度上均被均匀地应用。一个更通用的替代方法将允许网络学习最适合最终任务的自己的邻居到网格分配功能。由于它是可学习的,因此该映射具有灵活性,每层可以不同。本文利用学习到的邻居到网格的软分配来定义一个聚合函数,以平衡效率和性能。我们通过在S3DIS上达到最先进的SOTA性能(参数比当前的统治方法少近10倍)来证明我们方法的有效性。与更大的SOTA模型相比,我们还展示了ScanNet和PartNet上的竞争性能。

Detecting Hate Speech in Multi-modal Memes Authors Abhishek Das, Japsimar Singh Wahi, Siyao Li在过去的几年中,对多模式问题的兴趣激增,从图像字幕到视觉问题解答等等。在本文中,我们专注于多模态模因中的仇恨语音检测,其中模因构成了一个有趣的多模态融合问题。我们旨在解决Facebook Meme Challenge引用kiela2020hateful的问题,该目标旨在解决预测模因是否令人讨厌的二元分类问题。挑战的关键特征是它包括良性混杂因素,以应对利用单峰先验模型的可能性。挑战指出,与人类相比,现有模型的性能较差。在数据集的分析过程中,我们意识到,原来是可恨的大多数数据点只是在描述模因的图像时才变成良性的。而且,大多数多模式基线更偏爱仇恨语音语言模式。为了解决这些问题,我们使用对象检测和图像字幕模型来探索视觉模态以获取实际的字幕,然后将其与多模态表示相结合以执行二进制分类。这种方法解决了数据集中存在的良性文本混杂因素,以提高性能。我们尝试的另一种方法是通过情感分析来改善预测。不仅仅使用从训练有素的神经网络获得的多模式表示,我们还包括单峰情感以丰富功能。我们对以上两种方法进行了详细的分析,提供了令人信服的理由来支持所使用的方法。

Learning a Dynamic Map of Visual Appearance Authors Tawfiq Salem, Scott Workman, Nathan Jacobs世界的外观不仅在不同的地方有很大的不同,而且在每个小时,一个月和一个月中也是如此。每天都有数十亿张图像捕获这种复杂的关系,其中许多与精确的时间和位置元数据相关联。我们建议使用这些图像来构建全局的视觉外观属性动态地图。这样的地图使您可以在任何地理位置和时间都对预期的外观有细微的了解。我们的方法将密集的开销图像与位置和时间元数据集成到一个能够映射各种视觉属性的通用框架中。我们方法的主要特点是不需要手动数据注释。我们演示了这种方法如何支持各种应用程序,包括图像驱动的映射,图像地理定位和元数据验证。

Object sorting using faster R-CNN Authors Pengchang Chen, Vinayak Elangovan在工厂生产线中,需要对不同的行业零件进行快速区分和分类以进行进一步处理。零件可以具有不同的颜色和形状。对于人类来说,将这些物体区分并分类为适当的类别是一件很繁琐的事情。使该过程自动化将节省更多的时间和成本。在自动化过程中,根据特定功能选择合适的模型来检测和分类不同的对象更具挑战性。在本文中,将三种不同的神经网络模型与对象分类系统进行了比较。它们分别是CNN,Fast R CNN和Faster R CNN。测试了这些模型,并分析了它们的性能。此外,对于对象分类系统,对Arduino控制的5 DoF自由度机器人手臂进行了编程,可以将对称对象抓取并放到目标区域。根据颜色,有缺陷和无缺陷的对象将对象分为几类。

Visual-Thermal Camera Dataset Release and Multi-Modal Alignment without Calibration Information Authors Frank Mascarich, Kostas Alexis该报告随附了有关视觉和热像仪数据的数据集发布,并详细介绍了对齐此类多模式照像机框的过程,以便在不使用内部或外部校准信息的情况下提供两者之间的像素级对应。为了实现这一目标,我们受益于多模式图像对齐领域的进步,并特别采用了Mattes Mutual Information Metric来指导注册过程。在发布的数据集中,我们发布原始的视觉和热像仪数据以及对齐的帧以及校准参数,目的是更好地促进跨此类多模态图像流研究共同的局部全局特征。

Graph-based non

标签: ctc传感器ac292

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台