资讯详情

【今日CV 计算机视觉论文速览 第139期】Tue, 2 Jul 2019

今日CS.CV 计算机视觉论文速读 Tue, 2 Jul 2019 Totally 63 papers ??更精彩请移动主页

在这里插入图片描述

Interesting:

?*****更深入的理解PointNet,提出新的点云模块和更深更宽的网络架构, 研究人员提出了一种精度更高、内存消耗更小的点云处理模块,使深度网络能够在更宽、更深的网络上处理点云。这三个模块包括多尺度点云处理模块、可用于混合邻域信息的高效内存点云卷积操作、可共享高低级信息的交叉连接模块。(from 伦敦大学学院) 几个不同的基本模块: 几种网络层结构,包标准pointnet,并行多尺度pointnet,允许信息流的多支路交叉link层,以及提高内存利用率和更深层次的点云处理网络结构: 一些结果和误差图:

project:https://github.com/erictuanle/GoingDeeperwPointNetworks dataset:ShapeNet-Part,ScanNet, PartNet ref:PointNet , DGCNN, SpiderCNN,PointCNN

?场景文字放大, 提出了场景中文本的放大器可以在不改变背景的情况下放大目标区域的问题。整个网络由四个子网络组成,即去除文本编码器、提取文本区域、输出文本及其掩膜,然后放大文本(1.2x,1.5x)、最后,行图像合成,将放大的文字贴回原图。(from 九州大学 日本) 第三阶段用坐标卷积代替原卷积,避免文字模糊: 最终结果:

?基于高斯过程RGB-D相机实时空间热校正, RGB-D大多数相机使用制造商的校准结果,但由于校准精度低、使用消耗和热影响,深度显示结果不稳定,质量不高。考虑到空间和热的影响,研究人员提出了一种方法来准深度的方法。高斯过程回归基于四维空间和热空间,并利用它GPU实时校正深度图。(from JKU Department of Computational Perception,) 温度对深度相机性能的影响:

深度图明显变得更加连续和准确: code:https://github.com/cheind/rgbd-correction/blob/master/sensor_correction/gp_gpu.py camera:https://orbbec3d.com/astra-mini/

?Pano Popups室内三维重建, 基于平面的注意力,提出了一种从360度图像中重建深度、表面法向量和边缘的新方法。注意到平面损失函数利用场景中的平面边界和原始曲率来提高精度和法向量的预测效果。(from 北卡 教堂山) 一个非常对称的网络结构,输入和三个输出结果,复用多尺度特征: 在SUMO[27]数据集上预测的结果: 平面描述损失和权重,以及最终损失函数: dataset: Scene Understanding and Modeling (SUMO) dataset [27]

?用于三维刚体数据匹配的局域几何体数据匹配, (from 西工大) 表达各种特征的方法: 加入六个实验数据集和四个扰动: 最后的finding值得学习。directly replacing attribute description with occupancy labels can achieve comparative or even labeler discriminative power and more robustness to common perturbations, yet being more compact and efficient!

? XNect:单图像多人实时三维姿势检测, 这是一种三阶段的方法,首先获取局域的每个关键位置,全身关节,最后通过帧间推理时域相关性。(from 马普研究所 EPFL) 第一阶段使用SelecSLS Net 可见部分的2架构D和中介的3D姿势;今年第二阶段,每个人都被平行测试,包括屏蔽的关节;第三阶段提供了时域稳定性,相对于相机的位置和关节角度是通过动态骨架拟合获得的。 第二阶段的输入: 三维位置编码在上一步: 结果展示:

?CDTB结合颜色和深度的视觉跟踪数据集, (from University of Ljubljana, Slovenia) 室内外数据在不同光照下运动: 采集设备:

ref: http://alan.lukezicfri.uni-lj.si/ 标定:http://www.vision.caltech.edu/bouguetj/calib_doc/ 图像序列注释:https://github.com/votchallenge/aibu


Daily Computer Vision Papers

Going Deeper with Point Networks Authors Eric Tuan Le, Iasonas Kokkinos, Niloy J. Mitra在这项工作中,我们引入了三个通用的点云处理模块,它们提高了现有技术网络的精度和内存消耗,从而设计出更深入、更准确的网络。新型处理块是一个多分辨率点云处理块,用于在低分辨率和高分辨率处理分支上有效共享信息的交联块,以存储器的有效方式混合邻域信息的点集。结合这些块,我们可以设计出更广泛、更深入的结构。我们广泛评估了多点分割基准ShapeNet Part,ScanNet,PartNet建议架构,通过我们的通用模块和多个最新架构PointNet,DGCNN,SpiderCNN,PointCNN结合使用,报告了精度和内存消耗的系统改进。最复杂的是我们的报告PartNet数据集上IoU增加3.同时,内存占用减少57。

ICDAR2019 Robust Reading Challenge on Multi-lingual Scene Text Detection and Recognition -- RRC-MLT-2019 Authors Nibal Nayef, Yash Patel, Michal Busta, Pinaki Nath Chowdhury, Dimosthenis Karatzas, Wafa Khlif, Jiri Matas, Umapada Pal, Jean Christophe Burie, Cheng lin Liu, Jean Marc Ogier随着现代城市国际文化的不断增长,强大的多语言场景文本MLT对检测和识别系统的需求从未如此巨大。为了系统地进行基准测试和推动现有技术发展,我们提出的竞赛建立在RRC MLT 2017年,还有一个额外的端到端任务,一个真实图像数据集中的附加语言,一个大规模的多语言合成数据集协助培训,以及基线端到端识别方法。真实数据集包含2万个包含10种语言文本的图像。在多语言场景文本的各个方面,文本检测,b剪切词脚本分类,c联合文本检测、脚本分类、端到端检测和识别。总的来说,比赛收到了来自研究和工业界的60份意见本文介绍了提出的内容RRC MLT 数据集,任务和结果,2019年挑战。

Estimating brain age based on a healthy population with deep learning and structural MRI Authors Xinyng Feng, Zachary C. Lipton, Jie Yang, Scott A. Small, Frank A. Provenzano大量研究已经确定,从健康人群训练的统计模型得出的估计脑年龄构成了预测认知衰退和各种神经疾病的有价值的生物标志物。在这项工作中,我们策划了一个大规模的异质数据集N 10,158,来自多个公开可用来源的健康人群中结构性脑MRI的年龄范围1897,我们在其上训练用于脑年龄估计的深度学习模型。大规模数据集的可用性使得在成年寿命期间的年龄分布更均匀,以进行有效的年龄估计,而不偏向某些年龄组。我们证明了用平均绝对误差MAE和相关系数r评估的年龄估计准确度,在反映自定义人口MAE 4。06年,r 0.970和独立寿命评估数据集MAE 4.21的保持测试集中均优于先前报告的方法。年,先前的一项研究已经评估了0.960。我们进一步证明了估计年龄在认知功能的寿命老化分析中的效用。此外,我们进行了广泛的消融测试,并采用特征归因技术来分析哪些区域贡献了最具预测价值,展示了额叶的突出性以及寿命期间的模式转变。总之,我们实现了卓越的年龄估计性能,证实了深度学习的有效性以及训练的附加效用,数据的数量更多,分布更均匀,比以前的研究更均匀。我们通过多种途径证明了对我们大脑年龄预测的区域贡献,并确认了估计和按时间顺序的脑年龄与神经心理测量之间的差异之间的关联。

Pano Popups: Indoor 3D Reconstruction with a Plane-Aware Network Authors Marc Eder, Pierre Moulon, Li Guan在这项工作中,我们提出了一种训练平面感知卷积神经网络的方法,用于密集深度和表面法线估计以及来自单个室内三维图像的平面边界。使用我们提出的损失函数,我们的网络优于现有的单视图,室内,全向深度估计方法,并为三维图像提供表面法线预测的初始基准。我们的改进是由于使用了一种新的平面意识损失,利用主曲率作为平面边界的指标。我们还表明,包括测地坐标图作为网络先验可以显着提高表面法线预测精度。最后,我们演示了如何将网络输出结合起来生成室内场景的高质量3D弹出模型。

An Efficient Solution for Breast Tumor Segmentation and Classification in Ultrasound Images Using Deep Adversarial Learning Authors Vivek Kumar Singh, Hatem A. Rashwan, Mohamed Abdel Nasser, Md. Mostafa Kamal Sarker, Farhan Akram, Nidhi Pandey, Santiago Romani, Domenec Puig本文提出了一种有效的乳腺超声总线图像肿瘤分割和分类解决方案。我们建议在条件生成性对抗网络cGAN分割模型中添加一个充满紊乱的卷积层,以学习不同分辨率的BUS图像的肿瘤特征。为了自动平衡每个最高级编码特征的相对影响,我们还建议在网络中添加通道明智的加权块。此外,具有典型对抗性损失的SSIM和L1范数损失被用作训练模型的损失函数。我们的模型在Dice和IoU指标方面优于最先进的细分模型,分别达到93.76和88.82的最高分。在分类阶段,我们表明从预测的面具边界的形状中提取的很少的统计特征可以正确地区分良性和恶性肿瘤,准确度为85

+++移动端的生产对抗实现MobileGAN: Skin Lesion Segmentation Using a Lightweight Generative Adversarial Network Authors Md. Mostafa Kamal Sarker, Hatem A. Rashwan, Mohamed Abdel Nasser, Vivek Kumar Singh, Syeda Furruka Banu, Farhan Akram, Forhad U H Chowdhury, Kabir Ahmed Choudhury, Sylvie Chambon, Petia Radeva, Domenec Puig皮肤镜检查中的皮肤病变分割由于其模糊和不规则边界而成为挑战。由于数以亿计的参数,大多数基于深度学习的分割方法都耗费时间和内存。因此,难以将它们应用于具有有限GPU和存储器资源的真实皮肤镜设备。在本文中,我们提出了一种轻量级和高效的Generative Adversarial Networks GAN模型,称为MobileGAN,用于皮肤病变分割。更确切地说,MobileGAN将1D非瓶颈因子分解网络与GAN模型中的位置和信道关注模块相结合。所提出的模型在ISBI 2017挑战的测试数据集和ISIC 2018挑战的验证数据集上进行评估。尽管所提出的网络仅具有235万个参数,但它仍然与现有技术相当。实验结果表明,我们的MobileGAN获得了相当的性能,准确度为97.61。

XNect: Real-time Multi-person 3D Human Pose Estimation with a Single RGB Camera Authors Dushyant Mehta, Oleksandr Sotnychenko, Franziska Mueller, Weipeng Xu, Mohamed Elgharib, Pascal Fua, Hans Peter Seidel, Helge Rhodin, Gerard Pons Moll, Christian Theobalt我们使用单个RGB相机以超过30 fps的速度呈现实时多人3D动作捕捉方法。它在通用场景中运行,并且对于其他人和对象的困难遮挡是鲁棒的。我们的方法在后续阶段运作。第一阶段是卷积神经网络CNN,其估计2D和3D姿势特征以及所有个体的所有可见关节的身份分配。我们为这个名为SelecSLS Net的CNN提供了一种新架构,它使用新颖的选择性长距离和短距离跳过连接来改善信息流,从而在不影响准确性的情况下实现更快的网络速度。在第二阶段,完全连接的神经网络将可能部分地由于每个受试者的遮挡2D姿势和3D姿势特征变成每个人的完整3D姿势估计。第三阶段将空间时间骨架模型拟合应用于每个主体的预测2D和3D姿势,以进一步协调2D和3D姿势,并实施时间一致性。我们的方法返回每个主题的关节角度的完整骨架姿势。这是与先前工作的进一步关键区别,其既不提取全局身体位置也不提取多人场景的实时连贯骨架的关节角度结果。在给出512x320图像作为输入的同时,所提出的系统以超过30 fps的先前看不见的速度在消费者硬件上运行,同时实现最先进的精度,我们将在一系列具有挑战性的现实世界场景中展示。

Online Multiple Pedestrian Tracking using Deep Temporal Appearance Matching Association Authors Young Chul Yoon, Du Yong Kim, Kwangjin Yoon, Young min Song, Moongu Jeon在线多行人跟踪中,构建可靠的成本矩阵以将观测值分配给轨道非常重要。通过使用相似性度量来构造成本矩阵的每个元素。以前的许多作品都提出了自己的相似度计算方法,包括几何模型,边界框坐标和外观模型。特别地,外观模型包含与几何模型相比具有更高维度的信息。由于最近基于深度学习的方法的成功,可以处理高维外观信息。在许多深度网络中,通常采用具有三重态丢失的暹罗网络作为外观特征提取器。由于暹罗网络可以独立地提取每个输入的特征,因此可以自适应地建模轨迹,例如线性更新。但是,它不适合需要与其他输入进行比较的多对象设置。在本文中,我们提出了一种基于联合推理网络的新型轨道外观建模来解决这个问题。所提出的方法使得能够比较两个输入以用于自适应外观建模。它有助于消除目标观察匹配的歧义并巩固身份一致性。强化实验结果支持我们方法的有效性。

++基于声呐的目标检测Learning Objectness from Sonar Images for Class-Independent Object Detection Authors Matias Valdenegro Toro在没有类信息的情况下检测新物体并非易事,因为很难从小型训练集中推广出来。对于水下机器人而言,这是一个有趣的问题,因为在声纳图像中对海洋物体进行建模本身就更加困难,并且训练数据可能无法获得。检测提议算法可用于此目的,但通常需要大量输出边界框。在本文中,我们提出使用完全卷积神经网络,该网络直接从前视声纳图像中回归对象值。通过对对象进行排名,我们可以产生高召回率96,每个图像只有100个提案。相比之下,EdgeBoxes需要5000个提案才能更好地召回97个,而选择性搜索需要2000个提案来实现95个召回。我们还表明,我们的方法在很大程度上优于模板匹配基线,并且能够推广到全新的对象。我们希望这种技术可以在现场用于寻找海底丢失的物体。

Automated Image Registration Quality Assessment Utilizing Deep-learning based Ventricle Extraction in Clinical Data Authors Florian Dubost, Marleen de Bruijne, Marco Nardin, Adrian V. Dalca, Kathleen L. Donahue, Anne Katrin Giese, Mark R. Etherton, Ona Wu, Marius de Groot, Wiro Niessen, Meike Vernooij, Natalia S. Rost, Markus D. Schirmer注册是许多成像管道的核心组成部分。在临床扫描的情况下,具有较低的分辨率和有时大量的运动伪影,登记会产生较差的结果。在大型临床数据集中对注册质量的视觉评估是低效的。在这项工作中,我们建议在临床FLAIR MRI脑部扫描中自动评估注册质量。该方法包括使用神经网络自动分割给定扫描的心室,并将分割与传播到图像空间的寰椎心室进行比较。我们使用所提出的方法通过计算多个配准然后选择产生最高心室重叠的配准来改进临床图像配准到一般地图集。在超过1000次扫描的单个站点数据集中评估方法,以及包含来自12个站点的142次临床扫描的多中心数据集。自动心室分割达到Dice系数,单个站点数据集中的手动注释为0.89,多中心数据集中的手动注释为0.83。与直接登记到一般地图集相比,通过年龄特定的地图集登记可以改善心室重叠。骰子相似系数增加到0.15。实验还表明,使用配准质量评估方法选择扫描可以提高白质高强度负荷平均图的质量,而不是使用所有扫描来计算白质高强度图。在这项工作中,我们展示了自动化工具在临床扫描中评估图像配准质量的效用。该图像质量评估步骤最终可以帮助将自动神经成像管道转换到诊所。

Scene Text Magnifier Authors Toshiki Nakamura, Anna Zhu, Seiichi Uchida场景文本放大镜旨在放大自然场景图像中的文本而无需识别。它可以帮助有近视或阅读障碍的特殊群体更好地了解现场。在本文中,我们通过交互式四个基于CNN的网络字符擦除,字符提取,字符放大和图像合成来设计场景文本放大镜。基于沙漏编码器解码器扩展网络的体系结构。它输入原始场景文本图像并输出文本放大图像,同时保持背景不变。中间,我们可以获得文本擦除和文本提取的侧输出结果。四个子网络首先被独立训练并在端到端模式中进行微调。每个阶段的训练样本通过ICDAR2013中的原始图像和文本注释以及Flickr数据集作为输入,以及相应的文本擦除图像,放大文本注释和文本放大场景图像作为输出来处理。为了评估文本放大器的性能,结构相似度用于测量每个字符区域的区域变化。实验结果表明,我们的方法可以有效地放大场景文本而不影响背景。

The Resale Price Prediction of Secondhand Jewelry Items Using a Multi-modal Deep Model with Iterative Co-Attention Authors Yusuke Yamaura, Nobuya Kanemaki, Yukihiro Tsuboshita二手珠宝物品的转售价格评估在很大程度上依赖于领域专家的个人知识和技能。在本文中,我们提出了一种重建人工智能系统的方法,该系统可以自主评估二手珠宝物品的转售价格,而无需专业知识。如最近关于时尚物品的研究所示,结合物品的规格和视觉信息的多模式方法已成功获得时尚物品的细粒度表示,尽管它们通常通过多模式融合应用简单的矢量操作。我们类似地使用产品的图像和属性构建多模型模型,并且进一步采用应用于计算机视觉的现有技术多模式深度神经网络以实现实际性能水平。此外,我们使用迭代共同关注网络对专家的定价程序进行建模,其中仔细和迭代地观察产品的外观和属性。在这里,我们使用从合作时装零售商处收到的二手无品牌珠宝物品的大型数据集来证明我们的模型的有效性,并且表明迭代共同关注过程在转售价格预测的背景下有效地运作。我们的模型架构广泛适用于其他外观和规格是重要方面的时尚产品。

Self-supervised Hyperspectral Image Restoration using Separable Image Prior Authors Ryuji Imamura, Tatsuki Itasaka, Masahiro Okuda使用卷积神经网络的监督学习被认为是图像恢复的有力手段。然而,大多数这样的方法已被设计用于灰度和/或彩色图像,因此,当应用于高光谱图像恢复时,它们的成功有限。这部分是由于难以收集大数据集,以及与具有许多光谱带的图像的恢复相关的大量计算负荷。为了解决这一困难,我们提出了一种新的自我监督学习策略,用于高光谱图像恢复。我们的方法从单个降级图像自动创建训练数据集,并训练一个没有任何清晰图像的去噪网络。我们方法的另一个值得注意的特征是使用可分离的卷积层。我们进行实验以证明使用可分离网络可以使我们获得高光谱图像的先验并实现有效的恢复。我们通过大量实验证明了我们方法的有效性,并表明我们的方法比目前被认为是现有技术的方法具有更好的特性。

Permutohedral Attention Module for Efficient Non-Local Neural Networks Authors Samuel Joutard, Reuben Dorent, Amanda Isaac, Sebastien Ourselin, Tom Vercauteren, Marc Modat诸如分割之类的医学图像处理任务通常需要捕获非本地信息。由于器官,骨骼和组织具有共同的特征,例如强度,形状和纹理,因此上下文信息在正确标记它们中起着关键作用。现在通常使用卷积神经网络CNN来完成分段和标记,但是CNN的上下文受到接收场的限制,该接收场本身受到存储器要求和其他属性的限制。在本文中,我们提出了一个新的注意模块,我们称之为Permutohedral Attention Module PAM,以有效地捕获图像的非局部特征。所提出的方法既有记忆又有计算效率。我们提供此模块的GPU实现,适用于3D医疗成像问题。我们展示了模块的效率和可扩展性以及椎骨分割和标记的挑战性任务,其中上下文起着至关重要的作用,因为不同椎骨的外观非常相似。

CDTB: A Color and Depth Visual Object Tracking Dataset and Benchmark Authors Alan Luke i , Ugur Kart, Jani K pyl , Ahmed Durmush, Joni Kristian K m r inen, Ji Matas, Matej Kristan提出了长期视觉对象跟踪性能评估方法和基准。通过遵循长期跟踪定义来设计性能测量,以最大化分析探测强度。新措施在解释潜力方面优于现有措施,并更好地区分不同的追踪行为。我们表明这些措施概括了短期绩效指标,从而将两个跟踪问题联系起来。此外,新测量对于时间注释稀疏性非常稳健,并且允许对序列的注释比当前数据集中的数百倍长,而不增加手动注释劳动。提出了一个具有许多目标消失的精心挑选序列的新挑战数据集。提出了一种新的跟踪分类法,用于在短期长期频谱上定位跟踪器。该基准包含对最大数量的长期攻击者的广泛评估,并与最先进的短期跟踪器进行比较。我们分析了跟踪架构实现对长期性能的影响,并探讨了各种重新检测策略以及视觉模型更新策略对长期跟踪漂移的影响。该方法被集成到VOT工具包中,以自动化实验分析和基准测试,并促进长期跟踪器的未来发展。

One Network for Multi-Domains: Domain Adaptive Hashing with Intersectant Generative Adversarial Network Authors Tao He, Yuan Fang Li, Lianli Gao, Dongxiang Zhang, Jingkuan Song随着近来数字数据的爆炸式增长,图像识别和检索成为一种关键的实际应用。由于存储要求低,查询速度快,散列是解决此问题的有效方法。但是,过去的大部分工作都集中在单个源域中的散列。因此,学习的散列函数可能不能很好地适应与源域具有大的分布差异的新目标域。在本文中,我们探索了一种端到端域自适应学习框架,它同时精确地生成判别式哈希码并对目标域图像进行分类。我们的方法将两个域图像编码成一个语义公共空间,然后是两个独立的生成对抗网络,在交叉重建两个域图像时,减少域差异并改善共享空间中的对齐。我们在四个公共基准数据集上评估我们的框架,所有这些都表明我们的方法在对象识别和图像检索任务方面优于其他最先进的方法。

+++Learning to Approximate Directional Fields Defined over 2D Planes Authors Maria Taktasheva, Albert Matveev, Alexey Artemov, Evgeny Burnaev方向场的重建是许多几何处理任务的需要,例如图像追踪,3D几何特征的提取和寻找主表面方向。从数据构造方向字段的常用方法依赖于复杂的优化过程,这些过程通常很难形成,需要相当大的计算量,并且不能跨应用程序进行传输。在这项工作中,我们提出了一种基于深度学习的方法,并研究表达能力和泛化能力。

Spatio-thermal depth correction of RGB-D sensors based on Gaussian Processes in real-time Authors Christoph Heindl, Thomas P nitz, Gernot St bl, Andreas Pichler, Josef Scharinger商品RGB D传感器实时捕获彩色图像以及密集像素明智的深度信息。典型的RGB D传感器具有工厂校准,并且由于粗略的校准值,老化和热影响效应而显示出不稳定的深度读数。这限制了它们在计算机视觉和机器人技术中的适用性。我们提出了一种新的方法来联合考虑空间和热影响来精确校准深度。我们的工作基于四维笛卡尔和热域中的高斯过程回归。我们建议利用现代GPU实时进行密集深度图校正。为了重现性,我们公开了数据集和源代码。

Large Area 3D Human Pose Detection Via Stereo Reconstruction in Panoramic Cameras Authors Christoph Heindl, Thomas P nitz, Andreas Pichler, Josef Scharinger我们提出了一种使用两个全景相机的新型3D人体姿势探测器我们表明,将鱼眼视角转换为直线视图允许直接应用二维深度学习姿势估计方法,而不需要昂贵的重新训练步骤来补偿鱼眼图像失真。通过利用全景相机,我们的方法能够在大视场上准确地估计人体姿势。这使我们的方法适用于人体工程学分析和其他基于姿势的评估。

Cross-view Relation Networks for Mammogram Mass Detection Authors Jiechao Ma, Sen Liang, Xiang Li, Hongwei Li, Bjoern H Menze, Rongguo Zhang, Wei Shi Zheng乳房X线照片是早期乳腺癌肿块病变检测的最有效的成像方式。来自两个配对视图的信息,即中间侧倾和尾颅尾部是高度相关和互补的,这对于医生在临床实践中的决定是至关重要的。然而,现有的质量检测方法不考虑联合学习来自两个关系视图的有效特征。为了解决这个问题,本文提出了一种新的乳房X线照片质量检测框架,称为基于交叉视图关系区域的卷积神经网络CVR RCNN。拟议的CVR RCNN预期捕获来自两个配对视图的相应质量感兴趣区域ROI之间的潜在关系信息。对新的大规模私人数据集和公共乳房X线照片数据集的评估表明,所提出的CVR RCNN优于现有技术的质量检测方法。同时,我们的实验结果表明,将关系信息整合到两个视图中有助于训练一个优秀的检测模型,这是乳房X线照片质量检测的一个有前景的途径。

Learning to Blindly Assess Image Quality in the Laboratory and Wild Authors Weixia Zhang, Kede Ma, Xiaokang Yang用于盲图像质量评估的先前模型由于难以将具有不同感知尺度的多个数据库组合,因此BIQA只能在一个主题评级数据库上进行训练或微调。因此,在具有合成失真的良好控制的实验室环境中训练的模型不能推广到实际的扭曲,其数据分布是不同的。类似地,针对在野外捕获的图像优化的模型不考虑在实验室中模拟的图像。在这里,我们描述了一种在多个数据库上同时训练BIQA模型的简单技术,无需对比例重新排列进行额外的主观测试。具体来说,我们首先在各个数据库中创建和组合图像对,其地面实况二进制标签是根据相应的平均意见得分计算出来的,表明两个图像中哪一个具有更高的质量。然后,我们通过学习对大量此类图像对进行排序来训练BIQA的深度神经网络。对六个数据库进行的大量实验表明,基于所提出的学习技术的BIQA方法适用于合成和现实的扭曲,优于现有的BIQA模型和一组模型参数。通过组最大分化gMAD竞争进一步验证了我们方法的普遍性。

ICDAR 2019 Competition on Scene Text Visual Question Answering Authors Ali Furkan Biten, Rub n Tito, Andres Mafla, Lluis Gomez, Mar al Rusi ol, Minesh Mathew, C.V. Jawahar, Ernest Valveny, Dimosthenis Karatzas本文介绍了ICDAR 2019场景文本视觉问题答疑竞赛ST VQA的最终结果。 ST VQA引入了迄今为止任何视觉问答系统都无法解决的重要方面,即结合场景文本来回答有关图像的问题。该竞赛引入了一个新的数据集,包括23,038个带有31,791个问题答案对的图像,其中答案始终基于图像中存在的文本实例。这些图像来自7种不同的公共计算机视觉数据集,涵盖了广泛的场景。

Predicting video saliency using crowdsourced mouse-tracking data Authors Vitaliy Lyudvichenko, Dmitriy Vatolin本文介绍了一种获取高质量视频显着图的新方法,使用更便宜的眼动追踪数据替代方案。我们设计了一个鼠标偶然视频观看系统,它根据鼠标光标的位置模拟观众周边视觉。该系统使得能够使用从普通计算机鼠标记录的鼠标跟踪数据作为由更昂贵的眼动仪记录的真实凝视注视的替代。我们开发了众包系统,可以大规模收集此类鼠标跟踪数据。使用收集的鼠标跟踪数据,我们发现它可以作为眼动追踪数据的近似值。此外,为了提高收集的鼠标跟踪数据的效率,我们提出了一种新的深度神经网络算法,该算法提高了鼠标跟踪显着性图的质量。

INN: Inflated Neural Networks for IPMN Diagnosis Authors Rodney LaLonde, Irene Tanner, Katerina Nikiforaki, Georgios Z. Papadakis, Pujan Kandel, Candice W. Bolan, Michael B. Wallace, Ulas Bagci导管内乳头状粘液性肿瘤IPMN是胰腺导管腺癌的前体。虽然超过一半的患者在远处被诊断为胰腺癌,但早期诊断的患者的5年生存率高达34,而前者为3,因此早期诊断至关重要。医学成像领域的独特挑战,例如极其有限的注释数据集和典型的大型3D体积数据,使得深度学习难以确保稳固的立足点。在这项工作中,我们构建了两个新的膨胀深度网络架构,textit InceptINN和textit DenseINN,用于从多序列T1和T2 MRI诊断IPMN的任务。这些网络将他们的2D图层膨胀为3D,并且他们的2D对应物Inceptionv3和DenseNet121分别在ImageNet上训练到新的3D内核。我们还通过进一步扩展预先训练的内核来处理任何数量的输入模态和不同的融合策略来扩展通胀过程。这是首次在IPM诊断的多序列MRI上训练端到端深度网络的研究之一,并表明我们提出的新型充气网络架构能够处理极其有限的训练数据139 MRI扫描,同时提供绝对改进8.76在现有技术水平上诊断IPMN的准确性。代码公开于

Adversarially Trained Deep Neural Semantic Hashing Scheme for Subjective Search in Fashion Inventory Authors Saket Singh, Debdoot Sheet, Mithun Dasgupta从库中的一个检索查询图像的最接近匹配的简单方法,使用像素或特征空间中的绝对差之和来比较图像对。该过程在计算上是昂贵的,不利于照明,背景构成,姿势变化,以及在具有超过1000个元素的图库集上部署效率低。散列是一种更快的替代方案,它涉及在缩小的维度简单特征空间中表示图像。将图像编码成二进制哈希码使得能够使用汉明距离度量在图像对中进行相似性比较。然而,挑战在于使用语义散列方案对图像进行编码,该方案允许主观邻居位于可容忍的汉明半径内。这项工作提出了一种解决方案,采用深层神经语义哈希网络的对抗性学习来进行时尚库存检索。它包括一个特征提取卷积神经网络CNN学习到我最小化服装分类类型的错误,ii最小化语义邻居之间的汉明距离和最大化语义不相似图像之间的距离,iii最大限度地加扰鉴别器识别相应的哈希码图像的能力在处理语义相似的查询库图像对时配对。时间库存搜索的实验验证在找到最接近的匹配时产生90.65的平均精度mAP,而通过用于汉明空间检索的深度Cauchy散列的现有技术获得53.26。

Difficulty-aware Meta-Learning for Rare Disease Diagnosis Authors Xiaomeng Li, Lequan Yu, Chi Wing Fu, Pheng Ann Heng与具有大量可用标记数据的常见疾病不同,罕见疾病具有极低的数据方案。因此,训练神经网络用少数几类数据样本对罕见疾病进行分类是非常具有挑战性的,到目前为止,很少引起人们的注意。在本文中,我们提出了一种难以识别的元学习方法来解决罕见的疾病分类,并展示其对皮肤镜图像进行分类的能力。我们的关键方法是首先从常见疾病数据中培养和构建元学习模型,然后调整模型以执行罕见疾病

Random Vector Functional Link Neural Network based Ensemble Deep Learning Authors Rakesh Katuwal, P.N. Suganthan, M. Tanveer在本文中,我们提出了一个基于随机神经网络的深度学习框架。特别是,受随机矢量功能链路RVFL网络原理的启发,我们提出了具有堆叠层的深度RVFL网络dRVFL。 dRVFL的隐藏层的参数在合适的范围内随机生成并保持固定,而输出权重使用封闭形式的解决方案计算,如在标准RVFL网络中那样。我们还提出了一个集合深度网络edRVFL,可以被视为集成学习与深度学习的结合。与需要独立训练多个模型的传统集成方法不同,edRVFL是通过一次训练单个dRVFL网络获得的。 dRVFL和edRVFL框架都是通用的,可以与任何RVFL变体一起使用。为了说明这一点,我们将深度学习网络与最近提出的稀疏预训练RVFL SP RVFL集成​​在一起。来自不同领域的基准数据集的广泛实验表明我们提出的深度RVFL网络的卓越性能。

Learning to Find Correlated Features by Maximizing Information Flow in Convolutional Neural Networks Authors Wei Shen, Fei Li, Rujie Liu用于图像分类任务的训练卷积神经网络通常导致信息丢失。虽然大多数时候信息丢失对于目标任务来说是多余的,但仍然存在区分信息也被丢弃的情况。例如,如果属于同一类别的样本具有多个相关特征,则该模型可能仅学习特征的子集而忽略其余特征。除非测试集中的分类高度依赖于忽略的特征,否则这可能不是问题。我们认为,相关判别信息的丢弃部分是由于分类损失的最小化不能确保学习整体判别信息而只是最有辨别力的信息。为了解决这个问题,我们提出信息流最大化IFM损失作为正则化项来找到判别相关特征。由于信息丢失较少,分类器可以基于更多信息特征进行预测。我们在移位的MNIST数据集上验证我们的方法,并显示IFM损失在学习代表性和判别性特征方面的有效性。

Large-scale, real-time visual-inertial localization revisited Authors Simon Lynen, Bernhard Zeisl, Dror Aiger, Michael Bosse, Joel Hesch, Marc Pollefeys, Roland Siegwart, Torsten Sattler基于图像的本地化的总体目标是规模,稳健性和速度。近年来,基于局部特征和稀疏3D点云模型的方法都在基准测试中占主导地位,并且看到了成功的真实世界部署。它们的应用范围从机器人导航,自动驾驶,虚拟和增强现实到设备地理定位。最近已经提出了端到端学习的定位方法,其在小规模数据集上显示出有希望的结果。然而,这些方法的定位准确性,可扩展性,延迟和计算存储要求仍然是开放式挑战。我们的目标是在全球范围内部署本地化,因此人们依赖于使用局部特征和稀疏3D模型的方法。我们的方法涵盖从离线模型构建到实时客户端姿势融合。该系统压缩场景的外观和几何形状,以实现高效的模型存储和查找,从而实现超出之前演示的可扩展性。它通过将服务器端定位与基于实时视觉惯性的相机姿态跟踪相结合,允许在移动平台上实现低延迟定位查询和高效融合。为了进一步提高效率,我们利用先验,最近邻搜索,几何匹配剔除和级联姿势候选细化步骤的组合。在使用大型模型时,这种组合优于以前的方法,并允许以前所未有的规模进行部署。我们证明了我们的方法在概念验证系统上的有效性,该系统针对来自世界不同地区的四个城市的模型定位了250万个图像,实现了200ms范围内的查询延迟。

Visual Space Optimization for Zero-shot Learning Authors Xinsheng Wang, Shanmin Pang, Jihua Zhu, Zhongyu Li, Zhiqiang Tian, Yaochen Li零射击学习旨在识别未包括在训练集中的新类别,由于其在真实单词应用中的潜在能力而受到欢迎。零镜头学习模型依赖于学习嵌入空间,其中可以嵌入类的语义描述和实例的视觉特征以用于最近邻搜索。最近,大多数现有作品都将深度视觉特征所构成的视觉空间视为嵌入空间的理想选择。但是,视觉空间中实例的离散分布使得数据结构不起眼。我们认为优化视觉空间至关重要,因为它允许语义向量更有效地嵌入视觉空间。在这项工作中,我们提出了两个实现这一目标的策略。一种是基于视觉原型的方法,它为每个视觉类学习视觉原型,因此,在视觉空间中,类可以由原型特征代替一系列离散的视觉特征来表示。另一种是在中间嵌入空间中优化视觉特征结构,并且在该方法中我们成功地设计了基于多层感知器框架的算法,该算法能够学习共同的中间嵌入空间,同时使视觉数据结构更加独特。通过对四个基准数据集的广泛实验评估,我们证明优化视觉空间有利于零射击学习。此外,所提出的基于原型的方法实现了新的最新技术性能。

Multiple Landmark Detection using Multi-Agent Reinforcement Learning Authors Athanasios Vlontzos, Amir Alansary, Konstantinos Kamnitsas, Daniel Rueckert, Bernhard Kainz解剖标志的检测是医学图像分析和诊断,解释和指导应用的关键步骤。手工注释地标是一个繁琐的过程,需要特定领域的专业知识,并引入观察者间的可变性。本文提出了一种基于多智能体强化学习的多地标检测方法。我们的假设是所有解剖标志的位置在人体解剖学中是相互依赖和非随机的,因此找到一个标志可以帮助推断出其他人的位置。使用Deep Q网络DQN架构,我们构建了一个具有隐式内部通信的环境和代理,这样我们就可以容纳K个代理同时执行和学习,同时他们尝试检测K个不同的地标。在培训期间,代理商通过分享他们积累的知识进行协作以获得集体收益。我们将我们的方法与最先进的架构进行比较,并通过将检测误差减少50来实现更高的准确性,同时与分别训练K代理的天真方法相比,需要更少的计算资源和训练时间。

Generative Mask Pyramid Network forCT/CBCT Metal Artifact Reduction with Joint Projection-Sinogram Correction Authors Haofu Liao, Wei An Lin, Zhimin Huo, Levon Vogelsang, William J. Sehnert, S. Kevin Zhou, Jiebo Luo计算机断层摄影CT或锥形束CT CBCT金属伪影减少的传统方法是用合成数据替换金属迹线内的X射线投影数据。然而,现有的投影或正弦图完成方法不能总是产生解剖学上一致的信息来填充金属迹线,因此,当金属植入物很大时,通常会引入显着的二次伪影。在这项工作中,我们建议通过联合投影正弦图校正以及对抗性学习来替换具有解剖学上一致内容的金属伪影影响区域。为了处理各种形状和大尺寸的金属植入物,我们还提出了一种新颖的掩模金字塔网络,该网络在网络编码层上强制执行掩模信息,并减少掩模融合损失,从而减少对抗训练的早期饱和度。我们的实验结果表明,所提出的投影正弦图校正设计是有效的,并且我们的方法比现有技术方法更好地从金属迹线中恢复信息。

SLAM Endoscopy enhanced by adversarial depth prediction Authors Richard J. Chen, Taylor L. Bobrow, Thomas Athey, Faisal Mahmood, Nicholas J. Durr由于图像特征的稀疏性和防止直接深度感测的尺寸限制,医学内窥镜仍然是同时定位和映射SLAM的具有挑战性的应用。我们提出了一种SLAM方法,该方法结合了由对侧训练的卷积神经网络CNN应用于单眼内窥镜图像的深度预测。深度网络使用简单结肠模型的合成图像进行训练,然后使用从人体冒号的计算机断层扫描测量结果呈现的域随机化照片级真实图像进行微调。每个图像都配有一个无差错深度图,用于监督对抗性学习。然后将单目RGB图像与相应的深度预测融合,从而在内窥镜通过胃肠道前进时实现密集重建和镶嵌。我们的初步结果表明,将单眼深度估计结合到SLAM架构中可以实现内窥镜场景的密集重建。

Improving 3D U-Net for Brain Tumor Segmentation by Utilizing Lesion Prior Authors Po Yu Kao, Jefferson W. Chen, B.S. Manjunath我们提出了一种新颖,简单而有效的方法来整合病变先前和3D U Net以改善脑肿瘤分割。首先,我们利用来自一组患者的地面真相脑肿瘤病变来生成不同类型病变的热图。这些热图用于创建感兴趣的体积VOI图,其包含关于脑肿瘤病变的先前信息。然后将VOI图与多模MR图像集成并输入到3D U Net以进行分割。该方法在公共基准数据集上进行了评估,实验结果表明,所提出的特征融合方法比基线方法有所改进。此外,与现有技术方法相比,我们提出的方法也实现了竞争性能。

Stereo relative pose from line and point feature triplets Authors Alexander Vakhitov, Victor Lempitsky, Yinqiang Zheng立体相对姿势问题是在许多应用中使用的立体视觉测距系统的核心。在这项工作中,我们提出了两个用于立体相对姿势的最小解算器。我们特别考虑最小集由三个点或线特征组成的情况,并且每个特征在两个立体相机上具有三个已知投影。我们在运动估计实验中验证了该配方在实际应用中的重要性。然后,我们提出了一个完整的最小案例分类,其中三个点或线对应,每个都有三个投影,并提出两个新的求解器,可以处理所有这些情况。我们通过将新求解器集成到可视SLAM系统中展示了相当大的效果。

+++NetTailor: Tuning the Architecture, Not Just the Weights Authors Pedro Morgado, Nuno Vasconcelos对象识别的真实世界应用通常需要在单个平台中解决多个任务。在网络微调的标准范例下,每个任务都学习一个全新的CNN,最终的网络规模与任务复杂性无关。这是浪费的,因为简单的任务需要比更复杂的任务更小的网络,并且限制了可以同时解决的任务的数量。为了解决这些问题,我们提出了一种转移学习过程,表示为NetTailor,其中预先训练的CNN的层被用作通用块,其可以与小任务特定层组合以生成新网络。除了最小化分类错误之外,新网络被训练为模仿强无约束CNN的内部激活,并且通过结合块上的软注意机制和2个复杂度正则化约束来最小化其复杂性。通过这种方式,NetTailor可以使网络架构(而不仅仅是其权重)适应目标任务。实验表明,适应简单任务(如角色或交通标志识别)的网络比适应硬任务(如细粒度识别)的网络要小得多。更重要的是,由于该过程的模块化特性,在不牺牲任务间的参数共享或分类准确性的情况下实现了网络复杂性的这种降低。

DuDoNet: Dual Domain Network for CT Metal Artifact Reduction Authors Wei An Lin, Haofu Liao, Cheng Peng, Xiaohang Sun, Jingdan Zhang, Jiebo Luo, Rama Chellappa, Shaohua Kevin Zhou计算机断层扫描CT是一种广泛用于医学诊断和治疗的成像模式。当患者携带金属植入物时,CT图像经常被不希望的伪像破坏,这产生了金属伪影减少MAR的问题。由于两个主要原因,用于减少由金属植入物引起的伪影的现有方法是不合适的。首先,金属伪像是结构化的和非局部的,因此简单的图像域增强方法是不够的。其次,试图减少X射线投影正弦图域中的金属伪影的MAR方法不可避免地由于正弦图不一致而导致严重的二次伪影。为了克服这些困难,我们提出了一种端到端的可训练双域网络DuDoNet,以同时恢复正弦图一致性并增强CT图像。 sigogram和image域之间的联系是一种新颖的Radon反转层,它允许梯度在训练期间从图像域反向传播到正弦图域。大量实验表明,我们的方法比其他单域MAR方法实现了显着的改进。据我们所知,这是结束MAR双域网络的第一个终点。

+++Learning to Generate Synthetic 3D Training Data through Hybrid Gradient Authors Dawei Yang, Jia Deng由图形引擎呈现的合成图像是用于训练深度网络的有前途的来源。然而,确保它们可以帮助训练网络在真实图像上表现良好是具有挑战性的,因为基于图形的生成管道需要许多设计决策,例如3D形状的选择和相机的放置。在这项工作中,我们提出了一种新方法,该方法基于我们所谓的混合梯度来优化3D训练数据的生成。我们将设计决策参数化为实数向量,并将近似梯度和分析梯度组合以获得相对于该向量的网络性能的混合梯度。我们评估我们从单个图像估计表面法线的任务的方法。在标准基准上的实验表明,我们的方法在优化3D训练数据的生成方面可以优于现有技术水平,特别是在计算效率方面。

Evaluating Local Geometric Feature Representations for 3D Rigid Data Matching Authors Jiaqi Yang, Siwen Quan, Peng Wang, Yanning Zhang局部几何描述符仍然是3D刚性数据匹配和融合的基本组成部分。旋转不变局部几何描述符的设计通常包括两步本地参考系LRF构造和特征表示。现有的评估工作主要是在LRF或整体描述符上进行的,但特征表示的定量比较仍未得到探索。本文通过综合评估九种最先进的局部几何特征表示来填补这一空白。我们的评估基于以下方面:利用基础事实LRF,使得经过测试的特征表示的排序与现有研究相比更具说服力。实验部署在六个标准数据集上,具有各种应用场景形状检索,点云配准,物体识别和数据模态LiDAR,Kinect和时空以及扰动,包括高斯噪声,散粒噪声,数据抽取,杂波,遮挡,和有限的重叠。评估的术语涵盖了特征表示的主要问题,例如,独特性,鲁棒性,紧凑性和效率。结果提出了有趣的发现,可以为这个社区提供新的视角,并为现有的关于局部几何特征描述主题的评估提供补充的观点。还介绍了有关其特性的评估方法的摘要,以指导现实世界的应用和新的描述符制作。

Predicting Social Perception from Faces: A Deep Learning Approach Authors U. Messer, S. Fausser温暖和能力代表了社会判断的基本特征,决定了对社会目标的情绪反应和行为意图。该研究调查了一种算法是否可以学习社会分类的视觉表征,并准确地预测人类感知者对面部图像的温暖和能力的印象。此外,这项研究揭示了面部哪些区域对于温暖和能力的分类很重要。我们使用深度卷积神经网络从面部图像和梯度加权类激活映射梯度CAM方法中提取特征,以了解面部区域对分类的重要性。给定单个面部图像,训练的算法可以准确地预测温度印象,精确度约为90,能力印象精确度约为80。这些发现对面部的自动处理和人工角色的设计都有影响。

Non-destructive three-dimensional measurement of hand vein based on self-supervised network Authors Xiaoyu Chen, Qixin Wang, Jinzhou Ge, Yi Zhang, Jing Han目前,基于深度神经网络的监督立体方法取得了令人瞩目的成果。但是,在某些情况下,准确的三维标签对于监督培训是不可访问的。在本文中,提出了一种自监视网络用于双目视差匹配SDMNet,它从立体图像对计算密集视差图而没有视差标签。在自监督训练中,我们密集地匹配立体图像以近似视差图并使用它们来扭曲左右图像用于估计左右图像,我们在估计图像和原始图像之间建立自我监督训练的损失函数,采用感知损失来帮助提高细节和结构中视差图的质量。然后,我们使用SDMNet来获得手部静脉的差异。 SDMNet在KITTI 2012,KITTI 2015,模拟静脉数据集和真实静脉数据集上取得了优异的成果,超越了许多最先进的监督匹配方法。

Learning Where to Look While Tracking Instruments in Robot-assisted Surgery Authors Mobarakol Islam, Yueyuan Li, Hongliang Ren在手术中跟踪仪器时指导任务特别注意在机器人辅助干预中具有很大的潜力。为此,我们提出了一种用于实时手术器械分割和注意力预测的端到端可训练多任务学习MTL模型。我们的模型设计有重量共享编码器和两个面向任务的解码器,并针对联合任务进行了优化。我们引入批量Wasserstein bW损失并构建一个软关注模块,以完善独特的视觉区域,实现高效的显着性学习。对于多任务优化,在同一时期内获得两个任务的收敛总是具有挑战性。我们通过采用多重减重和两个阶段的训练来解决这个问题。我们进一步提出了一种在MICCAI机器人仪器分割数据集上生成任务感知显着图和仪器扫描路径的新方法。与最先进的细分和显着性模型相​​比,我们的模型优于大多数评估指标。

High Sensitivity Snapshot Spectrometer Based on Deep Network Unmixing Authors XiaoYu Chen, Xu Wang, Lianfa Bai, Jing Han, Zhuang Zhao在本文中,我们提出了一种基于卷积神经网络的方法,从重叠的色散光谱中恢复光强度分布,而不是添加额外的光路,以便首次直接捕获它。然后,我们基于我们以前的双路径快照光谱仪构建单路径子Hadamard快照光谱仪。在所提出的单路光谱仪中,我们使用重建的光强度作为原始光强度并成功地恢复高信噪比光谱。与双路快照光谱仪相比,基于网络的单路光谱仪具有更紧凑的结构,保持快照和高灵敏度。大量的模拟和实验结果表明,与双路径子Hadamard光谱仪相比,该方法可以获得更好的重建信噪比光谱,因为它具有更高的光通量。

frame attention networks for facial expression recognition in videos Authors Debin Meng, Xiaojiang Peng, Kai Wang, Yu Qiao基于视频的面部表情识别旨在将给定视频分类为几种基本情绪。如何整合各个框架的面部特征对于此任务至关重要。在本文中,我们提出帧注意网络FAN,以自动突出端到端框架中的一些判别框架。网络采用具有可变数量的面部图像的视频作为其输入并产生固定的维度表示。整个网络由两个模块组成。特征嵌入模块是深度卷积神经网络CNN,其将面部图像嵌入到特征向量中。帧关注模块学习多​​个关注权重,其用于自适应地聚合特征向量以形成单个判别视频表示。我们在CK和AFEW8.0数据集上进行了大量实验。与其他基于CNN的方法相比,我们提出的FAN表现出优越的性能,并且在CK上实现了最先进的性能。

Improved ICH classification using task-dependent learning Authors Amir Bar, Michal Mauda, Yoni Turner, Michal Safadi, Eldad Elnekave头部CT是急诊科设置中最常进行的影像学研究之一,颅内出血ICH是头部CT检测中最关键和最敏感的发现之一。我们介绍了BloodNet,一种深度学习架构,旨在对头部CT进行最佳分类,目标是缩短从CT采集到精确ICH检测的时间。 BloodNet架构结合了独立的分段和分类任务之间的依赖关系,实现了改进的分类结果。据报道,在从超过10家不同医院获得的超过1400项研究中,持有的阳性富集和随机抽样组的AUC为0.9493和0.9566。这些结果与先前报道的结果相当,标记研究数量较少。

RFBNet: Deep Multimodal Networks with Residual Fusion Blocks for RGB-D Semantic Segmentation Authors Liuyuan Deng, Ming Yang, Tianyi Li, Yuesheng He, Chunxiang Wang来自RGB和深度数据的信号携带有关场景的补充信息。传统的RGB D语义分割方法采用两种流融合结构,使用两种模态特定编码器从RGB和深度数据中提取特征。目前还没有明确的机制来模拟编码器之间的相互依赖性。这封信提出了一种新颖的自下而上的交互式融合结构,它引入了一种交互流来桥接模态特定的编码器。交互流逐渐聚合来自编码器的模态特定特征,并计算编码器的互补特征。为了实例化该结构,该字母提出了残余融合块RFB以制定编码器的相互依赖性。 RFB由两个剩余单元和一个带有门机构的融合单元组成。它学习模态特定编码器的互补特征,并提取模态特定特征以及交叉模态特征。基于RFB,该信函展示了用于RGB D语义分割的深度多模网络,称为RFBNet。在两个数据集上进行的实验证明了相互依赖性建模的有效性,并且RFBNet优于最先进的方法。

Robustness Guarantees for Deep Neural Networks on Videos Authors Min Wu, Marta Kwiatkowska深度学习模型的广泛采用对其稳健性提出了要求。在本文中,我们考虑了视频上的深度神经网络的鲁棒性,其包括由卷积神经网络提取的各个帧的空间特征和由递归神经网络捕获的相邻帧之间的时间动态。为了测量鲁棒性,我们研究了最大安全半径问题,该问题计算从给定输入获得的光流集与标准球中的对抗示例的最小距离。我们证明,在Lipschitz连续性的假设下,可以通过离散光流空间使用有限优化来近似问题,并且近似具有可证明的保证。然后,我们表明可以通过在协作设置中利用基于双玩家回合的游戏来解决有限优化问题,其中第一玩家选择光流并且第二玩家确定要在所选流中操纵的尺寸。我们采用随时随地的方法解决游戏问题,即通过单调改进游戏的上限和下限来近似游戏的价值。我们利用基于梯度的搜索算法来计算上界,并利用可允许的A算法来更新下界。最后,我们在UCF101视频数据集上评估我们的框架。

++A 1d convolutional network for leaf and time series classification Authors Dongyang Kuang本文设计了一种1d卷积神经网络,用于以质心轮廓距离曲线CCDC为单一特征的叶片分类任务。使用这种分类器,CCDC的简单特征显示出比以前人们想象的更强的辨别能力。相同的体系结构也可用于对1维时间序列进行分类,几乎没有变化。对一些基准数据集的实验表明,该体系结构可以提供比某些现有方法更高的分类精度。该文件的代码可在以下网址找到

On Reducing Negative Jacobian Determinant of th

标签: py3直线位移传感器o热膨胀监视仪传感器ifm接近传感器工作原理

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台