资讯详情

【今日CV 计算机视觉论文速览 第108期】Tue, 30 Apr 2019

今日CS.CV 计算机视觉论文速读 Tue, 30 Apr 2019 Totally 91 papers ?更精彩的是移动主页

在这里插入图片描述

Interesting:

?scGAN卡通风格的自拍照片, 研究人员提出了一种风格化的自拍卡通方法。利用注意力对抗网络强调面部特征,忽略低层次细节。首先通过cycle架构训练非匹配数据,然后使用三种不同之处loss来训练。全局变化loss强化边缘和肖像的内容特征,强调面部精细结构,感知损失,消除人工痕迹,提高鲁棒性。。(from 京东研究院)) 模型架构: 比较不同方法: 不同风格的结果: dataset:cartoon portraits dataset它包含卡通、手绘和水彩图像。谷歌关键词搜索woman portrait3524

?***TextCohesion检测任何形状的文字, 该方法包括文字骨架和四个方向像素区五个关键部分。其中,文字骨架用于粗略确定文字的位置和形状,然后从四个方向调整文字的区域和边缘。然后用信心分数提出其他想要文字的符号。在Total-Text and SCUT-CTW1500 84分别实现.6 and 86.3 的准确率。(from 浙大) 文本骨架用于提取假阳性,方向像素用于提取更鲁棒的文本: 不同数据集(SynthText [6] CDAR2019 [23] TotalText [2] CTW1500 [43] )及结果:

?动态弹性分布式计算mini-batch SGD, 机器学习任务的弹性分布式计算对于不同任务和需求的机器学习任务非常重要。但目前,大规模计算minibatch弹性框架的性能下降主要来自弹性框架,并会在batchsize变化发生后效应。研究人员提出随时调整学习率,以减少噪声动量估计的影响。这种动态SGD从8实现方法GPUs到128GPUs性能稳定。研究人员还提供了对线性学习率优化和随机动量效应的理论分析。(from Amazon Web Services)

?移动高速人脸识别, 研究人员观察到,级联神经网络的主要瓶颈是候选框提出阶段,所有图像金字塔都需要通过网络计算。因此,研究人员通过整体和局部特征降低了图像金字塔的深度,从而加快了速度。(from 南加州大学 三星研究院) 全局用于处理face,局部用于处理面部特征,推测面部位置。 速度:三星S8的CPU 1280*最小人脸720,scaling factor 0.25----8~10fps. dataset:WIDER-face and FDDB

?DADA-2000, 基于驾驶员的注意力,构建了注意力和事故标记的数据集,包括来自54个不同事故2000个视频段的658476帧,包括不同场景 (highway, urban, rural, and tunnel), 不同天气(sunny, rainy and snowy) 不同光照(daytime and nighttime)。为了预测事故的前兆,还构建了司机的扫视路径和撞击图。为了预测事故的前兆,还构建了司机的扫视路径和撞击图。(from 长安大学) 数据集中的事故分类关系: ref:DR(eye)VE project and newly emerged Berkeley DeepDrive Attention (BDD-A) database

?IsMo-GAN,三维非刚体重建基于对抗学习的二维图像, 通过光、相机位置和阴影实现250Hz的重建(from 凯泽斯劳滕大学 DFKI 马普信息研究所) 2D图像输入(前景分离)后生成点云,然后判别器表面正则化。下半部分显示了不同纹理下的三维重建效果。 网络模型的三个部分: 一些结果:

?**三维刚体数据配准基于局部几何特征, 同时提出了低级和高级几何特征的3D刚体匹配法。与以往的线性操作不同,本文提出了更紧凑、更可变的表达方式,可以通过神经网络在三重架构的欧洲空间中进行优化。基于改进的三重损失函数,神经网络可以充分利用三重关系。这种描述子更轻,旋转不变。(from 华中科技) 模型的模型架构NN模块结构如下: 损失示意图: 训练过程: 一些配准结果: dataset:U3M [23],U3OR [52, 53],BMR [6].Aug ICL-NUIM [55],SceneNN


Daily Computer Vision Papers

Style Transfer by Relaxed Optimal Transport and Self-Simiarity Authors Nicholas Kolkin, Jason Salavon, Greg Shakhnarovich样式转移算法努力使用另一种图像的样式呈现一个图像的内容。我们提出了基于松弛最优传输和自相似性的样式转移STROTSS,一种新的基于优化的样式转移算法。我们扩展我们的方法以允许用户指定点对点或区域到区域控制样式图像和输出之间的视觉相似性。这种指导可用于实现特定的视觉效果或纠正由无约束的样式转移所产生的错误。为了将我们的方法与先前的工作进行定量比较,我们进行了大规模的用户研究,旨在评估样式转移算法中各种设置的样式内容权衡。我们的结果表明,对于任何所需的内容保存水平,我们的方法提供比以前的工作更高质量的程式化。代码可在

Progressive Differentiable Architecture Search: Bridging the Depth Gap between Search and Evaluation Authors Xin Chen, Lingxi Xie, Jun Wu, Qi Tian最近,可微分搜索方法在降低神经结构搜索的计算成本方面取得了重大进展。但是,这些方法通常报告在评估搜索的体系结构或将其传输到另一个数据集时的准确性较低。这可以说是由于搜索和评估方案中的架构深度之间存在巨大差距。在本文中,我们提出了一种有效的算法,它允许搜索的体系结构的深度在训练过程中逐渐增长。这带来了两个问题,即较重的计算开销和较弱的搜索稳定性,我们分别使用搜索空间近似和正则化来解决。通过在单个GPU上显着缩短7小时的搜索时间,我们的方法在代理数据集CIFAR10或CIFAR100以及目标数据集ImageNet上实现了最先进的性能。代码可在

End-to-end Cloud Segmentation in High-Resolution Multispectral Satellite Imagery Using Deep Learning Authors Giorgio Morales, Alejandro Ram rez, Joel Telles由于卫星可以捕获的地理和云层种类繁多,因此在高分辨率卫星图像中分割云是一项艰巨而具有挑战性的任务。因此,它需要自动化和优化,特别是对于经常处理大量卫星图像的人,例如政府机构。在这个意义上,这项工作的贡献是双重的我们提出CloudPeru2数据集,包括22,400个512x512像素的图像及其各自的手绘云蒙版,以及使用卷积神经网络的云端对端分割方法的提议网络CNN基于Deeplab v3架构。测试集的结果准确度为96.62,精度为96.46,特异度为98.53,灵敏度为96.72,优于对比方法。

DeepHMap++: Combined Projection Grouping and Correspondence Learning for Full DoF Pose Estimation Authors Mingliang Fu, Weijia Zhou近年来,用卷积神经网络CNN估计对象实例的6D姿势已经受到相当多的关注。根据是否使用中间线索,相关文献可大致分为两大类直接方法和两级管道。对于后者,在第一阶段由CNN回归中间线索,例如3D对象坐标,语义关键点或虚拟控制点而不是姿势参数。然后可以通过利用这些中间线索构造的对应约束来解决对象姿势。在本文中,我们专注于两阶段管道的后处理,并提出结合两个学习概念,用于在一侧的挑战性场景投影分组和另一方面的对应学习下估计对象姿势。我们首先采用基于局部补丁的方法来预测投影热图,其表示3D边界框角的投影的置信度分布。然后提出投影分组模块以从每层热图中去除冗余的局部最大值。不是直接将2D 3D对应馈送到透视n点PnP算法,而是从局部最大值及其对应邻域对多个对应假设进行采样并且由对应评估网络对其进行排序。最后,选择具有较高置信度的对应来确定对象姿势。对三个公共数据集的广泛实验表明,所提出的框架优于几种最先进的方法。

Solo or Ensemble? Choosing a CNN Architecture for Melanoma Classification Authors F bio Perez, Sandra Avila, Eduardo Valle卷积神经网络CNN为计算机视觉提供了卓越的结果,包括医学图像分析。随着可用架构的数量不断增加,选择一个架构并不明显。现有技术表明,在执行转移学习时,ImageNet上的CNN架构的性能与它们在目标任务上的性能密切相关。我们在ISIC Challenge 2017数据集中创建的5组分组中评估了超过9种CNN结构的黑素瘤分类声明,以及3种重复测量,产生了135种模型。我们发现的相关性开始时比现有技术报道的相关性要小得多,并且当我们仅考虑表现最佳的网络不受控制的滋扰时,即完全消失,即分裂和随机性克服任何分析的因素。在可能的情况下,黑色素瘤分类的最佳方法仍然是创建多个模型的集合。我们比较了两种选择,用于选择哪些模型在高质量库中随机选取哪些模型,而使用验证集来确定首先选择哪些模型。对于小型合奏,我们发现第二种方法略有优势,但发现随机选择也具有竞争力。虽然我们在本文中的目的不是为了最大限度地提高性能,但我们很容易达到AUC,与2017年ISIC挑战赛的第一名相当。

A New Method for Atlanta World Frame Estimation Authors Yinlong Liu, Alois Knoll, Guang Chen在本文中,我们通过考虑垂直方向和水平方向之间的关系,提出了一种新的亚特兰大帧估计方法。与以前的解决方案不同,我们的方法不能同时解决所有方向。相反,它按顺序估计方向。具体地说,我们的方法首先全局搜索mathbb S 2中的垂直方向,然后估计一维中的水平方向。因此,每个子问题的维数都很低,可以有效地解决。换句话说,随着水平方向的数量增加,我们的方法的运行时间不会大大增加。通过对合成数据和现实数据进行测试,验证了我们方法的优势。

Capturing human categorization of natural images at scale by combining deep networks and cognitive models Authors Ruairidh M. Battleday, Joshua C. Peterson, Thomas L. Griffiths人类分类是心理学中认知建模最重要和最成功的目标之一,但数十年的竞争模型的开发和评估取决于一小组简单的人工实验刺激。在这里,我们将这种建模范式扩展到自然图像领域,揭示了刺激表征在分类中所起的关键作用及其对人们如何形成类别的结论的影响。将分类的心理模型应用于自然图像需要两个显着的进步。首先,我们进行了第一次人体分类的大规模实验研究,涉及来自10个非重叠对象类别的10,000个自然图像的超过500,000个人类分类判断。其次,我们通过探索当前有监督和无监督的深度和浅层机器学习方法的最佳方法,解决了在认知模型中表示高维图像的传统瓶颈。我们发现选择足够表达,数据驱动的表示对于捕获人类分类至关重要,并且使用这些表示允许表示具有抽象原型的类别的简单模型优于基于更复杂的基于记忆的分类示例,其在使用较少自然主义刺激的研究中占主导地位。 。

Deep Fitting Degree Scoring Network for Monocular 3D Object Detection Authors Lijie Liu, Jiwen Lu, Chunjing Xu, Qi Tian, Jie Zhou在本文中,我们建议学习单眼三维物体检测的深度拟合度评分网络,旨在最终得出建议与对象之间的拟合度。与大多数使用严格约束来获得3D定位的单眼框架不同,我们的方法通过测量投影的3D建议与对象之间的视觉拟合程度来实现高精度定位。我们首先使用基于锚的方法回归对象的维度和方向,以便可以构建合适的3D提议。我们提出FQNet,它可以仅基于2D线索推断3D提议和对象之间的3D IoU。因此,在检测过程中,我们在3D空间中对大量候选进行采样,并将这些3D边界框单独投影到2D图像上。通过简单地以FQNet的输出3D IoU得分的形式探索提案和对象之间的空间重叠,可以挑选出最佳候选者。 KITTI数据集上的实验证明了我们框架的有效性。

DeLiO: Decoupled LiDAR Odometry Authors Queens Maria Thomas, Oliver Wasenm ller, Didier Stricker大多数LiDAR测距算法通过以插入方式估计旋转和平移来估计两个连续帧之间的变换。在本文中,我们提出了解耦LiDAR测距仪DeLiO,它首次将旋转估计完全与平移估计解耦。特别地,通过从输入点云提取表面法线并在单位球上跟踪它们的特征图案来估计旋转。使用此旋转,点云未旋转,因此底层变换是纯粹的平移,可以使用线云方法轻松估算。对KITTI数据集进行评估,并将结果与​​现有技术算法进行比较。

PCA-RECT: An Energy-efficient Object Detection Approach for Event Cameras Authors Bharath Ramesh, Andres Ussa, Luca Della Vedova, Hong Yang, Garrick Orchard我们提出了第一个基于事件的,基于事件的节能方法,用于使用事件相机进行物体检测和分类。与传统的基于帧的相机相比,选择事件相机导致微秒的高时间分辨率,低功耗几百mW和宽动态范围120dB作为吸引人的特性。然而,基于事件的对象识别系统在准确性方面远远落后于基于帧的对象。为此,本文提出了一种基于事件的特征提取方法,该方法通过在图像帧上累积局部活动然后将主成分分析PCA应用于归一化邻域来设计。随后,我们通过利用特征表示的低维度来提出用于有效特征匹配的回溯自由k d树机制。另外,所提出的k d树机制允许特征选择以在硬件资源被限制以实现维度减少时获得较低维度的字典表示。因此,所提出的系统可以在现场可编程门阵列FPGA器件上实现,从而导致高性能超过资源比。所提出的系统在用于对象分类的基于真实世界事件的数据集上进行测试,显示出优越的分类性能以及与现有技术算法的相关性。此外,我们在有限的训练数据和地面实况注释的非受控照明条件下,在实验室环境中验证了物体检测方法和实时FPGA性能。

Actional-Structural Graph Convolutional Networks for Skeleton-based Action Recognition Authors Maosen Li, Siheng Chen, Xu Chen, Ya Zhang, Yanfeng Wang, Qi Tian最近,骨架数据的动作识别在计算机视觉中引起了很多关注。以前的研究主要基于固定的骨架图,仅捕获关节之间的局部物理依赖性,这可能会错过隐式关节相关性。为了捕获更丰富的依赖关系,我们引入了一种称为A链接推理模块的编码器解码器结构,以直接从动作捕获特定于行为的潜在依赖关系,即动作链接。我们还扩展现有的骨架图以表示更高阶的依赖性,即结构链接。将这两种类型的链接组合成广义骨架图,我们进一步提出动作结构图卷积网络AS GCN,其将动作结构图卷积和时间卷积堆叠为基本构建块,以学习用于动作识别的空间和时间特征。将未来的姿势预测头与识别头并行添加,以帮助通过自我监督捕获更详细的行动模式。我们使用两个骨架数据集NTU RGB D和Kinetics在动作识别中验证AS GCN。与现有技术方法相比,所提出的AS GCN实现了持续的大的改进。作为副产品,AS GCN还展示了未来姿势预测的有希望的结果。

MSDC-Net: Multi-Scale Dense and Contextual Networks for Automated Disparity Map for Stereo Matching Authors Zhibo Rao, Mingyi He, Yuchao Daia, Zhidong Zhua, Bo Lia, Renjie He立体图像的视差预测对于计算机视觉应用是必不可少的,包括自动驾驶,3D模型重建和物体检测。为了预测准确的视差图,我们提出了一种新的深度学习架构,用于从一对称为MSDC Net的整流立体图像中检测视差图。我们的MSDC Net包含两个模块多尺度融合2D卷积和多尺度残差3D卷积模块。多尺度融合2D卷积模块利用潜在的多尺度特征,通过Dense Net提取和融合不同尺度特征。多尺度残差3D卷积模块从由多尺度融合2D卷积模块聚合的成本体积中学习不同尺度几何上下文。在Scene Flow和KITTI数据集上的实验结果表明,我们的MSDC Net明显优于非遮挡区域中的其他方法。

The Mutex Watershed and its Objective: Efficient, Parameter-Free Image Partitioning Authors Steffen Wolf, Alberto Bailoni, Constantin Pape, Nasim Rahaman, Anna Kreshuk, Ullrich K the, Fred A. Hamprecht图像分割或没有语义的分割是将图像分解成不同的片段或等效地检测闭合轮廓的任务。大多数先前的工作要么需要种子,每个部分一个或一个阈值,要么将任务规划为多核相关聚类,即NP难题。在这里,我们提出了一种用于签名图分区的贪心算法,即Mutex Watershed。与种子流域不同,该算法不仅可以容纳有吸引力的,而且还可以容纳令人厌恶的线索,使其能够找到先前未指定数量的段而无需显式种子或可调阈值。我们还证明了这种简单的算法解决了全局最优性的一个目标函数,它与多核相关聚类整数线性规划公式密切相关。该算法是确定性的,实现起来非常简单,并且具有经验上的线性复杂性。当呈现来自深度神经网络的短距离吸引力和长距离排斥线索时,Mutex Watershed为竞争性ISBI 2012 EM分割基准提供了目前已知的最佳结果。

Forward Vehicle Collision Warning Based on Quick Camera Calibration Authors Yuwei Lu, Yuan Yuan, Qi Wang前方车辆碰撞警告FCW是自动驾驶车辆最重要的功能之一。在此过程中,车辆检测和距离测量是核心组件,需要精确的定位和估算。在本文中,我们通过聚合单眼距离测量和精确的车辆检测,提出了一种简单但有效的前方车辆碰撞预警框架。为了获得前方车辆距离,使用了仅需要三个物理点来校准相关摄像机参数的快速摄像机校准方法。对于前方车辆检测,提出了一种将校准结果视为距离先验的多尺度检测算法,以提高精度。在我们建立的真实场景数据集中进行了密集的实验,结果证明了所提出的框架的有效性。

Tracking as A Whole: Multi-Target Tracking by Modeling Group Behavior with Sequential Detection Authors Yuan Yuan, Yuwei Lu, Qi Wang基于视频的车辆检测和跟踪是智能交通系统ITS最重要的组成部分之一。当谈到道路交叉口时,由于车辆之间的堵塞和复杂的相互作用,问题变得更加困难。为了获得精确的检测和跟踪结果,在这项工作中,我们提出了一种新的跟踪检测框架。在检测阶段,我们提出了一个顺序检测模型来处理严重的闭塞。在跟踪阶段,我们对组行为进行建模,以处理具有重叠和模糊的复杂交互。本文的主要贡献是双重的1形状先验在序贯检测模型中被用来解决拥挤场景中的遮挡。 2在交通场景中定义交通力以模拟群体行为,并且它可以帮助处理车辆之间的复杂交互。我们评估了在路口实际监控视频上提出的方法,并且性能证明了我们方法的有效性。

TextCohesion: Detecting Text for Arbitrary Shapes Authors Weijia Wu, Jici Xing, Hong Zhou在本文中,我们提出了一种名为TextCohesion的像素智能检测器,用于场景文本检测,尤其适用于任意形状的检测器。 TextChohesion将文本实例拆分为5个关键组件,即文本框架和四个方向像素区域。这些组件易于处理,而不是直接控制整个文本实例。我们还引入了置信度评分机制来过滤掉与文本类似的字符。我们的方法可以集中整合文本上下文,甚至可以在非常复杂的背景下掌握线索。在具有挑战性的基准测试中的实验证明,我们的TextCohesion明显优于最先进的方法,并且它在Total Text和SCUT CTW1500上分别实现了84.6和86.3的F度量。

Inner-Imaging Convolutional Networks Authors Yang Hu, Guihua Wen, Mingnan Luo, Dan Dai, Wenming Cao, Zhiwen Yu尽管计算机视觉取得了巨大成功,但深度卷积网络仍然存在严重的计算成本和冗余。虽然以前的工作通过增强滤波器的多样性来解决这个问题,但是它们忽略了卷积网络内部结构中的互补性和完整性。在此设置中,我们提出了一种新颖的内部成像架构,它允许通道之间的关系满足上述要求。具体来说,我们使用卷积核来组合滤波器信号点,以同时模拟组内和组间关系。因此,我们不仅增加了渠道的多样性,而且明确地增强了互补性和完整性。我们提出的架构重量轻,易于实现,以提高建模效率和性能。我们在CIFAR,SVHN和ImageNet上进行了大量实验,并验证了我们的内部成像架构的有效性,其中剩余网络作为主干。

Context-Aware Zero-Shot Learning for Object Recognition Authors Eloi Zablocki, Patrick Bordes, Benjamin Piwowarski, Laure Soulier, Patrick Gallinari零镜头学习ZSL旨在通过利用辅助知识(如语义表示)对未标记的对象进行分类。先前方法的限制是仅对象的固有属性,例如,在他们的背景下,例如他们的视觉外观被考虑在内。图像中的周围对象将被忽略。遵循直观的原则,即对象倾向于在某些上下文中而不是在其他上下文中找到,我们提出了一种新的且具有挑战性的方法,即上下文感知的ZSL,它以新的方式利用语义表示来模拟对象在给定内容中出现的条件可能性上下文。最后,通过对Visual Genome进行的大量实验,我们发现上下文信息可以显着改善标准ZSL方法,并且对不平衡类具有鲁棒性。

DADA-2000: Can Driving Accident be Predicted by Driver Attention? Analyzed by A Benchmark Authors Jianwu Fang, Dingxin Yan, Jiahuan Qiao, Jianru Xue, He Wang, Sen Li驾驶员注意力预测目前正成为安全驾驶研究界的焦点,例如DR eye VE项目和新出现的Berkeley DeepDrive Attention BDD A数据库在危急情况下。在安全驾驶中,一项重要任务是尽早预测即将发生的事故。 BDD A意识到这个问题并且在实验室中引起了驾驶员的注意,因为这些场景很少见。然而,BDD A关注的是没有遇到实际事故的危急情况,只是面对驾驶员注意预测任务,没有事故预测的紧密步骤。与此形成对比的是,我们探索驾驶员眼睛捕捉多种事故的观点,构建一个比以往更加多样化和更大的视频基准,驾驶员注意力和驾驶事故注释同时命名为DADA 2000,其中有2000个视频在54种事故中拥有约658,476帧的剪辑。这些剪辑是人群采集和捕获的高速公路,城市,乡村和隧道,天气晴朗,多雨和白天和夜晚的光线条件。对于驾驶员注意力表示,我们收集固定地图,扫视扫描路径和聚焦时间。事故由其类别,夹子中的事故窗口和碰撞对象的空间位置注释。在分析的基础上,我们得到了本文中问题的定量和肯定答案。

A Personalized Affective Memory Neural Model for Improving Emotion Recognition Authors Pablo Barros, German I. Parisi, Stefan Wermter最近的情绪识别模型强烈依赖于有监督的深度学习解决方案来区分一般情绪表达。然而,当识别在线和个性化的面部表情时,例如,对于特定于人的情感理解,它们是不可靠的。在本文中,我们提出了一个基于条件对抗自动编码器的神经模型,以学习如何表示和编辑一般情绪表达。然后,我们建议将需要时增长的网络作为个性化的情感记忆来学习情绪表达的个性化方面。当在野生数据集中对textit进行评估时,我们的模型在情感识别方面实现了最先进的性能。此外,我们的实验包括消融研究和神经可视化,以解释我们的模型的行为。

Detecting inter-sectional accuracy differences in driver drowsiness detection algorithms Authors Mkhuseli Ngxande, Jule Raymond Tapamo, Michael Burke卷积神经网络CNN已成功应用于广泛的领域,包括数据挖掘,对象检测和业务。 CNN的优势在Alex Krizhevsky的突破之后,通过将一般图像分类任务中获得的错误率从26.2急剧降低到15.4来显示出改进。在道路安全方面,CNN已广泛应用于交通标志,障碍物检测和车道偏离检查的检测。此外,CNN已被用于监控驾驶模式的数据挖掘系统,并在适当时推荐休息时间。本文介绍了驾驶员睡意检测系统,并通过突出检测深色皮肤驾驶员面部的问题,表明这些技术的应用存在潜在的社会挑战。在非洲环境中,这是一个特别重要的挑战,那里有更多皮肤黝黑的司机。不幸的是,公开可用的数据集通常在不同的文化背景下被捕获,因此不包括所有种族,这可能导致错误的检测或种族偏见的模型。这项工作评估了在常用驾驶员睡意检测数据集上训练卷积神经网络模型并对专门为更广泛的表示选择的数据集进行测试时获得的性能。结果表明,使用公开数据集训练的模型遭受过度拟合的广泛影响,并且可能表现出种族偏见,如通过在更具代表性的数据集上进行测试所示。我们提出了一种新颖的可视化技术,可以帮助识别可能存在歧视的人群,使用主成分分析PCA生成按相似性排序的面部网格,并将这些与模型精度叠加相结合。

Beauty Learning and Counterfactual Inference Authors Tao Li这项工作通过利用用户实验和照片真实图像编辑的最新进展展示了一种新的因果发现方法,展示了识别因果因素和反事实地理解复杂系统的潜力。我们以美容学习问题为例,几个世纪以来一直在形而上学讨论并被证明存在,可量化,并且可以通过我们最近的论文中的深层模型学习,其中我们利用自然图像生成器结合用户研究来推断从面部语义学到美容结果的因果效应,其结果也与现有的实证研究一致。我们期望拟议的框架可以更广泛地应用于因果推理。

Computational Attention System for Children, Adults and Elderly Authors Onkar Krishna, Kiyoharu Aizawa, Go Irie现有的计算机视觉注意系统的重点是基本上模拟和理解成人视觉注意系统的概念。因此,很少考虑观察者年龄对场景观察行为的影响。本研究定量分析了三种不同类型的自然图像,人造图像和分形图像在场景观察期间凝视着陆的年龄相关差异。不同年龄组的观察者已经显示出与所观看图像的类别无关的不同场景观看趋势。从结果中得出了一些有趣的观察结果。首先,用于人造数据集的凝视着陆显示,尽管儿童观察者更多地关注场景前景,即附近的位置,但是老年观察者倾向于探索场景背景,即场景中更远的位置。考虑到这一结果,本文提出了一个框架来定量测量不同年龄组的深度偏差趋势。其次,定量分析结果显示,儿童表现出最低的探索行为水平,但在年龄组和不同的场景类别中表现出最高的中心偏向倾向。第三,个体间相似性指标显示,与所有场景类别的其他成年人相比,成人与儿童和老年人的凝视一致性显着降低。最后,这些分析结果因此被用于开发独立于图像类型的更准确的年龄适应显着性模型。预测准确性表明,我们的模型更适合于收集的属于不同年龄组的观察者的眼睛凝视数据,而不是现有模型。

Catch Me If You Can Authors Antoine Viscardi, Casey Juanxi Li, Thomas Hollis随着签名识别的进步在2个错误率上达到了新的性能平台,研究替代方法很有意思。本文详述的方法着眼于使用变分自动编码器VAE来学习真实签名的潜在空间表示。然后,这用于传递未标记的签名,使得VAE仅成功地重建真实的签名。该潜在空间表示和重建损失随后由随机森林和kNN分类器用于预测。随后,确定并分析VAE解开和后塌陷的可能性。最终结果表明,虽然这种方法的表现不如现有的替代方案,但进一步的工作可能会将其用作未来模型的整体的一部分。

Crowd Management in Open Spaces Authors Tauseef Ali, Ahmed B. Altamimi人群分析和管理是确保公共安全和保障的一个具有挑战性的问题。为此目的,已经提出了许多技术来解决各种问题。然而,这些技术的泛化能力是有限的,因为忽略了人群的密度从低到高变化的事实,这取决于观察的场景。我们提出了基于功能强大的方法来处理人群安全和人身安全问题。我们使用基准数据集评估了我们的方法,并提供了详细信息分析。

Talk Proposal: Towards the Realistic Evaluation of Evasion Attacks using CARLA Authors Cory Cornelius, Shang Tse Chen, Jason Martin, Duen Horng Chau在本次演讲中,我们描述了我们的内容保护攻击对象检测器,ShapeShifter,并演示如何在现实场景中评估此威胁。我们将介绍如何使用CARLA(一种逼真的城市驾驶模拟器)来创建这些场景,以及我们如何使用ShapeShifter生成针对这些场景的内容保护攻击。

AnonymousNet: Natural Face De-Identification with Measurable Privacy Authors Tao Li, Lei Lin随着每天从社交媒体和各种类型的摄像机生成数十亿个人图像,安全性和隐私性受到前所未有的挑战。虽然已经进行了大量的尝试,但是现有的面部图像识别技术要么在照片现实中不足,要么无法在质量和数量上平衡隐私和可用性,即,它们无法回答反事实问题,例如现在是私人的,它是多么私密,它可以更私密在本文中,我们提出了一个名为AnonymousNet的新框架,努力系统地解决这些问题,平衡可用性,并以自然和可衡量的方式增强隐私。该框架包括四个阶段的面部属性估计,面向隐私度量的面部混淆,定向自然图像合成和对抗性扰动。我们不仅在图像质量和属性预测准确性方面实现了现状,我们也首次证明面部隐私是可测量的,可以分解,因此可以以照片逼真的方式进行操作以满足不同的要求和应用场景。实验进一步证明了所提出框架的有效性。

Multiple receptive fields and small-object-focusing weakly-supervised segmentation network for fast object detection Authors Siyang Sun对象检测在各种视觉应用中起着重要作用。然而,探测器的精度和速度通常是矛盾的。快速检测器精确度降低的一个主要原因是难以检测小物体。为了解决这个问题,我们提出了一个多感受野和小物体聚焦弱监督分割网络MRFSWSnet来实现快速物体检测。在MRFSWSnet中,多个感受野块MRF用于关注物体及其相邻背景的不同空间位置,具有不同的权重,以增强特征的可辨性。另外,为了提高小物体检测的精度,将小物体聚焦弱监督分割模块(仅关注小物体而非所有物体)集成到检测网络中进行辅助训练,以提高小物体检测的精度。大量实验表明我们的方法对PASCAL VOC和MS COCO检测数据集的有效性。特别是,对于300x300的较低分辨率版本,MRFSWSnet在VOC2007测试中达到80.9 mAP,每帧的推理速度为15毫秒,这是实时检测器中最先进的检测器。

Deep Learning Based Automatic Video Annotation Tool for Self-Driving Car Authors N.S.Manikandan, K.Ganesan在自动驾驶汽车中,异物检测,物体分类,车道检测和物体跟踪被认为是关键模块。最近,使用实时视频,人们想要叙述安装在我们车辆中的摄像机拍摄的场景。为了有效地实现该任务,广泛使用深度学习技术和自动视频注释工具。在本文中,我们比较了每个模块可用的各种技术,并使用适当的指标选择其中的最佳算法。对于物体检测,考虑YOLO和Retinanet 50,并且基于平均精度mAP选择最佳的一个。对于对象分类,我们考虑VGG 19和Resnet 50,并选择基于低错误率和良好准确性的最佳算法。对于车道检测,比较Udacity s Finding Lane Line和基于深度学习的LaneNet算法,并选择能够准确识别给定车道的最佳车道用于实施。就目标跟踪而言,我们比较了Udacity的对象检测和跟踪算法以及基于深度学习的深度排序算法。基于在许多帧中跟踪相同对象并预测对象移动的准确性,选择最佳算法。与人类注释器相比,我们的自动视频注释工具精确到83。我们考虑了一个分辨率为1035 x 1800像素的530帧视频。平均每帧约有15个物体。我们的注释工具在基于CPU的系统中消耗43分钟,在基于GPU的中级系统中消耗2.58分钟来处理所有四个模块。但同一个视频花了近3060分钟让一位人类注释者在给定视频中叙述场景。因此,我们声称我们提出的自动视频注释工具在GPU系统中相当快1200次且准确。

Everyone is a Cartoonist: Selfie Cartoonization with Attentive Adversarial Networks Authors Xinyu Li, Wei Zhang, Tong Shen, Tao Mei自拍和卡通是我们日常生活中广泛呈现的两种流行的艺术形式。尽管在图像翻译风格化方面取得了很大进步,但是很少有技术专注于自拍卡通化,因为卡通图像通常包含艺术抽象,例如,大的平滑区域和夸张,例如大的精致眉毛。在本文中,我们通过提出自拍漫画生成对抗网络scGAN来解决这个问题,该主要使用细心的对抗网络AAN来强调特定的面部区域并忽略低级细节。更具体地说,我们首先设计一个类似于体系结构的循环,以便使用不成对数据进行训练然后我们从不同方面设计三个损失。总变异损失用于突出卡通肖像中的重要边缘和内容。增加了周到的周期性损失,以更加强调眼睛等精致的面部区域。此外,还包括感知损失以消除伪像并提高我们方法的稳健性。实验结果表明,我们的方法能够产生不同的卡通风格,并且优于许多最先进的方法。

State Classification of Cooking Objects Using a VGG CNN Authors Kyle Mott在机器学习中,机器人知道对象的状态并识别特定的期望状态是非常重要的。这是可以使用卷积神经网络解决的图像分类问题。在本文中,我们将讨论使用VGG卷积神经网络识别烹饪对象的状态。我们将讨论激活函数,优化器,数据增强,层添加和其他不同版本的体系结构的使用。本文的结果将用于确定VGG卷积神经网络的替代方案,以提高准确性。

Converting a Common Document Scanner to a Multispectral Scanner Authors Zohaib Khan, Faisal Shafait, Ajmal Mian我们建议构建一个原型扫描仪,用于捕获文档的多光谱图像。通过断开其内部光源并连接包括窄带发光二极管LED的外部多光谱光源来修改标准片状馈送扫描器。通过用不同的LED连续照射扫描仪光导并捕获文档的扫描来扫描文档。该系统是便携式的,可用于验证质疑文件,支票,收据和纸币的潜在应用。

EV-Action: Electromyography-Vision Multi-Modal Action Dataset Authors Lichen Wang, Bin Sun, Joseph Robinson, Taotao Jing, Yun Fu多模态人体运动分析是一个关键且有吸引力的研究课题。大多数现有的多模态动作数据集仅提供视觉模态,例如RGB,深度或低质量骨架数据。在本文中,我们引入了一个名为EV Action数据集的新的大规模数据集。它包括RGB,深度,肌电图EMG和两种骨架模态。与其他人相比,我们的数据集有两个主要的改进1我们部署了一个动作捕捉系统,以获得高质量的骨架模态,提供更全面的运动信息,包括骨架,轨迹和加速度,具有更高的准确性,采样频率和更多的骨架标记。 2我们包括EMG模态。虽然EMG被用作生物力学领域的有效指标,但它在多媒体,计算机视觉和机器学习领域尚未得到很好的探索。据我们所知,这是第一个具有EMG模态的动作数据集。在本文中,我们将介绍EV Action数据集的详细信息。提出了一种基于EMG的动作识别的简单而有效的框架。此外,我们为每种模式提供最先进的基线。当涉及EMG时,这些方法实现了相当大的改进,并且它证明了EMG模态在人类行动分析任务中的有效性。我们希望这个数据集可以为信号处理,多媒体,计算机视觉,机器学习,生物力学和其他跨学科领域做出重大贡献。

Self-Supervised Flow Estimation using Geometric Regularization with Applications to Camera Image and Grid Map Sequences Authors Sascha Wirges, Johannes Gr ter, Qiuhao Zhang, Christoph Stiller我们提出了一种自我监督的方法,用于在自动驾驶领域中使用完全卷积神经网络来估计相机图像和顶视图网格图序列中的流量。我们通过在假定静态环境的情况下添加表示运动一致性的正则化器来扩展用于自监督光流估计的现有方法。然而,由于这个假设违反了其他移动交通参与者,我们还估计了一个掩模来扩展这种正规化。向运动一致性添加正则化可以提高收敛性和流量估计精度。此外,我们通过我们从运动遮罩得到的遮罩来缩放由于空间流量不一致引起的误差。由于静态和动态环境之间的更好分离,这提高了流量急剧变化的区域的准确性。我们将我们的方法应用于来自摄像机图像序列的光流估计,验证测距估计并建议使用所生成的运动掩模迭代地增加光流估计精度的方法。最后,我们基于基于网格图序列的KITTI测距和跟踪基准来提供定量和定性结果。我们表明,在应用运动和空间一致性正则化时,我们可以提高准确性和收敛性。

Region homogeneity in the Logarithmic Image Processing framework: application to region growing algorithms Authors Guillaume Noyel IPRI, SIGPH iPRI , Michel Jourlin IPRI 为了创建对光照变化具有鲁棒性的图像分割方法,研究了图像区域的两个新的均匀性标准。两者都是使用对数图像处理LIP框架定义的,该框架的法则模拟照明变化。第一个标准估计LIP添加剂的均匀性,并基于LIP加性定律。理论上,它对照相机曝光时间或光源强度变化引起的照明变化不敏感。第二个是LIP乘法同质性标准,它基于LIP乘法定律,并且对由于物体厚度或不透明度的变化引起的变化不敏感。然后将每个标准应用于Revol和Jourlin的1997区域生长方法,该方法基于图像区域的同质性。因此,区域生长方法对于每个标准特定的照明变化是稳健的。在模拟和实际图像上呈现光照变化的实验证明了标准对这些变化的稳健性。与基于图像组件树的现有技术方法相比,我们的方法更加健壮。这些结果为照明不受控制或部分控制的众多应用开辟了道路。

An Ensemble of Neural Networks for Non-Linear Segmentation of Overlapped Cursive Script Authors Amjad Rehman精确的字符分割是提高光学字符识别OCR精度的唯一解决方案。在草书中,重叠字符是字符分割过程中的严重问题,因为使用传统的线性分割策略将字符从其判别部分中剥夺。因此,非线性分割是避免字符部分丢失和增强字符脚本识别准确性的最大需要。本文提出了一种改进的手写罗马字体重叠字符非线性分割方法。所提出的技术由基于字符的几何特征的一系列启发式规则组成,以在草书脚本字中定位可能的非线性字符边界。然而,为了提高效率,启发式方法与训练的集合神经网络验证策略集成,用于验证字符边界。因此,基于集合神经网络投票,保留正确的边界并且移除不正确的边界。最后,基于验证的有效分割点,字符被非线性地分段。为了公平比较,对CEDAR基准数据库进行了实验。实验结果比现有技术中报道的传统线性字符分割技术好得多。与单个神经网络相比,集合神经网络在提高字符分割精度方面起着至关重要的作用。

A dual branch deep neural network for classification and detection in mammograms Authors Ran Bakalo, Jacob Goldberger, Rami Ben Ari在本文中,我们提出了一种新的深度学习架构,用于乳房X线照片中异常的联合分类和定位。我们首先假设一个弱监督的设置,并提出一种新的方法,用数据驱动的决策。这个新颖的网络结合了两个学习分支与区域级别分类和区域排名。网络将图像的全局分类提供为多个类,例如恶性,良性或正常。我们的方法进一步使异常的定位成为全乳房X线照片分辨率中的全局类判别区域。接下来,我们将此方法扩展为半监督设置,该设置使用新颖的体系结构和多任务目标函数来接合一小组本地注释。我们介绍了本地注释对包括本地化在内的多种绩效指标的影响,以评估病变注释工作的成本效益。我们的评估是通过一个大型多中心乳腺摄影数据集进行的,该数据集包含3,000个乳房X线照片以及各种发现。实验结果证明了该方法相对于先前弱监督策略的能力和优势,以及半监督学习的影响。我们表明,仅针对5个图像的注释可以显着提高性能。

Robust object extraction from remote sensing data Authors Sophie Crommelinck, Mila Koeva, Michael Ying Yang, George Vosselman在过去的几十年中,对象轮廓的提取一直是一个研究课题。尽管在摄影测量,遥感和计算机视觉方面取得了进展,但由于物体和数据的复杂性,这项任务依然具有挑战性。通过公开可用的基准数据集和评估框架来促进对象提取方法的开发。已经研究了性能评估的许多方面。本研究收集了文献中的最佳实践,将各个方面放在一个评估框架中,并展示了它对绘制对象轮廓的案例研究的有用性。评估框架包括五个维度,即对分辨率,输入,位置,参数和应用程序变化的稳健性。提供了调查这些维度的示例,以及用于定性分析的准确度度量。这些措施包括时间效率和关于定量完整性和空间正确性的基于线的准确度评估程序。应用评估框架的描述方法以前已经引入,并且在本研究中得到了实质性的改进。

X-Ray CT Reconstruction of Additively Manufactured Parts using 2.5D Deep Learning MBIR Authors Amirkoushyar Ziabari, Michael Kirka, Vincent Paquit, Philip Bingham, Singanallur Venkatakrishnan在本文中,我们提出了一种深度学习算法,以快速获得AM部件的高质量CT重建。特别是,我们建议使用要制造的零件的CAD模型,引入典型缺陷并模拟XCT测量。这些模拟测量使用FBP在计算上进行简单处理,但会产生噪声图像和MBIR技术。然后,我们在这些噪声和高质量3D体积上训练2.5D深度卷积神经网络4,认为2.5D深度学习MBIR 2.5D DL MBIR,以学习快速,非线性映射功能。 2.5D DL MBIR以2.5D方案重建3D体积,其中每个切片从FBP输入的多个输入切片重建。在这个训练有素的系统中,我们可以对实际零件进行一小组测量,使用FBP和2.5D DL MBIR的组合对其进行处理。使用GPU可以快速执行这两个步骤,从而产生实时算法,以与标准技术一样快速地实现MBIR的高质量。直观地,由于CAD模型通常可用于要制造的零件,因此这提供了强大的约束,之前可以利用该约束来改进重建。

The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision Authors Jiayuan Mao, Chuang Gan, Pushmeet Kohli, Joshua B. Tenenbaum, Jiajun Wu我们提出了神经符号概念学习者NS CL,这是一个学习视觉概念,单词和句子语义解析的模型,而不对他们中的任何一个进行明确的监督,我们的模型通过简单地查看图像和阅读成对的问题和答案来学习。我们的模型构建了一个基于对象的场景表示,并将句子翻译成可执行的符号程序。为了弥合两个模块的学习,我们使用神经符号推理模块,在潜在的场景表示上执行这些程序。类似于人类概念学习,感知模块基于所参考对象的语言描述来学习视觉概念。同时,学习的视觉概念有助于学习新单词和解析新句子。我们使用课程学习来指导搜索图像和语言的大型构图空间。大量实验证明了我们的模型在学习视觉概念,单词表示和句子语义分析方面的准确性和有效性。此外,我们的方法允许容易地推广到新的对象属性,组合,语言概念,场景和问题,甚至新的程序域。它还支持应用程序,包括视觉问答和双向图像文本检索。

Casting Geometric Constraints in Semantic Segmentation as Semi-Supervised Learning Authors Sinisa Stekovic, Friedrich Fraundorfer, Vincent Lepetit我们提出了一种简单而有效的方法来学习从RGB D序列中分割新的室内场景在一个数据集上训练的现有技术方法,即使与SUNRGB D数据集一样大,在应用于不属于该数据集的图像时也可能表现不佳由于数据集偏差,数据集是计算机视觉中的常见现象。为了使语义分割在实践中更有用,我们学习通过利用SUNRGB D的几何约束和随时可用的训练数据,从序列中分割新的室内场景而无需手动注释。因此,我们可以从颜色中稳健地分割这些场景的新图像。仅供参考。为了有效地利用几何约束来达到我们的目的,我们建议将这些约束转换为半监督术语,这强制要求对不同图像中相同3D位置的投影预测相同的类。我们证明了这种方法产生了一种简单但非常强大的方法,它可以仅使用SUNRGB D的注释来注释ScanNet序列和我们自己的序列。

Meta Anti-spoofing: Learning to Learn in Face Anti-spoofing Authors Chenxu Zhao, Yunxiao Qin, Zezheng Wang, Tianyu Fu, Hailin Shi面部反欺骗对于人脸识别系统的安全性至关重要。以前,大多数方法将面部反欺骗制定为监督学习问题以检测各种预定义的呈现攻击PA。然而,新的攻击方法不断发展,产生新形式的欺骗面以破坏现有的探测器。这要求研究人员收集大量样本以训练分类器以检测新的攻击,这通常是昂贵的并且导致后来新进化的攻击样本保持小规模。或者,我们将面部反欺骗定义为一些针对不断演变的新攻击的镜头学习问题,并通过名为Meta Face Anti spoofing Meta FAS的元学习提出一种新颖的面部反欺骗方法。 Meta FAS通过训练分类器来解决上述问题,如何学习如何通过几个例子来检测欺骗面。为了评估所提议方法的有效性,我们提出了一系列基于公共数据集文本的评估基准,例如: ,OULU NPU,SiW,CASIA MFSD,Replay Attack,MSU MFSD,3D MAD和CASIA SURF,并且所提出的方法显示出其对比方法的优越性能。

Self-Attention Capsule Networks for Image Classification Authors Assaf Hoogi, Brian Wilcox, Yachee Gupta, Daniel L. Rubin我们提出了一种新的图像分类架构,称为自注意胶囊网络SACN。 SACN是第一个将自注意机制作为胶囊网络CapsNet中的整合层的模型。虽然自注意机制选择要关注的更主要的图像区域,但CapsNet仅分析这些区域内的相关特征及其空间相关性。在卷积层中提取特征。然后,自注意层学习基于特征分析来抑制不相关的区域,并突出显示对特定任务有用的显着特征。然后将注意力图输入CapsNet主层,然后是分类层。 SACN提出的模型旨在使用相对较浅的CapsNet架构来减少计算负荷,并通过使用自注意模块显着改善结果来补偿缺少更深的网络。除了自然的MNIST和SVHN之外,所提出的Self Attention CapsNet架构在五个不同的数据集上进行了广泛的评估,主要是在三种不同的医疗集上。该模型能够比基线CapsNet更好地分类具有多样化和复杂背景的图像及其补丁。因此,提议的Self Attention CapsNet显着提高了不同数据集内和跨不同数据集的分类性能,并且不仅在分类准确性方面而且在稳健性方面优于基线CapsNet。

HOG feature extraction from encrypted images for privacy-preserving machine learning Authors Masaki Kitayama, Hitoshi Kiya在本文中,我们提出了一种从加密到压缩EtC图像的HOG直方图的提取方法,用于隐私保护机器学习,其中EtC图像是通过基于块的加密方法加密的图像,该方法用于具有JPEG压缩的EtC系统,以及HOG是用于计算机视觉的特征描述符,用于对象检测和图像分类。最近,云计算和机器学习已经在许多领域得到普及。然而,由于提供商的不可靠性和一些事故,云计算对最终用户具有严重的隐私问题。因此,我们提出了一种新的基于块的HOG特征提取方法,并且所提出的方法使我们能够在某些条件下执行任何机器学习算法而没有任何影响。在实验中,所提出的方法应用于人脸图像识别问题下,使用两种分类器线性支持向量机SVM,高斯SVM,来证明其有效性。

Automatic extrinsic calibration between a camera and a 3D Lidar using 3D point and plane correspondences Authors Surabhi Verma, Julie Stephany Berrio, Stewart Worrall, Eduardo Nebot本文提出了一种自动方法,用于获取相机和具有低至16个光束的3D激光雷达之间的外部校准参数。我们使用棋盘作为参考来获得两个传感器框架中感兴趣的特征。通过利用电路板的几何形状,自动从激光雷达点云提取校准板中心点和法向矢量。摄像机图像中的相应特征是从摄像机的外在矩阵获得的。我们解释了选择这些功能的原因,以及为什么它们与其他可能性相比更加强大。为了获得最佳外部参数,我们选择遗传算法来解决高度非线性状态空间。在定义3D实验区域相对于激光雷达的边界以及真实的板尺寸之后,该过程是自动化的。此外,假设相机本质上是校准的。我们的方法需要至少3个棋盘格姿,并且通过使用真实世界和模拟特征评估我们的算法来证明校准精度。

Attribute Guided Unpaired Image-to-Image Translation with Semi-supervised Learning Authors Xinyang Li, Jie Hu, Shengchuan Zhang, Xiaopeng Hong, Qixiang Ye, Chenglin Wu, Rongrong Ji不成对的图像到图像翻译UIT专注于使用不成对的数据在不同的域之间翻译图像,由于其实际使用而受到越来越多的研究关注。然而,现有的UIT方案缺乏监督训练的需要,以及缺乏编码域信息。在本文中,我们提出了一个名为AGUIT的属性引导UIT模型来解决这两个挑战。 AGUIT考虑了UIT的多模态和多域任务以及一种新颖的半监督设置,这也适用于表示解散和输出的精细控制。特别是,AGUIT受益于两倍1它通过将标记数据的属性转换为未标记数据,然后通过循环一致性操作重建未标记数据,采用新颖的半监督学习过程。 2它将图像表示分解为域不变内容代码和域特定样式代码。重新设计的样式代码将图像样式嵌入到从标准高斯分布和域标签分布中绘制的两个变量中,这有助于由于两个变量的连续性而对翻译进行精细控制。最后,我们为UIT模型引入了一个新的挑战,即解开转移,它采用解缠结的表示来转换与训练集较少相关的数据。大量实验证明了AGUIT相对于现有技术模型的能力。

LeGR: Filter Pruning via Learned Global Ranking Authors Ting Wu Chin, Ruizhou Ding, Cha Zhang, Diana Marculescu过滤器修剪已经证明对于学习资源受限的卷积神经网络CNN是有效的。然而,用于资源约束的过滤器修剪的现有方法具有一些限制其妨碍其有效性和效率的限制。当搜索满足CNN的约束时,先验方法要么改变优化目标要么采用具有启发式参数化的局部搜索算法,这是次优的,特别是在低资源状态下。从效率的角度来看,搜索满足CNN的约束的先前方法通常是昂贵的。在这项工作中,我们提出了被称为LeGR的学习全球排名,它在上述两个方面改进了现有技术。受理论分析的启发,LeGR被参数化以学习关于过滤器规范的分层仿射变换以构建学习的全局排名。通过全局排名,可以有效地完成各种约束级别的资源约束过滤器修剪。我们进行了广泛的实证分析,以证明所提算法与ResNet和MobileNetV2网络在CIFAR 10,CIFAR 100,Bird 200和ImageNet数据集上的有效性。代码公开于

Unsupervised Feature Learning for Point Cloud by Contrasting and Clustering With Graph Convolutional Neural Network Authors Ling Zhang, Zhigang Zhu为了减少收集和注释大规模点云数据集的成本,我们提出了一种无监督学习方法,通过使用部分对比和对象聚类与深度图神经网络GNN来学习未标记点云3D对象数据集的特征。在对比度学习步骤中,3D对象数据集中的所有样本被切割成两部分并放入零件数据集中。然后训练对比度学习GNN ContrastNet以验证来自零件数据集的两个随机采样部分是否属于同一对象。在聚类学习步骤中,将经过训练的ContrastNet应用于原始3D对象数据集中的所有样本,以提取用于将样本分组为聚类的特征。然后训练另一个用于聚类学习ClusterNet的GNN来预测所有训练样本的聚类ID。对比学习迫使ContrastNet学习对象的高级语义特征,但可能忽略低级特征,而ClusterNet通过训练发现通过使用集群ID发现可能属于相同语义类别的对象来提高学习特征的质量。我们已经进行了大量实验来评估拟议的点云分类任务框架。所提出的无监督学习方法获得了与使用更复杂的网络结构的现有技术无监督学习方法相当的性能。这项工作的代码可以通过公开获得

Deferred

标签: 二极管dan217

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台