今日CS.CV 计算机视觉论文速读 Wed, 3 Apr 2019 Totally 55 papers
Daily Computer Vision Papers
Exploring Randomly Wired Neural Networks for Image RecognitionAuthors Saining Xie, Alexander Kirillov, Ross Girshick, Kaiming He 通过广泛的手动设计,用于图像识别的神经网络已经从简单的链式模型演变为多个布线路径的结构。 ResNets和DenseNets他们的成功在很大程度上归功于他们的创新布线计划。现在,神经结构搜索NAS研究正在探索布线和操作类型的联合优化。然而,尽管被搜索,但可能的布线空间受到限制,仍然由手动设计驱动。本文通过随机有线神经网络的镜头探索了更多样化的连接模式。为此,我们首先定义了一个包装整个网络生成过程的随机网络生成器的概念。封装提供了NAS统一视图与随机有线网络。然后,我们使用三个经典的随机图模型为网络生成随机有线图。这些随机生成器的几个变体产生的网络实例令人惊讶ImageNet竞争准确性在基准测试中。这些结果表明,专注于设计更好网络生成器的新努力可以通过探索更少限制的搜索空间和更新颖的设计空间带来新的突破。 |
Spatial Attentive Single-Image Deraining with a High Quality Real Rain DatasetAuthors Tianyu Wang, Xin Yang, Ke Xu, Shaozhe Chen, Qiang Zhang, Rynson Lau 由于雨水条纹会严重降低图像质量,影响现有因为雨水条纹会严重降低图像质量,影响现有户外视觉任务的性能。尽管最近基于CNN的derainer有希望的表现已经报道,但出于两个原因,脱轨仍然是一个悬而未决的问题。首先,现有的合成雨水数据集在模拟真实雨水特性(如雨形、方向和强度)方面只有有限的真实性。其次,没有公共基准对真实雨水图像进行定量比较,使得目前的评价不那么客观。核心挑战是雨水清洁图像不能同时捕获现实世界。本文以两种方式解决了单图像除雨问题。首先,我们提出了结合时间先验和人工监督,从真实雨水图像的每个输入序列中生成高质量清洁图像的半自动方法。利用这种方法,我们建立了一个大型29.5K雨雨无图像对的大型数据集,涵盖了广泛的自然雨场景。其次,为了更好地覆盖实际雨水条纹的随机分布,我们提出了一种新颖的方法SPAtial Attentive Network SPANet,雨水条纹从局部到全球去除。大量实验表明,我们的网络有利于最先进的去除方法。 |
Guided Super-Resolution as a Learned Pixel-to-Pixel TransformationAuthors Riccardo de Lutio, Stefano D Aronco, Jan Dirk Wegner, Konrad Schindler 引导超分辨率是几个计算机视觉任务的统一框架,其中输入是一些目标数量的低分辨率源图像,如飞行时间相机获得的透视深度和来自不同领域的高分辨率引导图像,如传统相机灰色收缩图像和目标输出是高分辨率版本的来源,高分辨率深度图。查看问题的标准方法是将其表示为超分辨率任务,即将源图像采样到目标分辨率,并从指南传输丢失的高频细节。在这里,我们建议将其解释为头部,而不是指南图像到源图像域的像素到像素的映射。通过最小化源图像与下采样目标图像图像与下采样目标图像之间的差异来学习像素映射。重要的是,我们的公式只能规范映射函数,避免输出的规范化,从而产生清晰自然的图像。提出的方法没有监督,只使用特定的源和引导图像来拟合映射。我们对我们的方法、深度图的超分辨率和树高图进行任务评估。在这两种情况下,我们在定量比较中明显优于最近的基线,并提供更清晰的视觉输出。 |
Semantics Disentangling for Text-to-Image GenerationAuthors Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu, Xiaogang Wang, Jing Shao 合成照片的真实图像是一个具有挑战性的问题。以往的研究表明,生成图像的视觉质量有了显著的提高。在本文中,我们考虑在文本描述中输入语义,以帮助渲染真实的图像。然而,即使他们描述了同样的事情,不同的语言表达也会挑战提取一致的语义。为此,我们在图像生成模型中提出了一种新颖的照片真实文本,它隐含地解开了语义,以实现高级语义的一致性和低级语义的多样性。具体来说,我们学习一致的高级语义,我们在识别器中设计了一个连体机制,2通过语义条件批量标准化设计视觉语义嵌入策略,找到不同的低级语义。对CUB和MS COCO数据集的广泛实验和消融研究证明了所提出的方法与现有技术方法相比的优越性。 |
Good News, Everyone! Context driven entity-aware captioning for news imagesAuthors Ali Furkan Biten, Lluis Gomez, Mar al Rusi ol, Dimosthenis Karatzas 目前的图像字幕系统只在描述级别执行,基本上列举了场景中的对象及其关系。相反,人类通过整合世界上以前知识的几个来源来解释图像。在这项工作中,我们的目标是将这些背景信息整合到字幕管中,更接近生成对场景的合理解释。为此,我们专注于用于说明新闻文章的图像的字幕。我们提出了一种可以使用与图像相关的新闻文章文本提供的上下文信息的新颖字幕方法。我们的模型可以有选择地从视觉提示指导的文章中提取信息,并动态地将输出字典扩展到上下文源中的词汇命名实体。另外,我们介绍了GoodNews,这是文献中最大的新闻图像字幕数据集,展示了最先进的结果。 |
Cooperative Embeddings for Instance, Attribute and Category RetrievalAuthors William Thong, Cees G.M. Snoek, Arnold W.M. Smeulders 本文的目标是基于实例、属性和类似概念来检索图像。与现有作品(通常只隔离一个实体)不同,我们引入了合作嵌入来整合它们,同时保留了它们的特定语义表达。代数结构定义了一个充满实例的超空间。轴对齐形成子空间,类别影响类似实例的排列。这些关系使他们能够合作,实现图像检索的共同利益。我们推导出基于代理的基础softmax同时学习超空间和子空间的所有相似性。我们在两个不同域的数据集中评估我们的模型。图像检索任务的实验表明,合作嵌入有利于建模多个图像的相似性以及发现类别和类别中实例的风格演变。 |
A Dataset for Semantic Segmentation of Point Cloud SequencesAuthors Jens Behley, Martin Garbade, Andres Milioto, Jan Quenzel, Sven Behnke, Cyrill Stachniss, Juergen Gall
|
Context and Attribute Grounded Dense CaptioningAuthors Guojun Yin, Lu Sheng, Bin Liu, Nenghai Yu, Xiaogang Wang, Jing Shao 密集字幕旨在同时定位语义区域并用自然语言中的短语或句子描述这些感兴趣区域ROI。以前的研究已经显示出了显着的进步,但是它们通常容易受到孔径问题的影响,即由一个ROI内部的特征产生的字幕在输入图像中缺乏与其周围环境的上下文相干性。在这项工作中,我们研究了基于从相邻内容到目标ROI的多尺度消息传播的上下文推理。为此,我们设计了一个新颖的端到端上下文和属性扎根密集字幕框架,包括1个上下文可视化挖掘模块和2个多级属性扎根描述生成模块。知道字幕经常与语言属性(例如谁,什么和何处)共同发生,我们还从层级语言属性中加入辅助监督来增强学习字幕的独特性。对Visual Genome数据集的广泛实验和消融研究证明了所提出的模型与现有技术方法相比的优越性。 |
Vehicle Re-identification in Aerial Imagery: Dataset and ApproachAuthors Peng Wang, Bingliang Jiao, Lu Yang, Yifei Yang, Shizhou Zhang, Wei Wei, Yanning Zhang 在这项工作中,我们构建了一个用于车辆识别ReID的大型数据集,其中包含由无人机安装的摄像机捕获的13k车辆实例的137k图像。据我们所知,它是最大的基于无人机的车辆ReID数据集。为了增加类内变化,每个车辆被不同位置的至少两个UAV捕获,具有不同的视角和飞行高度。我们手动标记各种车辆属性,包括车辆类型,颜色,天窗,保险杠,备用轮胎和行李架。此外,对于每个车辆图像,还需要注释器标记有助于他们将该特定车辆与其他车辆区分开的辨别部分。除了数据集,我们还设计了一个特定的车辆ReID算法,以充分利用丰富的注释信息。它能够明确地检测每个特定车辆的判别部分,并且明显优于所评估的基线和现有技术的车辆ReID接近。 |
Spontaneous Facial Micro-Expression Recognition using 3D Spatiotemporal Convolutional Neural NetworksAuthors Sai Prasanna Teja Reddy, Surya Teja Karri, Shiv Ram Dubey, Snehasis Mukherjee 视频中的面部表情识别是计算机视觉研究的一个活跃领域。然而,即使是人类也难以识别伪造的面部表情。另一方面,面部微观表达通常代表一个人的实际情感,因为它是通过人脸表达的自发反应。尽管为识别微表达式做了一些尝试,但问题仍然远不是一个解决的问题,其由现有技术方法所示的较差的准确率描述。在文献中发现了一些基于CNN的方法来识别来自静止图像的微小面部表情。然而,自发微表达视频包含必须一起处理以编码空间和时间信息的多个帧。本文提出了两种3D CNN方法MicroExpSTCNN和MicroExpFuseNet,通过利用CNN框架中的时空信息进行自发的面部微表情识别。 MicroExpSTCNN考虑完整的空间信息,而MicroExpFuseNet则基于眼睛和嘴部区域的3D CNN特征融合。通过CAS ME 2和SMIC微表达数据库进行实验。提出的MicroExpSTCNN模型优于最先进的方法。 |
Effective Aesthetics Prediction with Multi-level Spatially Pooled FeaturesAuthors Vlad Hosu, Bastian Goldlucke, Dietmar Saupe 我们提出了一种有效的深度学习方法来进行美学质量评估,该方法依赖于一种新型的预训练特征,并将其应用于AVA数据集,即当前最大的美学数据库。虽然以前的方法错过了原始图像中的一些信息,但由于在训练期间采取了小幅作物,缩小比例或翘曲原稿,我们提出了第一种有效支持全分辨率图像作为输入的方法,并且可以在变量输入上进行训练大小。这使我们能够显着改进现有技术,将基础真实平均意见得分MOS的Spearman等级相关系数SRCC从现有的最佳报告值0.612增加到0.756。为了实现这一性能,我们从训练有素的InceptionResNet v2网络的所有卷积块中提取多级空间池MLSP特征,并在这些新特征上训练自定义浅层卷积神经网络CNN架构。 |
A Simple and Robust Convolutional-Attention Network for Irregular Text RecognitionAuthors Peng Wang, Lu Yang, Hui Li, Yuyan Deng, Chunhua Shen, Yanning Zhang 在自然场景图像中读取任意形状的不规则文本仍然是具有挑战性的问题。许多现有方法结合了复杂的网络结构来处理各种形状,使用额外的注释来加强监督,或者采用难以训练的递归神经网络来进行序列建模。在这项工作中,我们提出了一种简单而强大的不规则文本识别方法。由于不需要将输入图像转换为序列表示,我们将二维CNN特征直接连接到基于注意的序列解码器。由于不采用循环模块,我们的模型可以并行训练。与RNN对应物相比,它实现了向后通过3倍至18倍加速度和向前通过2倍至12倍加速度。所提出的模型仅使用单词级别注释进行训练。通过这种简单的设计,我们的方法在评估的规则和不规则场景文本基准数据集上实现了最新技术水平或竞争性识别性能。此外,我们表明识别性能不会因不准确的边界框而显着降低。这对于端到端文本检测和识别的任务是期望的,仍然可以利用不准确的文本检测器来实现鲁棒的识别性能。我们将发布代码。 |
Fast Bayesian Restoration of Poisson Corrupted Images with INLAAuthors Takahiro Kawashima, Hayaru Shouno 光子受限的图像经常出现在诸如医学成像的领域中。尽管图像传感器上收集的光子数量统计上遵循泊松分布,但与高斯噪声不同,这种类型的噪声是难以处理的。在这项研究中,我们提出了使用集成嵌套拉普拉斯近似INLA的泊松损坏图像的贝叶斯恢复方法,这是一种评估潜在高斯模型LGM的边缘化后验分布的计算方法。当原始图像合理地被视为ICAR内在条件自回归模型时,我们的方法比基于循环信念传播的方法和马尔可夫链蒙特卡罗MCMC等公知的方法执行速度快,而不降低精度。 |
Aiding Intra-Text Representations with Visual Context for Multimodal Named Entity RecognitionAuthors Omer Arshad, Ignazio Gallo, Shah Nawaz, Alessandro Calefati 随着Twitter和Instagram等社交媒体的大规模爆发,人们每天都会分享数十亿的多媒体帖子,其中包含图片和文字。通常,这些帖子中的文字很短,非正式且有噪音,导致可以使用图像解决的歧义。在本文中,我们探讨了这些多媒体帖子上的文本中心命名实体识别任务。我们提出了一种端到端模型,它可以学习文本和图像的联合表示。我们的模型扩展了多维自我关注技术,现在图像有助于增强单词之间的关系。实验表明,我们的模型能够更准确地捕获文本和视觉上下文,在Twitter多模态命名实体识别数据集上实现最先进的结果。 |
FCOS: Fully Convolutional One-Stage Object DetectionAuthors Zhi Tian, Chunhua Shen, Hao Chen, Tong He 我们提出了一种完全卷积的单级物体检测器FCOS,以每像素预测方式解决物体检测,类似于语义分割。几乎所有最先进的物体检测器,例如RetinaNet,SSD,YOLOv3和Faster R CNN都依赖于预先定义的锚盒。相比之下,我们提出的检测器FCOS是免费的锚箱,以及免费提案。通过消除预先定义的一组锚箱,FCOS完全避免了与锚箱相关的复杂计算,例如在训练期间计算重叠并显着减少训练记忆足迹。更重要的是,我们还避免了与锚箱相关的所有超参数,这些参数通常对最终检测性能非常敏感。凭借唯一的后处理非最大抑制NMS,我们的探测器FCOS优于以前的基于锚的单级探测器,具有更简单的优点。我们首次展示了一种更加简单灵活的检测框架,可以提高检测精度。我们希望提议的FCOS框架可以作为许多其他实例级任务的简单而强大的替代方案。 |
Point in, Box out: Beyond Counting Persons in CrowdsAuthors Yuting Liu, Miaojing Shi, Qijun Zhao, Xiaofang Wang 现代人群计数方法通常采用深度神经网络DNN来通过密度回归估计人群计数。尽管它们有显着的改进,但基于回归的方法无法提供人群中的个体检测。另一方面,基于检测的方法由于需要昂贵的边界框注释而在最近的人群计数趋势中没有被大量探索。在这项工作中,我们提出了一个新的深度检测网络,只需要点监督。它可以同时检测人体头部的大小和位置,并在人群中进行计数。我们首先从点级注释中挖掘有用的人物大小信息并初始化伪地面实况边界框。引入在线更新方案以在训练期间改进伪地面实况,同时设计局部约束回归损失以对局部邻域中的预测框的大小提供额外约束。最后,我们提出了一种课程学习策略,首先从相对准确和容易伪基础真实的图像中训练网络。在几个标准基准测试中,在检测和计数任务中进行了广泛的实验,例如, ShanghaiTech,UCF CC 50,WiderFace和TRANCOS数据集,结果表明我们的方法优于现有技术。 |
HoloGAN: Unsupervised learning of 3D representations from natural imagesAuthors Thu Nguyen Phuoc, Chuan Li, Lucas Theis, Christian Richardt, Yong Liang Yang 我们提出了一种新的生成对抗网络GAN,用于从自然图像中无监督地学习3D表示。大多数生成模型依靠2D内核生成图像,并对3D世界做出一些假设。因此,这些模型倾向于在需要强烈3D理解的任务中创建模糊图像或人工制品,例如新颖的视图合成。相反,HoloGAN学习世界的3D表示,并以逼真的方式呈现这种表示。与其他GAN不同,HoloGAN通过学习的3D特征的刚体变换提供对生成对象的姿势的显式控制。我们的实验表明,使用显式3D特征使HoloGAN能够解开3D姿态和身份,进一步分解为形状和外观,同时仍然能够生成具有与其他生成模型相似或更高视觉质量的图像。 HoloGAN可以仅从未标记的2D图像端到端进行训练。特别是,我们不需要姿势标签,3D形状或相同对象的多个视图。这表明HoloGAN是第一个以完全无监督的方式从自然图像中学习3D表示的生成模型。 |
Monocular 3D Human Pose Estimation by Generation and Ordinal RankingAuthors Saurabh Sharma, Pavan Teja Varigonda, Prashast Bindal, Abhishek Sharma, Arjun Jain 静态图像中的单目3D人体姿态估计是一个具有挑战性的问题,因为维度的诅咒和将2D提升到3D的不良特性。在本文中,我们提出了一种基于深度条件变分自动编码器的模型,该模型以估计的2D姿态为基础合成各种3D姿态样本。我们的实验表明,CVAE可以生成与2D姿势一致的显着多样化的3D样本,从而减少从2D提升到3D的模糊性。我们使用两种策略来预测最终的3D姿势深度排序顺序关系,以便在Oracle的监督下对最终的3D姿势或OrdinalScore和b进行评分和汇总。我们使用OrdinalScore报告了两个基准数据集的最新结果,以及使用Oracle的最新结果。我们还展示了我们的管道在没有配对3D监督的情况下提供了有竞我们将提供培训和评估代码 |
Finding and Visualizing Weaknesses of Deep Reinforcement Learning AgentsAuthors Christian Rupprecht, Cyril Ibrahim, Christopher J. Pal 随着由视觉感知驱动的深度强化学习变得越来越广泛使用,越来越需要更好地理解和探索所学习的代理。了解决策过程及其与视觉输入的关系对于识别学习行为中的问题非常有价值。然而,该主题在研究界已经相对探索。在这项工作中,我们提出了一种合成感兴趣的代理人感兴趣的视觉输入的方法。这些输入或状态可能是需要采取特定行动的情况。此外,可以实现非常高或非常低的奖励的关键状态通常有助于理解系统的态势感知,因为它们可以对应于风险状态。为此,我们学习了一个关于环境状态空间的生成模型,并利用其潜在空间来优化目标函数以获得感兴趣的状态。在我们的实验中,我们表明这种方法可以为各种环境和强化学习方法提供见解。我们在标准的Atari基准测试游戏以及自动驾驶模拟器中探索结果。基于我们利用这种技术识别行为缺陷的效率,我们认为这种通用方法可以作为AI安全应用的重要工具。 |
DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image SynthesisAuthors Minfeng Zhu, Pingbo Pan, Wei Chen, Yi Yang 在本文中,我们专注于从文本描述生成逼真的图像。当前方法首先生成具有粗糙形状和颜色的初始图像,然后将初始图像细化为高分辨率图像。大多数现有的文本到图像合成方法有两个主要问题。 1这些方法在很大程度上取决于初始图像的质量。如果初始图像没有很好地初始化,则以下过程很难将图像细化到令人满意的质量。 2当描绘不同的图像内容时,每个单词贡献不同的重要性,然而,在现有的图像细化过程中使用未改变的文本表示。在本文中,我们提出动态记忆生成对抗网络DM GAN来生成高质量的图像。当初始图像没有很好地生成时,所提出的方法引入动态存储器模块来细化模糊图像内容。存储器写入门被设计为基于初始图像内容选择重要文本信息,这使得我们的方法能够从文本描述中准确地生成图像。我们还利用响应门来自适应地融合从存储器读取的信息和图像特征。我们在Caltech UCSD Birds 200数据集和Context数据集中的Microsoft公共对象上评估DM GAN模型。实验结果表明,我们的DM GAN模型对现有技术方法表现出良好的效果。 |
Camera Adversarial Transfer for Unsupervised Person Re-IdentificationAuthors Guillaume Delorme, Xavier Alameda Pineda, Stephane Lathuili re, Radu Horaud 无监督人员识别Re ID方法包括使用仔细标记的源数据集进行训练,然后对未标记的目标数据集进行推广,即人员身份信息不可用。受领域适应技术的启发,这些方法避免了昂贵,繁琐且通常难以承受的标签过程。本文研究了摄像机索引信息的使用,即哪个摄像机捕获了哪个图像,用于无人监督的人Re ID。更准确地说,受领域适应对抗方法的启发,我们开发了一个对抗框架,其中特征提取器的输出应该对人Re ID有用,同时应该欺骗相机鉴别器。我们将提出的方法称为相机对抗转移CAT。我们评估对抗性变体,以及每种变体实现的相机稳健性。我们报告交叉数据集ReID性能,并且我们将我们的方法的变体与几种最先进的方法进行比较,从而显示出在无人监督的人Re ID的对抗框架内利用相机索引信息的兴趣。 |
Event-Based Motion Segmentation by Motion CompensationAuthors Timo Stoffregen, Guillermo Gallego, Tom Drummond, Lindsay Kleeman, Davide Scaramuzza 与其像素具有共同曝光时间的传统相机相比,基于事件的相机是新颖的生物传感传感器,其像素独立工作并且异步地输出称为事件的强度变化,具有微秒分辨率。由于事件是由物体的明显运动引起的,因此基于事件的摄像机根据场景动态采样视觉信息,因此,比传统摄像机更自然地获取运动,特别是在高速传感器遭受运动模糊的情况下。然而,区分由不同运动物体引起的事件和通过相机的自我运动是一项具有挑战性的任务。我们提出了第一个每事件分割方法,用于将场景分割成独立移动的对象。我们的方法通过目标函数的最大化来联合估计事件对象关联,即,对象或背景的分割和运动参数,其基于基于事件的运动补偿的最近结果。我们在公共数据集上对我们的方法进行了全面评估,其表现优于最新技术水平10。我们还展示了对事件相机的分割算法的第一次定量评估,在4个像素相对位移时产生大约90个精度。 |
FKIMNet: A Finger Dorsal Image Matching Network Comparing Component (Major, Minor and Nail) Matching with Holistic (Finger Dorsal) MatchingAuthors Daksh Thapar, Gaurav Jaswal, Aditya Nigam 当前的手指关节图像识别系统通常需要用户将手指主要或次要关节平坦地朝向捕获传感器放置。为了扩展用户非侵入性应用场景的这些系统,例如消费电子产品,法医,国防等,我们建议匹配完整的背部手指,而不是单独的主要次要感兴趣区域ROI。特别是,本文对手指指关节图像识别中手指ROI的全手指与融合的比较进行了全面的研究。这些实验表明,使用全指,提供更优雅的解决方案。针对手指匹配问题,我们提出了一种CNN卷积神经网络,它可以创建一个128D的图像特征嵌入。它是通过训练。三重损失函数,其强制相同主题的嵌入之间的L2距离接近零,而不同主体的任何两个嵌入之间的距离至少为边缘。为了精确训练网络,我们使用动态自适应边际,数据增强和硬负挖掘。在杰出的实验中,已经计算了手指的个体表现,以及主要关节,次指关节和指甲模态的加权和得分水平融合,证明了我们的假设,即将全手指视为生物测定而不是其对应物。使用两个公开可用的指关节图像数据集,即PolyU FKP数据集和PolyU非接触FKI数据集来评估所提出的方法。 |
A PCA-like AutoencoderAuthors Sa d Ladjal, Alasdair Newson, Chi Hieu Pham 自动编码器是一种神经网络,其数据投射到较低维潜在空间和从较低维潜在空间投射,其中该数据更容易理解和建模。自动编码器由两个子网络组成,即编码器和解码器,它们执行这些变换。训练神经网络使得输出尽可能接近输入,数据经历了潜在空间的信息瓶颈。该工具与主成分分析PCA具有显着的相关性,主要有两个不同之处。首先,自动编码器是非线性变换,与PCA相反,这使得自动编码器更加灵活和强大。其次,由PCA找到的轴是正交的,并且根据数据沿这些轴呈现的可变性量来排序。这使得PCA的可解释性远远大于自动编码器的可解释性,后者没有这些属性。理想情况下,我们想要一个自动编码器,其潜在空间由独立的组件组成,通过降低数据的重要性来排序。在本文中,我们提出了一种创建这种网络的算法。我们创建了一个迭代算法,逐步增加潜在空间的大小,在每一步学习一个新的维度。其次,我们提出一个协方差损失项,以添加到标准自动编码器损失函数,以及潜在空间之前的归一化层,这促使潜在空间分量在统计上独立。我们在简单的几何形状上演示了这个自动编码器的结果,并发现该算法确实在潜在空间中找到了有意义的表示。这意味着在潜在空间中的后续插值具有关于图像的几何特性的含义。 |
Hierarchical method for cataract grading based on retinal images using improved Haar waveletAuthors Lvchen Cao, Huiqi Li, Yanjun Zhang, Liang Xu, Li Zhang 白内障是可能发生在不同晶状体位置的透镜状混浊,是全世界视力损害的主要原因。准确及时的诊断可以提高白内障患者的生活质量。本文提出了一种基于特征提取的视网膜图像分级白内障严重程度的方法。为了获得更适合自动分级的特征,根据视网膜图像的特征改进了Haar小波。使用改进的Haar小波自动识别非白内障的视网膜图像,以及轻度,中度和重度白内障。分层策略用于将四类分类问题转换为三个相邻的两类分类问题。基于神经网络的三组两类分类器被单独训练并集成在一起以建立完整的分类系统。两类分类白内障和非白内障的准确性和四类分类分别为94.83和85.98。性能分析表明,改进的Haar小波特征比原始Haar小波特征具有更高的精度,并且三组两类分类器的融合优于简单的四类分类器。讨论表明,基于视网膜图像的方法为白内障检测提供了巨大的潜力。 |
Metric-Learning based Deep Hashing Network for Content Based Retrieval of Remote Sensing ImagesAuthors Subhankar Roy, Enver Sangineto, Beg m Demir, Nicu Sebe 最近发现哈希方法由于其计算效率和快速搜索速度而在检索遥感RS图像方面非常有效。 RS中的传统散列方法通常利用手工制作的特征来学习散列函数以获得二进制代码,这可能不足以最佳地表示RS图像的信息内容。为了克服这个问题,在本文中,我们引入了基于度量学习的散列网络,它学习1个基于语义的度量空间用于有效的特征表示,2个紧凑的二进制哈希码用于快速归档搜索。我们的网络考虑了多个损失函数的相互作用,这些函数允许共同学习基于度量的语义空间,从而促进相似图像在该目标空间中聚集在一起,同时产生紧凑的最终激活,当二值化时丢失可忽略的信息。在两个基准RS档案上进行的实验表明,与RS中现有的散列方法相比,所提出的网络在相同的检索时间内显着提高了检索性能。 |
Automatic Left Atrial Appendage Orifice Detection for Preprocedural Planning of Appendage ClosureAuthors Walid Abdullah Al, Il Dong Yun, Eun Ju Chun 在使用CT血管造影术进行左心耳闭合LAAC术前计划时,附肢孔口的评估在选择合适的LAAC装置尺寸和适当的C臂角度方面起着至关重要的作用。然而,准确的孔口检测是费力的,因为附件的解剖学变化很大,以及可用视图中的孔口位置和方向不清楚。我们提出了一种自动孔口检测方法,在附肢的主要内侧轴上进行搜索,我们提出了一种有效的迭代算法,使轴从附肢生长到左心房。我们建议使用轴与附件的表面距离进行有效和有效的检测。为了定位生长中轴的必要初始种子,我们使用演员评论强化学习方法训练人工定位代理,将定位定义为顺序决策过程。整个检测过程仅花费大约8秒,并且检测到的孔口相对于来自两位专家的注释的方差被计算为非常小并且小于观察者间的方差。所提出的孔口搜索附件的中轴线仅比较其与表面的距离,为孔口检测提供了简单而稳健的解决方案。虽然作为第一种全自动方法并且提供低于观察者间差异的检测误差,但与现有解决方案相比,我们的方法将检测效率提高了18倍,因此,对于医生来说可能是有用的。 |
Adversarial Attacks against Deep Saliency ModelsAuthors Zhaohui Che, Ali Borji, Guangtao Zhai, Suiyi Ling, Guodong Guo, Patrick Le Callet 目前,基于深度神经网络的大量显着性模型已经在许多复杂的高级视觉任务中取得了重大突破,例如场景描述,物体检测。然而,这些模型的稳健性尚未得到研究。在本文中,我们首次提出了一种针对深度显着模型的稀疏特征空间对抗攻击方法。与传统的图像空间攻击相比,拟议的攻击仅需要部分模型信息,并且能够产生更稀疏且更阴险的对抗性扰动。这些对抗性扰动是如此微妙,以至于人类观察者无法注意到它们的存在,但模型输出将会彻底改变。这种现象在实际应用中对深度显着模型提出了安全威胁。我们还探索了特征空间攻击的一些有趣的属性,例如: 1具有较大感受野的隐藏层产生较稀疏的扰动,2较深的隐藏层实现较高的攻击成功率,3种不同的损失函数和不同的受攻击层将导致不同的扰动。实验表明,所提出的方法能够成功地攻击各种图像场景中的不同模型架构。 |
Deep Learning for Face Recognition: Pride or Prejudiced?Authors Shruti Nagpal, Maneet Singh, Richa Singh, Mayank Vatsa, Nalini Ratha 深度网络的高准确性表明对有效AI的自豪感或深度网络偏见他们是否遭受群体偏见本身的种族偏见和自己的年龄偏差,并模仿人类行为群体特定信息被深层网络有意识地编码 |
DSAL-GAN: Denoising based Saliency Prediction with Generative Adversarial NetworksAuthors Prerana Mukherjee, Manoj Sharma, Megh Makwana, Ajay Pratap Singh, Avinash Upadhyay, Akkshita Trivedi, Brejesh Lall, Santanu Chaudhury 从噪声图像合成高质量显着图是计算机视觉中的挑战性问题,并且具有许多实际应用。通过现有的显着性检测技术生成的样本不能平滑地处理噪声扰动并且不能描绘给定场景中存在的显着对象。在本文中,我们提出了一种新的端到端耦合去噪基于显着性预测的生成性对抗网络DSAL GAN框架,以解决噪声图像中的显着对象检测问题。 DSAL GAN由两个生成对抗网络组成,GAN端到端地训练,以整体方式完成去噪和显着性预测。第一个GAN由一个对噪声输入图像进行去噪的发生器组成,在鉴别器对应部分,我们检查输出是否是去噪图像或地面实况原始图像。第二GAN使用基于具有对抗性损失的显着性预测方法的数据驱动度量来预测来自输入去噪图像的原始像素的显着性图。还结合了循环一致性损失以进一步改善显着区域预测。我们通过全面评估证明,所提出的框架优于各种性能基准的几个基线显着性模型。 |
Progressive LiDAR Adaptation for Road DetectionAuthors Zhe Chen, Jing Zhang, Dacheng Tao 尽管基于视觉图像的道路检测有了快速发展,但由于诸如照明变化和模糊图像之类的问题,可靠地识别视觉图像中的道路区域仍然具有挑战性为此,可以结合LiDAR传感器数据以改善基于视觉图像的道路检测,因为LiDAR数据不易受视觉噪声的影响。然而,将LiDAR信息引入基于视觉图像的道路检测的主要困难在于LiDAR数据及其提取的特征与视觉数据和视觉特征不共享相同的空间。空间中的这种间隙可能限制LiDAR信息对道路检测的益处。为了克服这个问题,我们引入了一种新颖的渐进式激光雷达适应辅助道路检测PLARD方法,使LiDAR信息适应基于视觉图像的道路检测并提高检测性能。在PLARD中,渐进式LiDAR自适应包括两个后续模块1数据空间自适应,它将LiDAR数据转换为可视数据空间,以通过应用基于高度差的变换和2个特征空间自适应与透视图对齐,从而使LiDAR特征适应视觉通过级联融合结构实现功能。众所周知的KITTI道路检测基准的全面实证研究表明,PLARD利用视觉和LiDAR信息,即使在具有挑战性的城市场景中也能实现更加强大的道路检测。特别是,PLARD优于其他最先进的道路检测模型,目前是公众可访问的基准排行榜的首选。 |
Habitat: A Platform for Embodied AI ResearchAuthors Manolis Savva, Abhishek Kadian, Oleksandr Maksymets, Yili Zhao, Erik Wijmans, Bhavana Jain, Julian Straub, Jia Liu, Vladlen Koltun, Jitendra Malik, Devi Parikh, Dhruv Batra 我们提出了Habitat,一个用于研究具体人工智能AI的新平台。在将学到的技能转化为现实之前,Habitat能够在高效的照片级真实3D模拟中培训具体代理虚拟机器人。 |
C2AE: Class Conditioned Auto-Encoder for Open-set RecognitionAuthors Poojan Oza, Vishal M Patel 经过分类培训的模型通常假设所有测试类在培训时都是已知的。因此,当在测试期间呈现未知类时,这种闭集假设迫使模型将其分类为已知类之一。但是,在现实世界的场景中,分类模型可能会遇到这样的例子。因此,将这些示例标识为未知对于模型性能至关重要。克服这个问题的潜在解决方案在于一类称为开集识别的学习问题。它指的是在测试期间识别未知类的问题,同时保持已知类的性能。在本文中,我们提出了一种开放式集合识别算法,该算法使用具有新颖训练和测试方法的类条件自动编码器。与先前的方法相比,训练过程分为两个子任务,1。闭集分类和2.开集识别,即将类识别为已知或未知。编码器学习闭合集分类训练管道之后的第一个任务,而解码器通过重构以类身份为条件来学习第二个任务。此外,我们使用统计建模的极值理论对重建误差进行建模,以找到识别已知未知类样本的阈值。在多个图像分类数据集上执行的实验表明,所提出的方法比现有技术表现得更好。 |
Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action RecognitionAuthors Pengfei Zhang, Cuiling Lan, Wenjun Zeng, Jianru Xue, Nanning Zheng 基于骨骼的人类动作识别吸引了很多兴趣。最近,存在使用深度前馈神经网络来对骨架序列进行建模的趋势,该骨架序列将从关节的3D坐标导出的2D空间时间图作为输入。关节帧索引和关节类型的一些语义被高度复杂性的代价隐含地捕获并被深度卷积的大感受域利用。在本文中,我们提出了一种简单而有效的语义引导神经网络SGN,用于基于骨架的动作识别。我们明确地将关节的高级语义作为网络输入的一部分来引入,以增强特征表示能力。该模型通过两个语义识别图卷积层,然后是卷积层来利用全局和局部信息。我们首先利用关节的语义和动力学坐标和速度来学习内容自适应图,以捕获关节的全局空间时间相关性。然后使用卷积层来进一步增强特征的表示能力。与先前的工作相比,SGN的模型尺寸更小,速度更快,SGN在NTU,SYSU和N UCLA数据集上实现了最先进的性能。实验结果证明了明确利用语义信息降低模型复杂度和提高识别准确率的有效性。 |
SafeAccess: Towards a Dialogue Enabled Access to the Smart Home for the Friends and FamiliesAuthors Shahinur Alam, Mohammed Yeasin SafeAccess是一种互动辅助技术解决方案,旨在提高残障人士的安全性和独立性,即视力受损和行动不便。系统输出是门前或房子周围的人的分类和识别,分组如朋友家庭照顾者与入侵者窃贼不明。这将允许用户授予拒绝远程访问场所或能够呼叫紧急服务。在本文中,我们专注于设计原型系统并构建符合系统标准的强大识别引擎,并在各种实际和现实生活情况下解决速度,准确性,部署和环境挑战。假设前提是配备位于战略位置的摄像机以捕捉图像和视频。为了与系统交互,我们实现了一个启用对话框的界面,使用面部图像或朋友家庭照顾者的视频创建个性化的配置文件。为了提高计算效率,我们应用变化检测来过滤帧并使用更快的RCNN来检测人类存在并使用多任务级联卷积网络MTCNN提取面部。随后,我们通过将提取的面部与剖面相匹配来应用LBP FaceNet来识别人和组。如果发现任何匹配或入侵者,场景图像和置信度得分在1到10之间,SafeAccess会向用户发送包含人员姓名的MMS的识别结果。此外,可以查询过去事件的每日,每周和每月汇总报告来自系统。实证分析显示,在识别朋友家庭照顾者与未知入侵者的情况下,F评分为0.97,表现强劲。 |
DeepLight: Learning Illumination for Unconstrained Mobile Mixed RealityAuthors Chloe LeGendre, Wan Chun Ma, Graham Fyffe, John Flynn, Laurent Charbonnel, Jay Busch, Paul Debevec 我们提出了一种基于学习的方法来推断合理的高动态范围HDR,全方位照明给出来自具有有限视场FOV的移动电话相机的无约束,低动态范围LDR图像。对于训练数据,我们收集放置在相机的FOV内的各种反射球的视频,使大部分背景不被遮挡,利用具有不同反射功能的材料在单次曝光中显示不同的照明提示。我们训练深度神经网络,通过将LDR地面真实球体图像与使用基于图像的重新照明的预测照明渲染的图像相匹配,从LDR背景图像回归到HDR照明,这是可区分的。我们的推理在移动设备上以交互式帧速率运行,可以将虚拟对象逼真地渲染到移动混合现实的真实场景中。对自动曝光和白平衡视频进行培训,与室内和室外场景的最新方法相比,我们改善了渲染对象的真实感。 |
Res2Net: A New Multi-scale Backbone ArchitectureAuthors Shang Hua Gao, Ming Ming Cheng, Kai Zhao, Xin Yu Zhang, Ming Hsuan Yang, Philip Torr 在多个尺度上表示特征对于许多视觉任务非常重要。骨干卷积神经网络的最新进展CNN不断展示出更强的多尺度表示能力,从而在广泛的应用中实现一致的性能提升。然而,大多数现有方法以分层方式表示多尺度特征。在本文中,我们通过在一个单个残差块内构建分层残差类连接,为CNN提出了一种新的构建模块,即Res2Net。 Res2Net以粒度级别表示多尺度特征,并增加每个网络层的感知字段范围。所提出的Res2Net块可以插入到现有技术的主干CNN模型中,例如ResNet,ResNeXt和DLA。我们在所有这些模型上评估Res2Net模块,并在广泛使用的数据集(如CIFAR 100和ImageNet)上展示与基线模型相比的一致性能增益。关于代表性计算机视觉任务的进一步消融研究和实验结果,即对象检测,类激活映射和显着对象检测,进一步验证了Res2Net相对于现有技术基线方法的优越性。源代码和经过培训的模型将公开发布。 |
Curls & Whey: Boosting Black-Box Adversarial AttacksAuthors Yucheng Shi, Siyu Wang, Yahong Han 基于深度神经网络的图像分类器遭受由对抗性示例引起的骚扰。黑盒迭代攻击中存在两个缺陷,它们通过逐步调整每个步骤的噪声添加方向来生成对抗性示例。一方面,现有的迭代攻击沿着梯度上升的方向单调地增加噪声,导致生成的迭代轨迹缺乏多样性和适应性。另一方面,通过添加过多噪声来执行对抗性攻击是微不足道的,但是目前没有用于挤压冗余噪声的细化机制。在这项工作中,我们提出了Curls Whey黑盒攻击来修复上述两个缺陷。在Curls迭代期间,通过组合梯度上升和下降,我们卷曲迭代轨迹以将更多的多样性和可转移性集成到对抗性示例中。卷曲迭代还减轻了现有迭代攻击中边际效应的减弱。乳清优化通过利用对抗性扰动的稳健性进一步挤压了乳清的噪音。 Imagenet和Tiny Imagenet上的大量实验表明,我们的方法在12个标准中实现了令人印象深刻的噪声幅度降低。 Curls Whey攻击还显示出对集合模型以及对抗训练模型的有希望的可转移性。此外,我们将攻击扩展到有针对性的错误分类,有效降低黑箱条件下目标攻击的难度。 |
Thickened 2D Networks for 3D Medical Image SegmentationAuthors Qihang Yu, Yingda Xia, Lingxi Xie, Elliot K. Fishman, Alan L. Yuille 关于是否使用2D或3D网络的医学图像分割存在争议,其中两个管道都有优点和缺点。本文提出了一种增加2D网络输入的新方法,因此该模型可以同时享受2D网络的稳定性和效率,以及3D网络在体积上下文建模中的能力。当在第一卷积层处融合大量2D切片时发生主要信息丢失,导致网络在区分切片之间的差异方面的能力相对较弱。为了减轻这个缺点,我们提出了一种有效的框架,其推迟切片融合并且ii增加来自预融合层的高速公路连接,使得预测层接收切片敏感的辅助线索。在需要强3D背景的特定血管中分割几个腹部目标的实验证明了我们的方法的有效性。 |
Surgical Gesture Recognition with Optical Flow onlyAuthors Duygu Sarikaya, Pierre Jannin 在本文中,我们仅使用视频数据中的运动提示来解决手术手势识别的开放性研究问题。我们采用Simonyan等人最初提出的光流控制系统。虽然Simonyan使用RGB帧和密集光流,但我们仅使用密集光流表示作为输入来强调运动在手术手势识别中的作用,并将其表现为鲁棒替代运动数据。我们还通过使用交叉模态预训练初始化模型来克服光流控制的一个局限性。解决外科手势识别的大量有前途的研究高度依赖于需要额外记录设备的运动学数据。据我们所知,这是第一篇仅使用密集光流信息解决手术手势识别的论文。我们在JIGSAWS数据集上获得了有竞争力的结果,而且,我们的模型以更少的标准偏差实现了更强大的结果,这表明光流信息可以用作运动数据的替代,用于识别手术手势。 |
HYPE: Human eYe Perceptual Evaluation of Generative ModelsAuthors Sharon Zhou, Mitchell Gordon, Ranjay Krishna, Austin Narcomey, Durim Morina, Michael S. Bernstein 生成模型通常使用人工评估来确定和证明进展。不幸的是,现有的人类评估方法是临时的,目前还没有标准化的,经验证的评估,1测量感知保真度,2是可靠的,3将模型分成清晰的等级顺序,4确保高质量的测量而没有难以处理的成本。作为回应,我们构建人类眼睛感知评估HYPE,一种人类度量,其基于感知中的心理物理学研究,2来自模型的不同组随机抽样输出的可靠性,3导致可分离的模型性能,以及4有效的成本和时间。我们介绍两种方法。第一个,HYPE时间,在自适应时间约束下测量视觉感知以确定最小时间长度,例如250ms,模型输出(例如生成的面部)需要可见以供人们将其区分为真实或假的。第二个,HYPE Infinity,可以测量假图像和真实图像的人为错误率,没有时间限制,保持稳定性并大幅减少时间和成本。我们使用两个数据集,流行的CelebA和更新的更高分辨率FFHQ以及模型输出的两种采样技术,在无条件图像生成的四个最先进的生成对抗网络GAN上测试HYPE。通过多次模拟HYPE评估,我们展示了不同模型的一致排名,用截断技巧样本识别StyleGAN 27.6 HYPE Infinity欺骗率,大约四分之一的图像被人类错误分类为优于StyleGAN而没有截断19.0在FFHQ上。看到 |
Deep Industrial EspionageAuthors Samuel Albanie, James Thewlis, Sebastien Ehrhardt, Joao Henriques 现在认为深度学习理论在很大程度上得到了解决,研究者和影响者都很好地理解了这一理论。为了保持我们的相关性,我们因此寻求将我们的技能应用于该技术的探索性,利润丰厚的应用。为此,我们提出了Deep Industrial Espionage,这是一个有效的端到端工业信息传播和产品化框架。具体而言,考虑到产品或服务的单一图像,我们的目标是在神经网络的单个前向传递中以有利的价格点对产品的模板进行逆向工程,重新分配和分发给新兴市场中的消费者。与机器感知的先前工作不同,机器感知仅限于对对象实例进行分类,检测和推理,我们的方法在广泛的企业环境中提供切实的商业价值。我们的方法在很大程度上依赖于一篇很有前途的arxiv论文,直到我们使用毡尖笔不再能够读取其原始作者名称。然后,我们对匿名论文进行改写,在标题中添加小说一词,并将其提交给一个着名的,封闭式的访问间谍日记,向我们保证,有一天,我们将有权获得一部分他们的敲诈读者费。 |
Creativity Inspired Zero-Shot LearningAuthors Mohamed Elhoseiny, Mohamed Elfeki 零射击学习ZSL旨在理解看不见的类别,没有类级别描述的训练样例。为了提高零射击学习的辨别力,我们以人类创造力的心理学为灵感,创造出看不见的类别的视觉学习过程,以产生新颖的艺术。我们将ZSL与人类创造力联系起来,观察零射击学习是关于识别看不见的东西,创造力是关于创造一个可爱的看不见的东西。我们介绍了一种灵感来自创造性文学的学习信号,它通过幻觉类描述探索看不见的空间,并鼓励他们将视觉特征世代从看到的类中小心地偏离,同时允许知识从被看见的类转移到看不见的类。根据经验,我们使用CUB和NABirds数据集,从我们关注的嘈杂文本中,对具有挑战性的任务或广义ZSL的最大可用基准上的几个百分比的技术水平进行了持续改进。我们还在另外三个数据集AwA2,aPY和SUN上展示了基于属性的ZSL的方法的优势。 |
Fingerprints: Fixed Length Representation via Deep Networks and Domain KnowledgeAuthors Joshua J. Engelsma, Kai Cao, Anil K. Jain 我们学习了指纹的有区别的固定长度特征表示,这与常用的无序,可变长度的细节点集相反。为了得到这个固定长度的表示,我们将指纹域知识嵌入到多任务深度卷积神经网络架构中。两个公共领域指纹数据库NIST SD4和FVC 2004 DB1的实证结果表明,与由两个最先进的商业匹配器Verifinger v6.3和Innovatrics v2.0.3提取的细节表示相比,我们的固定长度表示提供了更高的搜索精度NIST SD4的等级1准确度为97.9,相对于97.3,而显着更快,大规模搜索每秒682,594次匹配,而具有8 GB RAM的i5 3.3 GHz处理器上的商业匹配器每秒22次匹配。 |
Infant-Prints: Fingerprints for Reducing Infant MortalityAuthors Joshua J. Engelsma, Debayan Deb, Anil K. Jain, Prem S. Sudhish, Anjoo Bhatnager 在世界各地的发展中国家,许多婴儿继续遭受疫苗可预防疾病和营养不良的痛苦和死亡。可悲的是,由于缺乏任何官方身份证明文件,因此极难预防这些婴儿死亡事件。为了解决这一全球性危机,我们提出婴儿用品,包括定制,紧凑,低成本85美元,高分辨率1,900 ppi指纹识别器,高分辨率指纹匹配器,以及用于婴儿搜索和验证的移动应用程序指纹。使用婴儿指纹,我们收集了婴儿指纹的纵向数据库,并证明其能够准确可靠地识别0 3个月的婴儿,及时有效地为婴儿提供关键疫苗和营养补充剂TAR 90 FAR 0.1超过8周。 |
Learning Matchable Colorspace Transformations for Long-term Metric Visual LocalizationAuthors Lee Clement, Mona Gridseth, Justin Tomasi, Jonathan Kelly 长期公制定位是自动移动机器人的基本功能,但对于基于视觉的系统而言仍然存在挑战,因为照明,天气或季节变化会导致外观变化。虽然基于经验的映射已被证明是实现外观变化的视觉本地化的有效技术,但是可靠的长期定位所需的经验数量可能很大,并且期望减少必要数量的经验的方法。从基于物理的颜色恒常模型中汲取灵感,我们提出了一种学习从RGB到灰度色彩空间的非线性映射的方法,该方法最大化了在不同光照和天气条件下捕获的图像的特征匹配数量。我们的关键见解是,可以通过使用可微分学习模型近似传统的非可微定位管线来学习有用的图像变换,该模型可以预测对于给定图像对的定位质量的方便测量,例如特征匹配的数量。此外,我们发现通过结合为特定图像对计算的学习的低维上下文特征,可以改善外观鲁棒RGB到灰度映射的一般性。使用合成和真实世界数据集,我们表明我们的方法显着改善了夜间周期的特征匹配,并提出了一种可行的策略,可显着提高基于体验的视觉定位的效率。 |
FEAFA: A Well-Annotated Dataset for Facial Expression Analysis and 3D Facial AnimationAuthors Yanfu Yan, Ke Lu, Jian Xue, Pengcheng Gao, Jiayi Lyu 基于机器学习的面部表情分析需要大量注释良好的数据来反映面部运动的不同变化。公开可用的数据集通过提供基准资源真正有助于加速该领域的研究,但据我们所知,所有这些数据集仅限于行动单位的粗略注释,包括仅缺少,存在或五个级别根据面部动作编码系统的强度。为了满足对标记非常详细的视频的需求,我们提出了一个注释良好的数据集,名为FEAFA,用于面部表情分析和3D面部动画。在现实世界条件下记录了122名参与者,包括儿童,青年和老年人。此外,使用我们开发的表达定量工具手动标记99,356帧,以量化9个对称FACS动作单元,10个不对称单边FACS动作单元,2个对称FACS动作描述符和2个不对称FACS动作描述符,并且每个动作单元或动作描述符是使用0到1之间的浮点数进行注释。为了提供用于未来研究的基线,提出了基于卷积神经网络的行动单位值回归的基准。我们还展示了我们的FEAFA数据集用于3D面部动画的潜力。几乎所有最先进的面部动画算法都是基于三维人脸重建来实现的。因此,我们提出了一种新方法,该方法仅基于源角色的2D视频帧的动作单位值回归来驱动虚拟角色。 |
Non-Rigid Point Set Registration NetworksAuthors Lingjing Wang, Jianchun Chen, Xiang Li, Yi Fang 点集注册被定义为确定从源点集到目标点的空间变换的过程。现有方法通常迭代地搜索最佳几何变换以记录给定的一对点集,其通过最小化预定义的对准损失函数来驱动。相反,所提出的点配准神经网络PR Net主动地将登记模式学习为来自训练数据集的参数函数,因此预测所需的几何变换以对准一对点集。 PR Net可以将学习的知识即登记模式从登记训练对转移到测试训练对而无需额外的迭代优化。具体来说,在本文中,我们开发了一些新技术,用于从点集中学习形状描述符,这有助于在源点和目标点集之间形成清晰的相关性。利用定义的相关性,PR Net倾向于预测变换,以便源和目标点集可以在统计上对齐,这反过来导致最佳的空间几何配准。即使存在高斯噪声,异常值和缺失点,PR Net也能实现点集非刚性配准的稳健性和卓越性能,但需要更少的时间来注册大量的对。更重要的是,对于一对新的点集,PR Net能够使用学习的模型直接预测所需的变换,而无需重复的迭代优化例程。我们的代码可在 |
Easy Transfer Learning By Exploiting Intra-domain StructuresAuthors Jindong Wang, Yiqiang Chen, Han Yu, Meiyu Huang, Qiang Yang 转移学习旨在将知识从标记良好的域转移到具有有限标签或无标签的类似但不同的域。遗憾的是,现有的基于学习的方法通常涉及密集的模型选择和超参数调整以获得良好的结果。此外,交叉验证不可能用于调整超参数,因为目标域中通常没有标签。这将限制转移学习的广泛适用性,尤其是在诸如可穿戴设备的计算约束设备中。在本文中,我们提出了一种实用的Easy Transfer Learning EasyTL方法,该方法不需要模型选择和超参数调整,同时实现了竞争性能。通过利用域内结构,EasyTL能够学习非参数传递特征和分类器。大量实验表明,与现有技术的传统和深度方法相比,EasyTL满足Occam的Razor原理,它非常易于实现和使用,同时在分类精度和更高的计算效率方面实现了相当或更好的性能。此外,它表明EasyTL可以提高现有传输特征学习方法的性能。 |
Looking back a |