资讯详情

【今日CV 计算机视觉论文速览 第138期】Mon, 1 Jul 2019

今日CS.CV 计算机视觉论文速读 Mon, 1 Jul 2019 Totally 71 papers ??更精彩请移动主页

在这里插入图片描述

Interesting:

?***PointFlow基于连续norm流生成点云, 提出了一种生成点云的方法PointFlow,构建点云分布 分布进行建模,并在概率框架下生成点云。研究人员使用两级分布来处理这个问题,第一层用于处理形状分布,第二层用于处理给定形状下的点云分布。(from 康奈尔) 这使得研究人员可以在采样形状的同时采样任何数量的点。这种方法学习了两个不同层次的分布个不同层次的分布。这种可逆的归一流可以在训练中计算,模型可以实现变分推理。 模型架构,训练中的编码器编码输入点云,同时输出三个损失,测试时直接使用z采样形状和点云: 点云结果: project:https://www.guandaoyang.com/PointFlow/ code:https://github.com/stevenygd/PointFlow

?基于弱监督的多任务U-Net, 多类分割任务基于粗糙的数据标签和少数像素级标记的数据(laze label data,食物扫描电镜图像ice cream SEM images )。将实例的粗分割分离出没有明确边界的物体,以及像素级分割,找到精确边界进行整合。(from 剑桥)

?Deep Radar Detector处理雷达信号检测, 将激光雷达的深度学习扩展到微波雷达,并提出了数据集和雷达数据增强技术。(from Tel-Aviv University)

?教会cnn设计时尚服装质感, 提出了合成时尚自动探索和检测的新方法(from Myntra Designs 印度 KDD 2019 Workshop) 一些结果:


Daily Computer Vision Papers

PointFlow: 3D Point Cloud Generation with Continuous Normalizing Flows Authors Guandao Yang, Xun Huang, Zekun Hao, Ming Yu Liu, Serge Belongie, Bharath Hariharan随着3D点云已成为多视觉和图形应用的选择,合成或重建高分辨率,高保真点云的能力变得至关重要。虽然深度学习模型最近在点云的判断任务中取得了成功,但生成点云仍然具有挑战性。本文提出了概率框架的原理,将其建模成分布,生成三维点云。具体来说,我们学习了两个层次的分布,第一层是形状分布,第二层是给定形状点的分布。这个公式允许我们从形状中取样任何数量的点。我们的生成模型叫做PointFlow,学习连续的标准化过程学习各级的分布。归一化流的可逆性使我们能够在训练过程中计算可能性,并允许我们在变分推理框架中训练我们的模型。我们证明了经验PointFlow实现了点云生成中最先进的性能。我们还表明,我们的模型可以忠实地重建点云,并以无人监督的方式学习有用的表示。代码将在

On the notion of number in humans and machines Authors Norbert B tfai, D vid Papp, Gerg Bogacsovics, M t Szab , Viktor Szil rd Simk , M ri Bersenszki, Gergely Szab , Lajos Kov cs, Ferencz Kov cs, Erik Szilveszter Varga本文对人体和机器的数量级分类进行了两种软件实验。专注于特定类型任务的实验被称为语义MNIST或简称为SMNIST,放置在图像中的对象数量必须确定。用于人类的SMNIST实验旨在测量人类目标文件系统的容量。测量结果与认知心理学文献中已知的值非常一致。名为SMNIST for Machines实验用于类似的目的,但它们调查了现有的,众所周知,但最初是为其他目的和正在开发的深度学习计算机程序开发的。这些测量结果可以解释为类似SMNIST对人类的结果。本文的主要论文可在机器中制定如下:当这些值小于人类时OFS图像分类人工神经网络可以学习更高的精度来区分数值。最后,我们用来研究人类和机器中数字的概念框架。

Adversarial Pixel-Level Generation of Semantic Images Authors Emanuele Ghelfi, Paolo Galeone, Michele De Simoni, Federico Di Mattia生成对抗网络GAN在生成逼真图像方面取得了非凡的成功,这是一个可以接受较低像素级精度的领域。我们研究了语义图像是从以前的分布中生成的,但在文献中还没有解决。标准方法和系统结构可以直观地解决这个问题。然而,由于语义分割等任务需要像素级精度,因此需要更合适的方法来避免模糊、幻觉和不可用的图像。在这项工作中,我们提出了一习生成像素级准确语义图像的新颖架构,即语义生成对抗网络SemGAN。实验评估表明,在许多语义图像生成任务中,我们的架构在定量和定性上都优于标准架构。

A Deep Decoder Structure Based on WordEmbedding Regression for An Encoder-Decoder Based Model for Image Captioning Authors Ahmad Asadi, Reza Safabakhsh近年来,生成图像的文本描述一直是计算机视觉和自然语言处理研究人员的一个有吸引力的问题。提出了许多基于深度学习的模型来解决这个问题。基于配备注意机制的神经编码器解码器结构,现有方法。这些方法试图训练解码器最小化之前句子中下一个单词的对数似然性,导致输出空间稀疏。在这项工作中,我们提出了一种新的方法来训练解码器,使下一个单词嵌入相对于以前的单词,而不是最小化对数。提出的方法可以在不引入任何外部存储单元的情况下学习和提取长期信息,生成更长的细粒度字幕。此外,通过技术训练的解码器可以考虑生成字幕的重要性。此外,通过图像引导注意点,提出了一种新颖的语义注意机制,并考虑了以前生成的单词的含义。我们使用MS COCO评估数据集建议的方法。模型优于最先进的模型,特别是在生成更长的字幕时。获得等于125的收获.0的CIDEr分数和等于50.5的BLEU 4分,现有技术模型的最佳分为117分.1和48.0。

Deep Radar Detector Authors Daniel Brodeski, Igal Bilik, Raja Giryes自引入深度学习以来,相机和激光雷达处理发生了革命性的变化,雷达处理仍然依赖于经典工具。本文介绍了雷达处理的深度学习方法,直接与雷达复杂数据一起工作。为了克服雷达标记数据的缺乏,我们只依靠雷达校准数据进行训练,并引入了新的雷达增强技术。我们在雷达4D与传统方法相比,我们的方法,与传统方法相比表现出优势性能,同时保持实时性能。对雷达数据应用深度学习具有几个优点,例如每次都不需要昂贵的雷达校准过程,并且能够以几乎为零的开销对检测到的物体进行分类。

Reconstructing Perceived Images from Brain Activity by Visually-guided Cognitive Representation and Adversarial Learning Authors Ziqi Ren, Jie Li, Xuetong Xue, Xin Li, Fan Yang, Zhicheng Jiao, Xinbo Gao基于功能磁共振成像fMRI测量的脑信号重建感知图像是脑驱动计算机视觉中的重要且有意义的任务。然而,fMRI信号和视觉图像之间的不一致分布和表示导致异质性差异,这使得学习它们之间的可靠映射具有挑战性。此外,考虑到fMRI信号具有极高的维度并且包含许多视觉上无关的信息,有效地降低噪声并编码用于图像重建的强大视觉表示也是一个开放的问题。我们表明,通过学习由相应视觉特征引导的fMRI信号的视觉相关潜在表示,并通过对抗性学习恢复感知图像,可以克服这些挑战。得到的框架称为双变分自动编码器生成对抗网络D VAE GAN。通过使用新颖的3阶段训练策略,它通过双结构变分自动编码器D VAE编码认知和视觉特征,以使认知特征适应视觉特征空间,然后学习利用生成对抗网络GAN重建感知图像。对三个fMRI记录数据集的大量实验表明,与现有技术方法相比,D VAE GAN实现了更精确的视觉重建。

A multi-task U-net for segmentation with lazy labels Authors Rihuan Ke, Aur lie Bugeau, Nicolas Papadakis, Peter Schuetz, Carola Bibiane Sch nlieb对劳动密集型像素明确注释的需求是许多用于图像分割的完全监督学习方法的主要限制。在本文中,我们提出了一种用于多类分割的深度卷积神经网络,通过在粗略数据标签上训练并且仅使用具有像素明确注释的非常少量的图像来训练该问题。我们将这种新的标签策略称为懒惰标签。然后将图像分割分层为三个连接的任务,粗略检测类实例,分离错误连接的对象而没有清晰的边界,以及像素分割以找到每个对象的准确边界。这些问题被集成到多任务学习框架中,并且模型以半监督的方式端到端地进行训练。该方法应用于食物显微镜图像的数据集。我们表明,即使大多数带注释的数据缺少精确的边界标签,该模型也能提供准确的分割结果。通过收集比精确分割的图像更加懒惰的粗略注释,这允许更多的灵活性和效率来训练在手动注释昂贵的实际环境中数据饥饿的深度神经网络。

Filter Early, Match Late: Improving Network-Based Visual Place Recognition Authors Stephen Hausler, Adam Jacobson, Michael MilfordCNN在执行位置识别方面具有优势,特别是当神经网络针对当前环境条件下的定位进行优化时。在本文中,我们研究了特征映射过滤的概念,其中,不使用卷积张量内的所有激活,而是仅使用最有用的激活。由于特定要素图编码不同的视觉特征,因此目标是移除特征贴图,这些特征贴图会降低在外观变化中识别位置的能力。我们的关键创新是在早期卷积层中过滤特征图,但随后继续运行网络并使用同一网络中的后一层提取特征向量。通过过滤早期视觉特征并从更高,更多视点不变的后期层提取特征向量,我们证明了改进的条件和视点不变性。我们的方法需要从部署环境进行训练的图像对,但我们表明,只需一个训练图像对就可以定期实现最先进的性能。进行详尽的实验分析以确定早期层过滤和后期层提取之间的因果关系的全部范围。为了有效性,我们使用三个数据集Oxford RobotCar,Nordland和Gardens Point,实现了NetVLAD的整体优越性能。这项工作提供了许多探索CNN优化的新途径,没有经过全面的培训。

Are you really looking at me? A Framework for Extracting Interpersonal Eye Gaze from Conventional Video Authors Minh Tran, Taylan Sen, Kurtis Haut, Mohammad Rafayet Ali, Mohammed Ehsan Hoque尽管视频摄像机在我们日常生活中的普遍性发生了革命,但非常有意义的非语言情感交流形式之一,人际视线注视,即相对于会话伙伴的目光注视,并不能从普通视频中获得。我们介绍了Interpersonal Calibrating Eye凝视编码器ICE,它可以自动从视频录制中提取人际凝视,无需专门的硬件,也无需事先了解参与者位置。利用个人花费大量对话看彼此的直觉,使ICE动态聚类算法能够提取人际凝视。我们使用具有红外凝视跟踪器F1 0.846,N 8的客观度量在视频聊天中验证ICE,以及​​与眼接触r 0.37,N 170的专家评级评估的面对面通信。然后,我们使用ICE来分析两种不同但重要的情感交流领域中的行为,基于欺骗检测的审讯和快速约会中的沟通技巧评估。我们发现,在回答问题时,诚实的证人打破了人际关系的凝视联系,并且比欺骗性的证人往往更容易往下看p 0.004,d 0.79。在预测速度约会视频中的专家沟通技能评级时,我们证明单独的人际凝视比面部表情具有更强的预测能力。

Road-network-based Rapid Geolocalization Authors Yongfei Li, Dongfang Yang, Shicheng Wang, Hao He利用地理信息协助无人驾驶飞行器的导航一直是研究的热点。本文提出了一种基于路网的定位方法。我们将测量图像中的道路与参考道路矢量地图进行匹配,并在与整个城市一样大的区域上实现成功定位。道路网络匹配问题被视为二维投影变换下的点云配准问题,并在假设和测试框架下求解。为了处理投影点云配准问题,提出了一种全局投影不变特征,它由两条道路交叉点组成,并增加了它们的切线信息。我们称之为两个道路交叉点元组。我们推导出用于确定来自一对匹配的两个道路交叉元组的对齐变换的封闭形式解决方案。此外,我们提出了元组匹配的必要条件。这可以减少候选匹配元组,从而在很大程度上加速搜索。我们在假设和测试框架下测试所有候选匹配元组以搜索最佳匹配。实验表明,我们的方法可以在一个cpu上在1秒内在400区域内定位目标区域。

New pointwise convolution in Deep Neural Networks through Extremely Fast and Non Parametric Transforms Authors Joonhyun Jeong, Sung Ho Bae诸如离散Walsh Hadamard变换DWHT和离散余弦变换DCT的一些常规变换已被广泛用作图像处理中的特征提取器,但很少应用于神经网络。然而,我们发现这些传统变换具有捕获跨信道相关性的能力,而DNN中没有任何可学习的参数。本文首先提出将常规变换应用于逐点卷积,表明这种变换显着降低了神经网络的计算复杂度,而没有精度性能下降。特别是对于DWHT,它不需要浮点乘法,只需要加法和减法,这可以大大减少计算开销。此外,其快速算法进一步降低了从mathcal O n 2到mathcal O n log n的浮点加法的复杂性。这些不错的属性在数字参数和操作中构建了非常有效的网络,从而获得了准确性。我们提出的基于DWHT的模型与CIFAR 100数据集上的基线模型MoblieNet V1相比,准确度提高了1.49,参数减少了79.1,FLOP减少了48.4。

Gesture Recognition in RGB Videos UsingHuman Body Keypoints and Dynamic Time Warping Authors Pascal Schneider, Raphael Memmesheimer, Ivanna Kramer, Dietrich Paulus手势识别为人类直观地与机器交互开辟了新途径。特别是对于服务机器人,手势可以是通信手段的有价值的补充,例如,将机器人的注意力吸引到某人或某物上。从视频数据中提取手势并对其进行分类是一项具有挑战性的任务,并且多年来已经提出了各种方法。本文提出了一种RGB视频中的手势识别方法,该方法使用OpenPose提取人的姿势,动态时间扭曲DTW与一个最近邻1NN一起用于时间序列分类。这种方法的主要特征是任何特定硬件的独立性和高度灵活性,因为可以通过仅添加几个示例将新手势添加到分类器。我们利用基于深度学习的OpenPose框架的稳健性,同时避免自己训练神经网络的数据密集型任务。我们使用公共数据集演示了我们方法的分类性能。

LipReading with 3D-2D-CNN BLSTM-HMM and word-CTC models Authors Dilip Kumar Margam, Rohith Aralikatti, Tanay Sharma, Abhinav Thanda, Pujitha A K, Sharad Roy, Shankar M Venkatesan近年来,基于深度学习的机器唇读已经获得了突出地位。为此,已经提出了诸如LipNet,LCANet和其他几种体系结构,与在DCT特征上训练的传统唇形DNN HMM混合系统相比,其表现非常好。在这项工作中,我们提出了一个更简单的3D 2D CNN BLSTM网络架构,带有瓶颈层。我们还对这种架构的两种不同的唇读方法进行了分析。在第一种方法中,3D 2D CNN BLSTM网络在字符ch CTC上训练CTC丢失。然后,在传统的ASR训练管道中,从3D 2D CNN BLSTM ch CTC网络中提取的瓶颈唇部特征训练BLSTM HMM模型。在第二种方法中,相同的3D 2D CNN BLSTM网络在CTC上的字标签上训练CTC丢失。第一种方法表明,与DCT功能相比,瓶颈功能表现更好。使用Grid语料库中的第二种方法看到扬声器测试集,我们报告1.3 WER相对于LCANet有55改进。在看不见的扬声器测试装置上,我们报告了8.6 WER,相对于LipNet,这是24.5的改进。我们还在我们收集的81个扬声器的第二个数据集上验证了该方法。最后,我们还讨论了特征重复对BLSTM HMM模型性能的影响。

Gray Level Image Threshold Using Neutrosophic Shannon Entropy Authors Vasile Patrascu本文介绍了一种通过最小化香农中性熵来分割灰度图像的新方法。对于所提出的分割方法,中性信息分量,即真实度,中性程度和虚假程度是在考虑到属于分割区域并且同时考虑到分离阈值区域的情况下定义的。该方法的原理简单易懂,可导致多个阈值。使用一些测试灰度图像说明该方法的功效。实验结果表明,该方法具有良好的灰度阈值分割性能。

Localizing Unseen Activities in Video via Image Query Authors Zhu Zhang, Zhou Zhao, Zhijie Lin, Jingkuan Song, Deng Cai未修剪视频中的动作本地化是视频理解领域中的重要主题。但是,现有的动作本地化方法仅限于预先定义的一组动作,并且无法本地化看不见的活动。因此,我们考虑通过图像查询本地化视频中看不见的活动的新任务,命名为基于图像的活动本地化。该任务面临三个固有挑战:1如何消除图像查询中语义上不必要内容的影响2如何处理不准确图像查询的模糊定位3如何确定目标片段的精确边界。然后,我们提出了一种新颖的自我关注交互定位器,以端到端的方式检索看不见的活动。具体来说,我们首先设计一种具有相对位置编码的区域自我关注方法,以学习细粒度图像区域表示。然后,我们采用局部变压器编码器来构建图像和视频内容的多步融合和推理。我们接下来采用订单敏感的本地化程序来直接检索目标段。此外,我们通过重新组织ActivityNet数据集来构建新的数据集ActivityIBAL。大量实验表明了该方法的有效性。

Teaching DNNs to design fast fashion Authors Abhianv Ravi, Arun Patro, Vikram Garg, Anoop Kolar Rajagopal, Aruna Rajan, Rajdeep Hazra Banerjee快速时尚引领时尚界最大的破坏,使得能够设计弹性供应链,以快速响应不断变化的时尚潮流。商业制造中的传统设计过程通常通过世界各地的趋势或主流敷料模式来表示,这表明对于给定时间框架的新形式表达,循环模式和流行的表达模式的突然兴趣。在这项工作中,我们提出了一个全自动系统,通过设计具有社交媒体源生成的时间序列信号的服装的代表性原型,探索,检测并最终将时尚趋势综合到设计元素中。我们的系统设想是Fast Fashion设计的第一步,从设计开始到制造的服装生产周期旨在快速响应当前趋势。它还通过在设计生成时接受客户对可销售性的反馈来减少时装生产中的浪费。我们还提供了一个界面,其中设计师可以在时尚中使用多种趋势样式,并将设计可视化为这些样式元素的插值。我们的目标是通过为设计师创造有趣和鼓舞人心的组合来帮助创作过程,通过在关键客户中运行它们来考虑。

Open-Ended Long-Form Video Question Answering via Hierarchical Convolutional Self-Attention Networks Authors Zhu Zhang, Zhou Zhao, Zhijie Lin, Jingkuan Song, Xiaofei He开放式视频问答的目的是根据给定的问题从引用的视频内容中自动生成自然语言答案。目前,大多数现有方法关注于具有多模式重复编码器解码器网络的短格式视频问题应答。虽然这些作品已经取得了很好的表现,但由于缺乏远程依赖建模和巨大的计算成本,它们仍可能无法有效地应用于长视频视频问答。为了解决这些问题,我们提出了一种快速的分层卷积自注意编码器解码器网络HCSA。具体地说,我们首先开发一种分层卷积自注意编码器,以有效地对长格式视频内容进行建模,从而构建视频序列的层次结构,并从视频上下文中捕获问题感知的长距离依赖性。然后,我们设计了一个多尺度的注意力解码器,以结合用于答案生成的多层视频表示,这避免了顶部编码器层的信息丢失。大量实验表明了该方法的有效性和有效性。

Place recognition in gardens by learning visual representations: data set and benchmark analysis Authors Maria Leyva Vallina, Nicola Strisciuglio, Nicolai Petkov视觉位置识别是摄像机定位和循环闭合检测系统的重要组成部分。它涉及仅基于视觉线索识别先前访问过的地点。尽管对于室内和城市环境来说这是一个被广泛研究的问题,但由于花园般环境的挑战性外观,最近使用机器人来实现农业和园艺任务的自动化已经产生了新的问题。花园场景主要包含绿色,以及重复的图案和纹理。在花园和自然环境中记录的可用数据的缺乏使得视觉定位算法的改进变得困难。在本文中,我们提出了TB Places数据集的扩展版本,该数据集用于测试视觉位置识别的算法。它包含在不同季节的真实花园中记录的真实相机姿势的图像,具有不同的光线条件。我们为所有可能的图像对构建并发布了一个基本事实,表明它们是否描绘了相同的位置。我们提出了基于卷积神经网络的方法基准分析的结果,用于整体图像描述和位置识别。我们训练现有网络,即ResNet,DenseNet和VGG NetVLAD,作为具有对比损失功能的双向架构的骨干。我们获得的结果表明,学习园区定制的表示有助于提高性能,尽管泛化能力有限。

Fully automatic computer-aided mass detection and segmentation via pseudo-color mammograms and Mask R-CNN Authors Hang Min, Devin Wilson, Yinhuang Huang, Samuel Kelly, Stuart Crozier, Andrew P Bradley, Shekhar S. Chandra目的提出增强乳房X线照相质量的伪彩色乳房X线照片作为快速计算机辅助检测CAD系统的一部分,该系统可在无需任何用户干预的情况下同时检测和分割肿块。方法提出的伪彩色乳房X线照片,其三个通道包含原始灰度乳房X线照片和两个形态增强图像,用于为病变提供伪彩色对比。形态增强可以像乳房X线照相模式一样筛选质量,从而改善检测和分割。我们构建了一个快速,全自动的同步质量检测和分割CAD系统,使用彩色乳房X线照片作为转移学习的输入,使用Mask R CNN,这是一种先进的深度学习框架。这项工作的源代码已在线提供。结果在公开的乳腺X线摄影数据集INbreast上进行评估,该方法优于现有技术方法,通过在每个图像0.9假阳性和0.88的质量分割的平均Dice相似性指数达到0.90的平均真阳性率,同时花费20.4秒平均处理每个图像。结论该方法在不超过半分钟的情况下提供准确,全自动的乳房肿块检测和分割结果,无需任何用户干预,同时优于最先进的方法。

A linear method for camera pair self-calibration and multi-view reconstruction with geometrically verified correspondences Authors Nikos Melanitis, Petros Maragos我们在无序的未校准图像集中检查建筑场景的3D重建。我们引入线性方法进行自校准并找到相机对的度量重建。我们假设未知和不同的焦距,但是已知的内部相机参数和相机对的已知投影重建。我们在太空中恢复了两种可能的相机配置,并使用Cheirality条件,即所有3D场景点都位于两个相机的前面,以消除解决方案的歧义。我们在两个定理中展示,首先是两个解决方案处于镜像位置,然后是它们的观察方向之间的关系。我们的新方法使用标准方法Kruppa方程Delta R 3.77 circ进行自校准和5点算法进行相机中位数旋转误差Delta R 3.49 circ,用于相机对的校准度量重建。我们通过引入一种方法来检查错误的图像对应,以检查点对应是否沿着图像对中的x,y图像轴以相同的顺序出现。我们通过它的精确度和召回率来评估这种方法,并表明它提高了建筑和一般场景中点匹配的鲁棒性。最后,我们将所有引入的方法集成到3D重建管道中。我们利用旋转平均算法和平均焦距估计的新方法利用众多相机对度量重构。

Background Subtraction using Adaptive Singular Value Decomposition Authors G nther Reitberger, Tomas Sauer处理传感器数据时的一个重要任务是区分相关数据和不相关数据。本文描述了一种迭代奇异值分解的方法,该方法通过跨越图像空间子空间的奇异向量来维持背景模型,从而提供一种确定输入帧中包含的新信息量的方法。我们以计算有效的方式更新跨越背景空间的奇异向量,并提供执行块智能更新的能力,从而实现快速且稳健的自适应SVD计算。在定性和定量评估中都示出了这两种性质的效果以及整体方法在执行现有技术背景扣除方面的成功。

ProtoNet: Learning from Web Data with Memory Authors Yi Tu, Li Niu, Dawei Cheng, Liqing Zhang近年来,从网络数据中学习吸引了许多研究兴趣。然而,爬行的网络图像通常具有两种类型的噪声,标签噪声和背景噪声,这导致有效利用它们的额外困难。大多数现有方法要么依赖于人为监督,要么忽略背景噪声。在本文中,我们提出了新颖的ProtoNet,它能够一起处理这两种类型的噪声,而不需要在训练阶段监控干净的图像。特别是,我们使用内存模块来识别每个类别的代表性和判别性原型。然后,我们借助内存模块从Web数据集中删除噪声图像和噪声区域提议。我们的方法很有效,可以轻松集成到任意CNN模型中。对四个基准数据集的大量实验证明了我们方法的有效性。

BTEL: A Binary Tree Encoding Approach for Visual Localization Authors Huu Le, Tuan Hoang, Michael Milford由于相机技术和基于视觉的技术的最新进展,视觉定位算法已经在性能方面取得了显着的改进。然而,仍然存在一个关键的警告,基于图像检索的所有当前方法当前最大程度地与环境的大小线性地相关于存储,并且因此在大多数方法中,查询时间。这种限制严重削弱了自治系统在各种计算,功率,存储,尺寸,重量或成本受限应用(如无人机)中的能力。在这项工作中,我们提出了一种新的二叉树编码方法,用于视觉定位,可以作为现有量化和索引技术的替代方案。所提出的树结构允许我们导出压缩训练方案,该方案在所需存储和推理时间中实现子线性。可以容易地配置编码存储器以满足不同的存储约束。此外,我们的方法适用于可选的序列过滤机制,以进一步改善定位结果,同时保持相同的存储量。我们的系统与前端描述符完全无关,允许它在最新的最先进的图像表示之上使用。实验结果表明,该方法在有限的存储约束下明显优于现有技术方法。

Convolution Based Spectral Partitioning Architecture for Hyperspectral Image Classification Authors Ringo S.W. Chu, Ho Cheung Ng, Xiwei Wang, Wayne Luk高光谱图像HSI可以区分具有大量光谱带的材料,这在遥感应用中被广泛采用,并且在高精度土地覆盖分类中具有优势。然而,HSI处理与高维度和有限数量的标记数据的问题纠缠在一起。为了应对这些挑战,本文提出了一种深度学习架构,该架构使用三维卷积神经网络和谱分割来执行有效的特征提取。我们使用美国宇航局机载可见红外成像光谱仪获得的印度松树和萨利纳斯场景进行实验。与先前的结果相比,我们的架构显示了当前方法的分类结果的竞争性能。

A Utility-Preserving GAN for Face Obscuration Authors Hanxiang Hao, David G era, Amy R. Reibman, Edward J. Delp从电视新闻到谷歌街景,脸部蒙昧已被用于隐私保护。由于深度学习领域的最新进展,诸如高斯模糊和像素化之类的遮蔽方法不能保证隐藏身份。在本文中,我们提出了一种实用保留生成模型UP GAN,它能够提供有效的面部遮挡,同时保持面部效用。通过实用性保留,我们的意思是保留不显示身份的面部特征,例如年龄,性别,肤色,姿势和表情。我们表明,所提出的方法在遮蔽和实用性保存方面达到了最佳性能。

Datasets for Face and Object Detection in Fisheye Images Authors Jianglin Fu, Ivan V. Bajic, Rodney G. Vaughan我们提出了两个新的鱼眼图像数据集,用于训练面部和物体检测模型VOC 360和Wider 360.鱼眼图像是通过后处理从两个众所周知的数据集(VOC2012和Wider Face)收集的常规图像创建的,使用定期映射到鱼眼的模型在Matlab中实现的图像。 VOC 360包含39,575个鱼眼图像,用于物体检测,分割和分类。更广泛的360包含63,897个鱼眼图像用于面部检测。这些数据集将用于开发面部和物体检测器以及用于鱼眼图像的分割模块,同时正在努力收集和手动注释真实的鱼眼图像。

Homography from two orientation- and scale-covariant features Authors Daniel Barath, Zuzana Kukelova本文提出了角度和尺度的几何解释,其中定向和尺度协变特征检测器,例如, SIFT,提供。在比例和旋转上导出两个新的一般约束,可以在任何几何模型估计任务中使用。使用这些公式,引入了两个关于单应性估计的新约束。利用导出的方程,提出了用于从最小数量的两个对应关系估计单应性的求解器。此外,还示出了点对应的归一化如何影响旋转和比例参数,从而实现数值稳定的结果。由于仅需要两个特征对,所以可以使用稳健的估计器,例如,与使用四点算法相比,RANSAC的迭代次数要少得多。使用协变特征时,例如SIFT,有关比例和方向的信息是免费提供的。所提出的单应性估计方法在合成环境和公开可用的现实世界数据集中进行测试。

Learning from Discovering: An unsupervised approach to Geographical Knowledge Discovery using street level and street network images Authors Stephen Law, Mateo Neira最近的研究表明,机器学习方法在地理和城市分析中的使用越来越多,主要是从空间和时间数据中提取特征和模式。研究,将地理过程整合到机器学习模型中,利用地理信息来更好地解释这些方法的研究很少。这项研究有助于我们展示如何从无监督学习方法中学习的潜在变量可用于地理知识发现。特别是,我们提出了一种简单而新颖的方法,称为卷积PCA ConvPCA,它应用于街道和街道网络图像,找到一组不相关的视觉潜在响应。该方法允许使用地理和生成可视化的组合来探索潜在空间的有意义的解释,并且示出如何使用学习的嵌入来预测诸如街道级别封闭和街道网络密度的城市特征。

Data Extraction from Charts via Single Deep Neural Network Authors Xiaoyi Liu, Diego Klabjan, Patrick NBless从图表中自动提取数据具有挑战性,原因有两个,即图表中对象之间存在许多关系,这在一般计算机视觉问题中并不常见,并且不同类型的图表可能无法由同一模型处理。为了解决这些问题,我们提出了一个单一深度神经网络的框架,它由对象检测,文本识别和对象匹配模块组成。该框架处理条形图和饼图,并且还可以通过略微修改和扩充训练数据扩展到其他类型的图表。我们的模型在79.4的测试模拟条形图和88.0的测试模拟饼图上成功执行,而对于训练域之外的图表,它分别降低了57.5和62.3。

A synthetic dataset for deep learning Authors Xinjie Lan在本文中,我们提出了一种生成服从高斯分布的合成数据集的新方法。与具有未知分布的常用基准数据集相比,合成数据集具有明确的分布,即高斯分布。同时,它具有与基准数据集MNIST相同的特征。因此,我们可以轻松地在合成数据集上应用Deep Neural Networks DNN。该综合数据集提供了一种新的实验工具来验证所提出的深度学习理论。

Effective degrees of freedom for surface finish defect detection and classification Authors Natalya Pya Arnqvist, Blaise Ngendangenzwa, Eric Lindahl, Leif Nilsson, Jun Yu汽车工业中产品质量控制的主要问题之一是自动检测镜面车身表面上的小尺寸缺陷。针对特征提取和k近邻概率分类器的样条平滑方法,提出了一种新的表面完成缺陷检测统计学习方法。由于表面是镜面的,因此采用结构化闪电反射技术进行图像采集。降低的等级三次回归样条用于平滑像素值,而所获得的平滑的有效自由度用作特征向量的分量。该方法的一个关键优势是,当应用标准学习分类器时,它允许达到接近零的错误分类错误率。我们还提出基于概率的绩效评估指标作为传统指标的替代方案。这些的使用提供了用于分类器的预测性能的不确定性估计的手段。从位于瑞典Ume aa的沃尔沃GTO驾驶室工厂的试验系统获得的图像的实验分类结果表明,所提出的方法比比较方法更有效。

Video Action Classification Using PredNet Authors Roshan Rane, Vageesh Saxena, Edit Sz gyi在本文中,我们在Something something动作数据集上评估PredNet cite lotter16引用farzaneh18并实现PredNet,我们以多任务方式训练它以输出分类标签和预测。我们的想法是相互制定视频预测和行动分类。我们讨论了关于PredNet的一系列观察,并得出结论,它并不完全遵循预测编码框架的原则。

Comparing Machine Learning Approaches for Table Recognition in Historical Register Books Authors St phane Clinchant, Herv D jean, Jean Luc Meunier, Eva Lang, Florian Kleber我们在本文中提出了表格识别手册中的实验书籍。我们首先解释如何对行和列检测的问题进行建模,然后比较两种机器学习方法条件随机场和图形卷积网络来检测这些表元素。对Passau教区档案馆提供的死亡记录进行了评估。两种方法都显示相似的结果,89 F1得分,允许信息提取的质量。软件和数据集是开源数据。

A database for face presentation attack using wax figure faces Authors Shan Jia, Chuanbo Hu, Guodong Guo, Zhengquan Xu与2D面部呈现攻击相比,例如通过呈现3D特征或类似于真实面部的材料,3D打印照片和视频回放对于面部识别系统FRS来说更具挑战性。然而,现有的3D面部欺骗数据库主要基于3D掩模,由于生产困难和高成本而限于小数据大小或不良真实性。在这项工作中,我们引入了第一个蜡像人脸数据库WFFD,作为一种超现实的3D演示攻击来欺骗FRS。该数据库由2200张真实和蜡像面孔组成,共有4400张面孔,与在线收藏品有很大差异。该数据库的实验首先调查了三种流行的FRS对这种新攻击的脆弱性。此外,我们评估了几种面部呈现攻击检测方法的性能,以显示这种超逼真的面部欺骗数据库的攻击能力。

Lidar based Detection and Classification of Pedestrians and Vehicles Using Machine Learning Methods Authors Farzad Shafiei Dizaji本文的目的是将LiDAR传感器映射的对象分类为不同的类别,如车辆,行人和骑自行车的人。利用基于LiDAR的物体检测器和基于神经网络的分类器,基本上针对辅助自驾车辆识别和分类在驾驶过程中遇到的其他物体并且相应地进行,提出了一种新颖的实时物体检测。我们使用机器学习方法讨论我们的工作,以解决在自动驾驶汽车的机器学习应用中发现的常见高级问题,即从3D LiDAR传感器获得的pointcloud数据的分类。

InsectUp: Crowdsourcing Insect Observations to Assess Demographic Shifts and Improve Classification Authors L onard Boussioux, Tom s Giro Larraz, Charles Guille Escuret, Mehdi Cherti, Bal zs K gl昆虫在生态系统中发挥着如此重要的作用,即少数物种的人口变化会对环境,社会和经济层面产生破坏性后果。尽管如此,昆虫人口统计学的评估受到以足够规模收集人口普查数据的困难的严重限制。我们提出了一种方法来收集和利用旁观者,徒步旅行者和昆虫学爱好者的观察结果,以便为研究人员提供可以显着帮助预测和识别环境威胁的数据。最后,我们表明双方确实对这种合作感兴趣。

On Physical Adversarial Patches for Object Detection Authors Mark Lee, Zico Kolter在本文中,我们展示了针对物体探测器的物理对抗性补丁攻击,尤其是YOLOv3探测器。与先前关于物理对象检测攻击的工作不同,后者要求补丁与被错误分类的对象重叠或避免检测,我们表明正确设计的补丁几乎可以抑制图像中所有检测到的对象。也就是说,我们可以将贴片放置在图像中的任何位置,导致图像中的所有现有对象完全被探测器遗漏,即使远离贴片本身也是如此。这反过来又开启了针对物体检测系统的新线路物理攻击,这些物理攻击不需要修改场景中的物体。可以在以下位置找到该系统的演示

Classifying logistic vehicles in cities using Deep learning Authors Salma Benslimane, Simon Tamayo CAOR , Arnaud de La Fortelle CAOR 由于运输卡车和轻型商用车辆的使用正在发展,因此城市地区的交付和货运的快速增长正在增加。主要城市可以使用交通计数作为监控运载工具存在的工具,以实施智能城市规划措施。用于计数车辆的传统方法使用机械,电磁或气动传感器,但是这些装置昂贵,难以实施并且仅在不提供关于其类别,模型或轨迹的信息的情况下检测车辆的存在。本文提出了一种深度学习工具,用于在考虑不同类别的物流车辆(即轻型,中型和重型车辆)的同时对给定图像中的车辆进行分类。所提出的方法产生了两个主要贡献,首先我们开发了一个架构来创建一个注释和平衡的物流车辆数据库,减少了手动注释工作。其次,我们建立了一个分类器,可以准确地对通过给定道路的物流车辆进行分类。这项工作的结果首先是一个包含4个车辆类别的72 000个图像的数据库和第二个2个重新训练的卷积神经网络InceptionV3和MobileNetV2,能够对精度超过90的车辆进行分类。

Labeling, Cutting, Grouping: an Efficient Text Line Segmentation Method for Medieval Manuscripts Authors Michele Alberti, Lars Voe gtlin, Vinaychandran Pondenkandath, Mathias Seuret, Rolf Ingold, Marcus Liwicki本文介绍了一种基于深度学习的预分类和最新分割方法的文本行提取方法。复杂手写文档中的文本行提取对于最现代的计算机视觉算法提出了重大挑战。历史手稿是一类特别难以处理的文件,因为它们呈现出几种形式的噪音,例如降解,渗透,线性光泽和精心制作的文字。在这项工作中,我们提出了一种新的方法,它使用像素级的语义分割作为中间任务,然后是文本行提取步骤。我们在最近的挑战中世纪手稿的数据集上测量了我们的方法的性能,并通过将误差减少80.7来超越最先进的结果。此外,我们证明了我们的方法在用不同脚本编写的各种其他数据集上的有效性。因此,我们的贡献是两倍。首先,我们证明语义像素分割可以在执行文本行提取之前用作强去噪预处理步骤。其次,我们介绍了一种新颖,简单而强大的算法,该算法利用高质量的语义分段,在具有挑战性的数据集上实现99.42行IU的文本行提取性能。

HalalNet: A Deep Neural Network that Classifies the Halalness Slaughtered Chicken from their Images Authors A. Elfakharany, R. Yusof, N. Ismail, R. Arfa, M. Yunus食品中的清真要求对全世界数百万穆斯林来说非常重要,尤其是肉类和鸡肉产品,确保屠宰场遵守这一要求是一项具有挑战性的手工任务。在本文中,提出了一种方法,该方法使用摄像机在屠宰场的传送带上拍摄屠宰鸡的图像,然后通过深度神经网络分析图像,以分类图像是否是清真屠宰的鸡。然而,传统的深度学习模型需要大量的数据进行训练,在这种情况下,这些数据量很难收集特别是非清真屠宰鸡的图像,因此本文展示了如何使用一次性学习1和转移学习2可以在少量可用数据上达到高精度。所使用的体系结构基于Siamese神经网络体系结构,该体系结构对两个输入3之间的相似性进行排序,同时使用Xception网络4作为双网络。我们称之为HalalNet。这项工作是作为符合SYCUT syriah标准的屠宰系统的一部分完成的,该系统是一个监测系统,监测屠宰场屠宰鸡的清真度。用于培训和验证HalalNet的数据来自马来西亚雪兰莪的Azain屠宰场Semenyih,其中包含清真和非清真屠宰鸡的图像。

Fine-grained zero-shot recognition with metric rescaling Authors Boris N. Oreshkin, Negar Rostamzadeh, Pedro O. Pinheiro, Christopher Pal我们解决了学习细粒度交叉模态表示的问题。我们在联合视觉和文本空间中提出了基于实例的深度量学习方法。最重要的是,我们推导出一种度量重新缩放方法,它解决了广义零镜头学习设置中的一个非常常见的问题,即将来自看不见的类的测试图像分类为训练期间看到的类之一。我们在两个细粒度零射击学习数据集CUB和FLOWERS上评估我们的方法。我们发现,在广义零射击分类任务中,所提出的方法始终优于两个数据集上的现有方法。我们证明了所提出的方法,尽管其实施和培训简单,但优于我们所知的使用相同评估框架的所有最新技术方法。

Characterizing Bias in Classifiers using Generative Models Authors Daniel McDuff, Shuang Ma, Yale Song, Ashish Kapoor从现实世界数据中学习的模型通常是有偏见的,因为用于训练它们的数据是有偏见的。这可以传播存在的系统性人类偏见,并最终导致对人,特别是少数民族的不公平待遇。为了表征学习分类器中的偏差,现有方法依赖于人类神谕标记真实世界的例子来识别分类器的盲点,这些盲点由于所需的人工劳动和现有图像示例的有限性而最终受限。我们提出了一种基于模拟的方法,用于以系统的方式使用生成对抗模型来询问分类器。我们采用渐进式条件生成模型来合成照片逼真的面部图像和贝叶斯优化,以有效地查询独立的面部图像分类系统。我们展示了如何使用这种方法有效地表征商业系统中的种族和性别偏见。

Deep Eyedentification: Biometric Identification using Micro-Movements of the Eye Authors Lena A. J ger, Silvia Makowski, Paul Prasse, Sascha Liehr, Maximilian Seidler, Tobias Scheffer我们研究眼睛的无意识微动作以进行生物识别。虽然先前的研究从基于视频的眼睛跟踪系统的输出中提取较低频率的宏观运动并且设计这些宏观运动的显式特征,但是我们开发了一种处理原始眼睛跟踪信号的深度卷积结构。与先前的工作相比,网络的误码率降低了一个数量级,并且速度提高了两个数量级,可在几秒内准确识别用户。

Coloring With Limited Data: Few-Shot Colorization via Memory-Augmented Networks Authors Seungjoo Yoo, Hyojin Bahng, Sunghyo Chung, Junsoo Lee, Jaehyuk Chang, Jaegul Choo尽管最近在基于深度学习的自动着色方面取得了进步,但是当涉及到很少的镜头学习时,它们仍然是有限的。现有模型需要大量的训练数据。为了解决这个问题,我们提出了一种新颖的记忆增强色彩模型MemoPainter,它可以用有限的数据产生高质量的色彩。特别是,我们的模型能够捕获罕见的实例并成功着色它们。我们还提出了一种新的阈值三重态丢失,它可以在不需要类标签的情况下实现对存储器网络的无监督训练。实验表明,我们的模型在少量镜头和一次镜片着色任务中都具有卓越的品质。

A Preliminary Study on Data Augmentation of Deep Learning for Image Classification Authors Benlin Hu, Cheng Lei, Dong Wang, Shu Zhang, Zhenyu Chen深度学习模型具有大量的自由参数,需要通过对大量训练数据的模型进行有效训练来计算,以提高其泛化性能。然而,数据获取和标记在实践中是昂贵的。数据增加是缓解此问题的方法之一。在本文中,我们对三种变量增强方法,每个标签基本数据集的增大率和大小如何影响图像分类深度学习的准确性进行了初步研究。该研究提供了一些指导方针1,最好使用改变图像几何形状的转换,而不是那些只是照明和颜色的转换。 2 2 3倍的增强率足以进行训练。 3数据量越小,贡献就越明显。

Traffic Light Recognition Using Deep Learning and Prior Maps for Autonomous Cars Authors Lucas C. Possatti, R nik Guidolini, Vinicius B. Cardoso, Rodrigo F. Berriel, Thiago M. Paix o, Claudine Badue, Alberto F. De Souza, Thiago Oliveira Santos自主地面车辆必须能够感知交通灯并识别其当前状态以与人类驾驶员共享街道。大多数时候,人类驾驶员可以轻松识别相关的交通灯。为了解决这个问题,自动驾驶汽车的通用解决方案是将识别与先前的地图集成。然而,需要额外的解决方案来检测和识别交通信号灯。深度学习技术表现出很强的性能和泛化能力,包括与交通相关的问题。在深度学习的进步的推动下,一些最近的作品利用一些最先进的深度探测器来定位和进一步识别来自2D相机图像的交通灯。然而,它们都没有将基于深度学习的探测器的功率与先前的地图结合以识别相关交通灯的状态。在此基础上,这项工作提出将基于深度学习的检测功能与我们的汽车平台IARA首字母缩略词用于智能自主机器人汽车的先前地图相结合,以识别预定路线的相关交通信号灯。该过程分为两个阶段:地图构建和交通灯注释的离线阶段和交通灯识别和相关识别的在线阶段。拟议的系统在Vit ria市的五个测试案例路线上进行了评估,每个案例由视频序列和先前的地图组成,其中包含该路线的相关交通灯。结果表明,该技术能够正确识别沿轨迹的相关交通灯。

Robust Classification with Sparse Representation Fusion on Diverse Data Subsets Authors Chun Mei Feng, Yong Xu, Zuoyong Li, Jian Yang稀疏表示SR技术将测试样本编码为所有训练样本的稀疏线性组合,然后将测试样本分类为具有最小残差的类。 SR技术的分类取决于测试样本的表示能力。然而,这些模型中的大多数将测试样本的表示问题视为确定性问题,忽略了表示的不确定性。不确定性是由两个因素引起的,即样本中的随机噪声和样本集的内在随机性,这意味着如果我们捕获一组样本,所获得的样本集将在不同条件下不同。在本文中,我们提出了一种基于协同表示的新方法,它是SR的一个特殊实例,具有封闭形式的解决方案。它基于训练样本SRFDS的多样子集执行稀疏表示融合,减少了样本集随机性的影响,提高了分类结果的鲁棒性。所提出的方法适用于多种类型的数据,并且不需要任务的模式类型。此外,SRFDS不仅可以保留封闭形式的解决方案,还可以大大提高分类性能。各种数据集的有希望的结果可以作为SRFDS比其他基于SR的方法更好的性能的证据。可以访问SRFDS的Matlab代码

Identifying Emotions from Walking using Affective and Deep Features Authors Tanmay Randhavane, Aniket Bera, Kyra Kapsaskis, Uttaran Bhattacharya, Kurt Gray, Dinesh Manocha我们提出了一种新的数据驱动模型和算法,以根据他们的行走方式识别个体的感知情绪。给定个人行走的RGB视频,我们以一系列3D姿势的形式提取他的步行步态。我们的目标是利用步态特征将人类的情绪状态分为快乐,悲伤,愤怒或中立的四种情绪之一。我们的感知情绪识别方法基于使用通过LSTM在标记的情感数据集上学习的深层特征。此外,我们将这些特征与使用姿势和运动线索从步态计算出的情感特征相结合。使用随机森林分类器对这些特征进行分类。我们表明,我们在组合特征空间和感知情绪状态之间的映射在识别感知情绪方面提供了80.07的准确性。除了对离散的情绪类别进行分类之外,我们的算法还可以根据步态预测感知效价和觉醒的价值。我们还提供了一个EWalk Emotion Walk数据集,其中包含步态个体的步态和标记情绪的视频。据我们所知,这是第一个基于步态的模型,用于识别行走个体视频中的感知情绪。

Unsupervised Learning of Object Keypoints for Perception and Control Authors Tejas Kulkarni, Ankush Gupta, Catalin Ionescu, Sebastian Borgeaud, Malcolm Reynolds, Andrew Zisserman, Volodymyr Mnih计算机视觉中对象表示的研究主要集中在开发对图像分类,对象检测或语义分割有用的表示作为下游任务。在这项工作中,我们的目标是学习对控制和强化学习RL有用的对象表示。为此,我们引入了Transporter,一种神经网络架构,用于根据关键点或图像空间坐标发现简洁的几何对象表示。我们的方法通过使用关键点瓶颈在视频帧之间传输学习的图像特征,以完全无监督的方式从原始视频帧中学习。发现的关键点比最近的类似方法更准确地跟踪长时间视野中的对象和对象部分。此外,一致的长期跟踪使得控制域1中的两个显着结果使用关键点坐标和相应的图像特征作为输入使得高度样本有效的强化学习2通过控制关键点位置来学习探索大大减少了搜索空间,从而实现深入探索通过随机行动探索无法获得的状态,没有任何外在奖励。

Explicit Disentanglement of Appearance and Perspective in Generative Models Authors Nicki Skafte Detlefsen, S ren Hauberg解缠结的表示学习发现紧凑,独立且易于解释的数据因素。已经证明学习这样的需要归纳偏差,我们在图像的生成模型中明确地编码。具体来说,我们提出了一个带有两个潜在空间的模型,一个表示输入数据的空间变换,另一个表示变换后的数据。我们发现后者自然地捕获了数据的内在外观。为了实现生成模型,我们提出了一种变分推断的变换自动编码器VITAE,它将空间变换器结合到变分自动编码器中。我们展示了如何通过仔细设计编码器并将转换类限制为微分同构来有效地在模型中进行推理。根据经验,我们的模型将视觉风格与MNIST上的数字类型分开,并分离人体图像中的形状和姿势。

Style Generator Inversion for Image Enhancement and Animation Authors Aviv Gabbay, Yedid Hoshen培养高质量图像生成模型的主要动机之一是它们作为图像处理工具的潜在用途。最近,生成对抗性网络GAN已经能够生成具有显着质量的图像。不幸的是,经过对侧训练的无条件发电机网络作为图像先验并不成功。网络作为生成图像之前的主要要求之一是能够从目标分布生成每个可能的图像。对抗性学习经常会出现模式崩溃,这表现在无法生成某些目标分布模式的生成器中。通常不满足的另一个要求是可逆性,即在给定所需输出图像的情况下具有找到有效输入潜码的有效方式。在这项工作中,我们表明,与早期的GAN不同,最近提出的样式生成器很容易反转。我们使用这个重要的观察来提出样式生成器作为通用图像先验。我们展示了样式生成器优于其他GAN以及Deep Image Prior作为图像增强任务的先驱。由样式生成器跨越的潜在空间满足线性身份姿势关系。潜在的空间线性与可逆性相结合,使我们能够在没有监督的情况下为静止的面部图像制作动画。进行了大量实验以支持本文的主要贡献。

Comparing Energy Efficiency of CPU, GPU and FPGA Implementations for Vision Kernels Authors Murad Qasaimeh, Kristof Denolf, Jack Lo, Kees Vissers, Joseph Zambreno, Phillip H. Jones开发高性能嵌入式视觉应用程序需要平衡运行时性能和能量限制。鉴于存在用于嵌入式计算机视觉的硬件加速器的混合,例如多核CPU,GPU和FPGA及其相关的供应商优化视觉库,开发人员在这个分散的解决方案空间中进行导航成为一项挑战。为了帮助确定哪种嵌入式平台最适合其应用,我们对各种视觉内核的运行时性能和能效进行了全面的基准测试。我们讨论了为什么给定的底层硬件架构根据一系列视觉内核类别的特性天生地表现良好或不良的原理。具体来说,我们的研究是针对嵌入式视觉应用ARM57 CPU,Jetson TX2 GPU和ZCU102 FPGA的三种常用硬件加速器,使用其供应商优化的视觉库OpenCV,VisionWorks和xfOpenCV。我们的结果表明,与简单内核的GPU相比,GPU的能量帧减少率为1.1 3.2倍。对于更复杂的内核和完

标签: 双向转换磁电式速度传感器sz

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台