今日CS.CV 计算机视觉论文速读 Tue, 9 Apr 2019 (showing first 100 of 124 entries) Totally 100 papers ?上期速览 ?更精彩请移动主页
Interesting:
?基于核纠正迭代的盲超分辨率, 提出了一种退化核未知盲超分辨过程的迭代核纠正方法。效果优于直接估计退化核,并提出了基于空间特征的变换层处理多个模糊核。 (from 香港中文) 比较现有方法: 一些效果:
?CameraSR, 调整内部参考,从相机镜头的角度平衡分辨率和视角之间的关系,构建分辨率和视角的超分辨率隐藏模型,用于反问题的研究。Digital Single Lens ReflexDSLR在手机相机中进行了实验。用高分辨率相纸打印收集City100数据集。(from 中科大) 基于双三次降采样和分辨率-视角模型的降采样: dataset:https://github.com/ngchc/CameraSR
?Point Attention Transformers,PATs, 可以处理大小变化的输入,实现与类别无关的采样方法Gumbel Subset Sampling(GSS),在点云中选择最具代表性的点。(from 上海交大 ) 应用: DVS128 Gesture Dataset ref:Gumbel:https://blog.csdn.net/a358463121/article/details/80820878
?加权点云增强系统用于处理样本不平衡, (from 伦敦大学学院) 基于点云增强的结果来自点云增强Semantic3D和ScanNet在pointnet 下的结果:
?ShapeMask, 新物体的分割是通过提炼形状先验来实现的。首先使用bbox估计目标的形状先验,然后利用目标特征进行粗糙的优化mask,最后,特征先验,精炼精细mask分割。(from Google Brain Berkeley) 一些结果:
?FoveaBox不基于锚点的目标检测方法, 直接学习物体的可能性和框架的位置,而无需锚定。主要通过预测类别敏感目标的可能性语义图,生成与类别无关的框架。框架的尺寸与金字塔的特性有关。这种方法是COCO上实现了42.1的高mAP。(from 清华) 馈入NMS可能性图和相应的框架可以在输出前获得。 与各种丰富的比较:
?Kervolutional Neural Networks, 提出了一种 基于和的卷积(kernel convolution)研究卷积操作中的非线性过程,使卷积操作更加通用,提高模型表达能力和提取特征的能力。(from 南洋理工) 以核函数为基础KNN计算:
?ANTNets, 为了解决网络表达能力下降的问题,研究人员提出了参数和计算量(MAdds)架构模块较少ANTBlock,Attention NesTed Network,在高维空间中,用较少的参数保持模型的表达能力CIFAR100上实现了75.7%的top1精度,比MobileV2高75.7%,参数和计算FLOPS更少、(from 威斯康辛·麦迪逊大学) 实验结果如下:
?深度图卷积网络, 图卷积对非欧洲空间数据有很好的效果,但由于梯度消失,网络深度非常浅。研究人员利用类似卷积中的残差和密集连接概念实现了56层GCN,并在点云分割任务中提升3.7%的mIOU(from KAUST) project:https://sites.google.com/view/deep-gcns
?基于RGBD估计表面法向量, 基于自适应特征授权方法的分层集成网络用于实现表面法向量估计。彩色和深度图像的多尺度操作保证了图像的连续性和图像中物体的显著性。同时,深度图和信心图的结合可以重新授权,缓解人工痕迹。(from 商汤 北理工 ) 一些结果和比较: 数据集:Matterport3D and ScanNet dataset
?VATEX, 大规模高质量的多语言视觉语言数据集(from UCSB) 它包括基于视频的多语言视频标记和机器翻译任务:
? SYSU-30k,弱监督行人重新识别的新基准 (from 中山大学) 基于弱监督ReID重识别方法:
相关数据集:
Daily Computer Vision Papers
A Closer Look at Few-shot ClassificationAuthors Wei Yu Chen, Yen Cheng Liu, Zsolt Kira, Yu Chiang Frank Wang, Jia Bin Huang 几个镜头分类的目的是学习一个分类器,在训练过程中用有限的标签示例识别看不见的课程。虽然取得了重大进展,但网络设计、元学习算法的日益复杂和实施细节的差异使得公平更加困难。在本文中,我们对几种具有代表性的镜头分类算法进行了一致的比较分析。结果表明,更深层次的主干显著降低了数据集有限差异的性能差异。两种改进的基线方法令人惊讶地实现了竞争性能和miniI和CUB对比数据集中的现有技术,3是评估少数镜头分类算法跨域泛化能力的新实验设置。我们的结果表明,当特征骨干较浅时,减少类内变异是一个重要因素,但在使用更深的骨干时则不那么重要。在实际的跨域评估设置中,我们表明,与其他现有技术的少数镜头学习算法相比,使用标准微调实践的基线方法是有益的。 |
Relational Action ForecastingAuthors Chen Sun, Abhinav Shrivastava, Carl Vondrick, Rahul Sukthankar, Kevin Murphy, Cordelia Schmid 本文重点关注视频中多人动作预测。更准确地说,给定H之前帧的历史的目标是测试演员并预测他们未来对下一帧的动作。我们的方法是通过构建循环图来模拟不同参与者之间的时间和空间相互作用,以便更快地使用R CNN行动者提议作为节点。学会在没有明确监督的情况下选择判断关系的子集,使我们能够处理具有挑战性的视觉数据。我们称我们的模型为判断关系循环网络DRRN。对AVA的动作预测的评估证明了我们提出的方法与更简单的基线相比的有效性。另外,我们有了显著的改进J HMDB早期行动分类任务的性能,从以前SOTA 48到60。 |
Least-squares registration of point sets over SE (d) using closed-form projectionsAuthors Sk. Miraj Ahmed, Niladri Ranjan Das, Kunal Narayan Chaudhury 考虑在一些d维空间中使用旋转和平移注册多个点集的问题。假设有一个共同点的集合,并且已知该集合是相应的。我们考虑这个问题的最小二乘公式,其中变量与点集有关的变换。目前的新颖性是我们将这个非凸问题简化为优于半正半圆的优化,其中目标是线性的,但约束仍然是非凸的。我们建议使用变量分裂和乘法器ADMM的交替方向方法来解决这个问题。由于目标的线性和约束的结构,ADMM子问题由具有闭合形式解的投影给出。特别地,对于m个点集,每次迭代的主要成本是md乘以md矩阵的部分特征分解,以及d乘以d矩阵的m 1奇异值分解。我们根据经验表明,对于适当的参数设置,所提出的求解器具有较大的收敛流域并且在扰动下是稳定的。作为应用程序,我们使用我们的方法进行2D形状匹配和3D多视图注册。在任一应用中,我们将形状扫描建模为点集,并使用ICP确定成对对应关系。特别地,我们的算法在时间和精度方面与用于多视图重建的现有方法相比是有利的。 |
Log-barrier constrained CNNsAuthors Hoel Kervadec, Jose Dolz, Jing Yuan, Christian Desrosiers, Eric Granger, Ismail Ben Ayed 本研究调查了对CNN的输出施加不等式约束以进行弱监督分割。在深度网络的一般环境中,约束通常用惩罚方法处理,因为它们简单,并且尽管它们具有众所周知的限制。拉格朗日优化在惩罚方法方面具有良好的理论和实践优势,但在很大程度上避免了深度CNN,这主要是由于交替随机优化和双重更新引起的计算复杂性和稳定性收敛问题。最近的几项研究表明,在深度CNN的背景下,拉格朗日优化优于简单惩罚的理论优势在实践中并未实现,其表现令人惊讶地更糟。 |
Pushing the Envelope for RGB-based Dense 3D Hand Pose Estimation via Neural RenderingAuthors Seungryul Baek, Kwang In Kim, Tae Kyun Kim 由于固有的2D 3D映射模糊和有限的训练数据,估计来自单个RGB图像的3D手网是具有挑战性的。我们采用紧凑的参数化3D手模型,代表可变形和铰接式手形网格。为了实现适合RGB图像的模型,我们以三种方式进行研究和贡献1神经渲染受到最近人体工作的启发,我们的手网格估计器HME由神经网络和可微分渲染器实现,由2D分割掩模和3D监督骷髅。 HME表现出良好的性能,可用于估计不同的手形并提高姿势估计的准确性。 2迭代测试改进我们的拟合功能是可微分的。我们在迭代模型拟合方法(如ICP)的精神中,使用梯度迭代地细化初始估计。这一想法得到了人体最新研究的支持。 3自我数据增强收集大小的RGB网格或分割掩模骨架三联体用于训练是一个很大的障碍。一旦模型成功地适合输入RGB图像,其网格即形状和关节是逼真的,并且我们在估计的密集手部姿势之上增加视点。使用三个基于RGB的基准测试的实验表明,我们的框架提供了超出3D姿态估计的最先进精度,以及恢复密集的3D手形状。上述每个技术组件都有意义地提高了消融研究的准确性。 |
Unsupervised learning of action classes with continuous temporal embeddingAuthors Anna Kukleva, Hilde Kuehne, Fadime Sener, Juergen Gall 最近,人们越来越关注在未修剪的视频中临时检测和分割动作的任务。在这种情况下的一个问题源于需要定义和标记动作边界以创建用于训练的注释,这是非常耗费时间和成本的。为了解决这个问题,我们提出了一种无监督的方法,用于从未修剪的视频序列中学习动作类。为此,我们使用框架特征的连续时间嵌入来受益于活动的顺序性。基于嵌入创建的潜在空间,我们在所有视频中识别对应于语义有意义的动作类的时间片段的集群。该方法在三个具有挑战性的数据集上进行评估,即早餐数据集,YouTube说明和50Salads数据集。虽然之前的作品假设视频包含相同的高级活动,但我们进一步表明,所提出的方法也可以应用于视频内容未知的更一般的设置。 |
Revisiting EmbodiedQA: A Simple Baseline and BeyondAuthors Yu Wu, Lu Jiang, Yi Yang 在Embodied Question Answering EmbodiedQA中,代理与环境交互以收集回答用户问题所需的信息。现有的工作为解决这个有趣的问题奠定了坚实的基础。但目前的表现,尤其是导航表现,表明EmbodiedQA可能对目前的方法来说太具挑战性。在本文中,我们通过实证研究了这个问题并引入了一个简单而有效的基线,可以通过SGD 2进行端到端优化,为EmbodiedQA提供了一个更简单实用的设置,其中代理有机会将训练过的模型适应新环境它实际上回答用户的问题。在新设置中,我们在新环境中随机放置一些对象,并通过蒸馏网络升级代理策略,以保留训练模型的泛化能力。在EmbodiedQA v1基准测试中,在标准设置下,我们的简单基线在新设置中获得了与现有技术水平相当的非常有竞争力的结果,我们发现设置中引入的微小变化会在导航中产生显着的增益。 |
Robust Alignment for Panoramic Stitching via an Exact Rank ConstraintAuthors Yuelong Li, Mohammad Tofighi, Vishal Monga 我们研究了全景拼接的图像对齐问题。与大多数基于特征的现有方法不同,我们的算法直接对像素进行处理,并在全局范围内解决整个图像的错误。从技术上讲,我们将对齐问题表示为秩1,并对变换图像进行稀疏矩阵分解,并开发出一种有效的算法来解决这一具有挑战性的非凸优化问题。该算法简化为求解一系列子问题,我们在分析中建立精确的恢复条件,收敛性和最优性,以及收敛速度和复杂度。我们将其概括为同时对齐多个图像并恢复多个单应性,将其应用范围扩展到绝大多数实际场景。实验结果表明,与现有技术相比,所提出的算法能够更精确地对准图像并生成更高质量的拼接图像。 |
Learning monocular depth estimation infusing traditional stereo knowledgeAuthors Fabio Tosi, Filippo Aleotti, Matteo Poggi, Stefano Mattoccia 单个图像的深度估计代表了无数应用中令人着迷但具有挑战性的问题。最近的工作证明,这项任务可以在没有直接监督地面真实标签的情况下学习,利用序列或立体对上的图像合成。着眼于第二种情况,在本文中,我们利用立体匹配来改进单眼深度估计。为此,我们提出了monoResMatch,这是一种新颖的深度架构,旨在通过从不同的视角合成特征,与输入图像水平对齐,在单个输入图像中推断深度,在两个线索之间执行立体匹配。与以前分享这一理论基础的作品相比,我们的网络是第一个从头开始结束的训练端。此外,我们展示了如何通过传统的立体算法(例如半全局匹配)获得代理地面实况注释,通过保持自我监督的方法,能够实现更准确的单眼深度估计,从而抵消对昂贵的深度标签的需求。详尽的实验结果证明了所提出的monoResMatch架构和ii代理监督之间的协同作用如何获得自监督单眼深度估计的现有技术。该代码可在以下网站公开获取 |
Weighted Point Cloud Augmentation for Neural Network Training Data Class-ImblanceAuthors David Griffiths, Jan Boehm 最近在3D数据深度学习领域的发展已经证明了直接从点云进行端到端学习的巨大潜力。然而,由于在自然界中观察到的自然类im平衡,许多现实世界点云包含大类im平衡。例如,城市环境的3D扫描将主要由道路和立面组成,而其他对象如杆将不足。在本文中,我们通过使用加权扩充来增加包含较少点的类来解决此问题。通过减少数据中存在的类im平衡,我们证明了标准PointNet深度神经网络可以在验证数据的推断上实现更高的性能。这被观察到两个测试基准数据集ScanNet和Semantic3D的F1得分分别增加19和25,其中没有执行类别im余额预处理。我们的网络在高代表性和低代表性类别上表现更好,这表明当损失函数不过度暴露于少数类时,网络正在学习更强大和有意义的特征。 |
Leveraging the Invariant Side of Generative Zero-Shot LearningAuthors Jingjing Li, Mengmeng Jin, Ke Lu, Zhengming Ding, Lei Zhu, Zi Huang 传统的零射击学习ZSL方法通常学习嵌入(例如,视觉语义映射)以通过间接方式处理看不见的视觉样本。在本文中,我们利用生成对抗网络GAN的优势,提出了一种新的方法,称为利用不变边GAN LisGAN,它可以直接生成由语义描述条件限制的随机噪声中看不见的特征。具体来说,我们训练一个条件Wasserstein GAN,其中发生器合成来自噪声的假看不见的特征,鉴别器通过minimax游戏区分假和真实。考虑到一种语义描述可以对应于各种合成的视觉样本,并且语义描述(比喻性地)是生成特征的灵魂,我们将灵魂样本作为生成零射击学习的不变侧进行介绍。灵魂样本是一个类的元表示。它可视化同一类别中每个样本的最具语义意义的方面。我们规定每个生成的样本生成ZSL的变化侧应该接近至少一个灵魂样本,其中不变侧与其具有相同的类标签。在零射击识别阶段,我们建议使用两个分级器,它们以级联方式部署,以实现粗略到精细的结果。对五个流行基准测试的实验证实,我们提出的方法可以在显着改进的情况下优于最先进的方法。 |
ContextDesc: Local Descriptor Augmentation with Cross-Modality ContextAuthors Zixin Luo, Tianwei Shen, Lei Zhou, Jiahui Zhang, Yao Yao, Shiwei Li, Tian Fang, Long Quan 大多数关于学习局部特征的研究都集中在基于补丁的个体关键点描述上,而忽略了从关键点位置建立的空间关系。在本文中,我们通过引入上下文感知来扩展本地特征描述符,从而超越了本地细节表示。具体来说,我们提出了一个统一的学习框架,它利用和聚合交叉模态上下文信息,包括来自高级图像表示的i视觉上下文,以及来自2D关键点分布的ii几何上下文。此外,我们提出了一种有效的N对损失,它避开了经验超参数搜索并改善了收敛性。与原始局部特征描述相比,所提出的增强方案是轻量级的,同时在几个具有多样化场景的大规模基准上得到显着改善,这在几何匹配应用中表现出强大的实用性和泛化能力。 |
Nucleus Neural Network for Super Robust LearningAuthors Jia Liu, Maoguo Gong, Haibo He 模拟大脑神经元和连接结构的人工神经网络在许多问题上取得了巨大的成功,特别是那些深层的问题。在本文中,我们提出了一个核神经网络NNN和相应的架构和参数学习方法。在细胞核中,没有规则层,即神经元可以连接到细胞核中的所有神经元。这种架构摆脱了层次限制,可能会带来更强大的学习能力。确定给定众多神经元的连接至关重要。基于更相关的输入和输出神经元对值得更高的连接密度的原理,我们提出了核的架构学习模型。此外,我们提出了一种改进的学习方法,用于学习连接权重和偏差与优化的体系结构。我们发现这种新颖的架构对于测试数据中不相关的组件是健壮的。因此,我们定义了一个超级健壮的学习问题,并测试了所提出的网络,其中一个案例是训练和测试集中的图像背景类型不同。实验表明,所提出的学习者在重建数据集上实现了对传统学习者的显着改进。 |
Weakly Supervised Semantic Segmentation of Satellite ImagesAuthors Adrien Nivaggioli, Hicham Randrianarivo CEDRIC 当想要训练神经网络来执行语义分割时,为数据库中的每个图像创建像素级注释是一项繁琐的任务。如果他使用通常非常大的航拍或卫星图像,情况会更糟。考虑到这一点,我们研究如何使用图像级注释来执行语义分割。获取图像级注释要比像素级注释便宜得多,但是我们为模型的训练丢失了大量信息。从图像的注释中,模型必须自己找到如何对图像的不同区域进行分类。在这项工作中,我们使用Anh和Kwak 1提出的方法从图像级注释产生像素级注释。我们将生成的数据集的整体质量与原始数据集进行比较。此外,我们提出了AffinityNet的改编版,它允许我们直接执行语义分割。我们的结果表明,生成的标签在几个分割网络的训练中具有相同的性能。此外,AffinityNet和随机漫步直接执行的语义分割的质量接近于最好的全监督方法之一。 |
Simultaneous Spectral-Spatial Feature Selection and Extraction for Hyperspectral ImagesAuthors Lefei Zhang, Qian Zhang, Bo Du, Xin Huang, Yuan Yan Tang, Dacheng Tao 在高光谱遥感数据挖掘中,重要的是考虑光谱和空间信息,例如光谱特征,纹理特征和形态特性,以改善性能,例如图像分类精度。在特征表示的角度来看,处理这种情况的一种自然方法是将光谱和空间特征连接成单个但高维度的矢量,然后直接在该连接矢量上应用某种降维技术,然后将其输入后续分类器。然而,来自不同领域的多个特征肯定具有不同的物理意义和统计特性,因此这种连接不能有效地探索不同特征之间的互补特性,这将有利于提高特征可辨性。此外,还难以解释级联向量的变换结果。因此,找到具有物理意义的共识低原始多特征的低维特征表示仍然是一项具有挑战性的任务。为了解决这些问题,我们提出了一种新颖的特征学习框架,即同时光谱空间特征选择和提取算法,用于高光谱图像光谱空间特征表示和分类。具体地,所提出的方法通过将光谱空间特征投影到共同特征空间来学习潜在的低维子空间,其中互补信息已被有效地利用,同时,仅变换了最重要的原始特征。在三个公共可用的高光谱遥感数据集上鼓励实验结果证实了我们提出的方法是有效和高效的。 |
VayuAnukulani: Adaptive Memory Networks for Air Pollution ForecastingAuthors Divyam Madaan, Radhika Dua, Prerana Mukherjee, Brejesh Lall 由于各种来源,包括工厂排放,汽车尾气和炉灶,空气污染是全球领先的环境健康危害。作为预防措施,空气污染预测是采取有效污染控制措施的基础,准确的空气污染预测已成为一项重要任务。在本文中,我们根据中央污染控制委员会报告的历史和实时环境空气质量和气象数据,预测德里5个显着位置的细粒度环境空气质量信息。我们提出了VayuAnukulani系统,这是一种新颖的端到端解决方案,通过估算德里的二氧化氮NO 2,颗粒物PM 2.5和PM 10等不同空气污染物的浓度和水平来预测未来24小时的空气质量。在德里获得的关于数据源的大量实验表明,所提出的基于自适应注意的双向LSTM网络优于分类和回归模型的几个基线。所提出的自适应系统的准确性比相同的离线训练模型更好。我们在几个竞争基线上比较了所提出的方法,并表明网络优于传统方法的sim 3 5。 |
Adaptive Morphological Reconstruction for Seeded Image SegmentationAuthors Tao Lei, Xiaohong Jia, Tongliang Liu, Shigang Liu, Hongying Meng, Asoke K. Nandi 形态重建MR通常用于种子图像分割算法,例如分水岭变换和功率分水岭,因为它能够过滤种子区域最小值以减少过度分割。然而,MR可能错误地过滤了生成精确分割所需的有意义的种子,并且它也对比例敏感,因为采用单一比例结构元素。本文提出了一种新的自适应形态重建AMR操作,具有三个优点。首先,AMR可以自适应地过滤无用的种子,同时保留有意义的种子。其次,AMR对结构元素的规模不敏感,因为采用了多尺度结构元素。最后,AMR具有两个有吸引力的属性单调增加和收敛,有助于种子分割算法实现分层分割。实验清楚地表明AMR可用于改进种子图像分割和基于种子的光谱分割的算法。与几种现有技术算法相比,所提出的算法提供了更好的分割结果,需要更少的计算时间。源代码可在以下位置获得 |
Meta Filter Pruning to Accelerate Deep Convolutional Neural NetworksAuthors Yang He, Ping Liu, Linchao Zhu, Yi Yang 现有方法通常利用预定义的标准,例如p norm,来修剪不重要的过滤器。这些方法有两个主要限制。首先,过滤器的关系在很大程度上被忽略了。过滤器通常共同工作以协作方式进行准确预测。类似的滤波器将对网络预测产生相同的影响,并且可以进一步修剪冗余滤波器。其次,修剪标准在训练期间保持不变。随着网络在每次迭代时更新,过滤器分布也会不断变化。修剪标准也应该自适应地切换。在本文中,我们提出了Meta Filter Pruning MFP来解决上述问题。首先,作为对现有p范数准则的补充,我们引入了一种新的修剪标准,考虑了滤波器关系的滤波器关系。此外,我们为过滤器修剪构建了一个元修剪框架,以便我们的方法可以在过滤器分布发生变化时自适应地选择最合适的修剪标准。实验验证了我们在两个图像分类基准上的方法。值得注意的是,在ILSVRC 2012上,我们的MFP在ResNet 50上减少了超过50个FLOP,仅有0.44个前5个精度损失。 |
Kervolutional Neural NetworksAuthors Chen Wang, Jianfei Yang, Lihua Xie, Junsong Yuan 卷积神经网络CNN在许多计算机视觉任务中实现了最先进的性能。然而,很少有人致力于在非线性空间中建立卷积。现有工作主要利用激活层,激活层只能提供逐点非线性。为了解决这个问题,引入了一种新的操作,即kervolution内核卷积,以利用内核技巧来近似人类感知系统的复杂行为。它概括了卷积,增强了模型容量,并通过补丁核心函数捕获了特征的更高阶交互,但没有引入额外的参数。广泛的实验表明,kervolutional神经网络KNN比基线CNN获得更高的准确性和更快的收敛。 |
Improving Image Classification Robustness through Selective CNN-Filters Fine-TuningAuthors Alessandro Bianchi, Moreno Raimondo Vendra, Pavlos Protopapas, Marco Brambilla 图像质量在基于CNN的图像分类性能中起着重要作用。对于大型网络,使用失真样本对网络进行微调可能成本太高。为了解决这个问题,我们提出了一种优化的转移学习方法,以便考虑到在CNN的每一层中,某些滤波器比其他滤波器更容易受到图像失真的影响。我们的方法识别最易受影响的滤波器,并仅对在清洁和失真图像之间显示最高激活图距离的滤波器应用重新训练。使用Borda计数选择方法对过滤器进行排名,然后仅对受影响最大的过滤器进行微调。这显着减少了重新训练的参数数量。我们在CIFAR 10和CIFAR 100数据集上评估这种方法,在两种不同的模型和两种不同类型的失真上进行测试。结果表明,由于减少了微调参数的数量,所提出的传递学习技术由于输入数据失真而以相当快的速度恢复了大部分丢失的性能。当为训练提供很少的噪声样本时,我们的滤波器级微调表现得特别好,也优于现有技术的层级传输学习方法。 |
Variational Uncalibrated Photometric Stereo under General LightingAuthors Bjoern Haefner, Zhenzhang Ye, Maolin Gao, Tao Wu, Yvain Qu au, Daniel Cremers 如今,光度立体PS技术仍然受限于理想的实验室设置,其中照明的建模和校准是合适的。这项工作旨在消除这种限制。为此,我们在一般照明下引入了未校准PS的有效原理变分方法,该方法通过二阶球谐函数展开来近似。形状,反射率和光照的联合恢复被公式化为变分问题,其中形状估计直接根据基础透视深度图执行,从而隐含地确保可积性并且绕过对后续正常积分的需要。我们提供量身定制的数值方案,以有效和稳健地解决由此产生的非凸问题。在各种评估中,与现有技术相比,我们的方法始终将平均角度误差减小了2倍。 |
Minimal Solvers for Mini-Loop Closures in 3D Multi-Scan AlignmentAuthors Pedro Miraldo, Surojit Saha, Srikumar Ramalingam 在诸如Kinect和Velodyne之类的3D传感器的背景下,3D扫描配准是经典但非常有用的问题。虽然存在若干现有方法,但是这些技术通常是递增的,其中首先登记相邻扫描以获得初始姿势,然后进行运动平均和束调整细化。在本文中,我们采用了不同的方法,并开发了最小的求解器,用于联合计算小循环(如3,4和5个循环)中摄像机的初始姿态。注意,可以使用最少3点匹配来完成2次扫描的经典配准,以计算6度的相对运动。另一方面,为了共同计算n个周期中的3D配准,我们在前n个连续对之间进行2点匹配,即扫描1扫描2,...,扫描n 1扫描n和1或2个点匹配在扫描1和扫描之间。总的来说,我们使用5,7和10个点匹配3,4和5个循环,并分别恢复12,18和24度的变换变量。使用模拟和真实数据,我们表明使用mini n循环的3D配准在计算上是有效的,并且与标准成对方法相比可以提供替代的和更好的初始姿势。 |
Sim-Real Joint Reinforcement Transfer for 3D Indoor NavigationAuthors Fengda Zhu, Linchao Zhu, Yi Yang 人们对3D室内导航越来越感兴趣,其中环境中的机器人根据指令移动到目标。要在物理世界中部署用于导航的机器人,需要大量的培训数据来学习有效的策略。为训练机器人获得足够的真实环境数据是非常劳动密集的,而合成数据通过渲染更容易构建。虽然有利于利用合成环境来促进现实世界中的导航训练,但真实环境在两个方面与合成环境不同。首先,两种环境的视觉表示具有显着的差异。其次,这两种环境的计划是完全不同的。有两种类型的信息,即。视觉表现和政策行为,需要在强化模型中进行调整。视觉表征和政策行为的学习过程可能是互惠的。我们建议联合调整视觉表现和政策行为,以利用环境和政策的相互影响。具体而言,我们的方法采用对抗特征适应模型进行视觉表示转移,并采用政策模仿策略进行政策行为模仿。实验表明,我们的方法在19.47之前优于基线,没有任何额外的人类注释。 |
From Patch to Image Segmentation using Fully Convolutional Networks - Application to Retinal ImagesAuthors Taibou Birgui Sekou, Moncef Hidane, Julien Olivier, Hubert Cardot 通常,基于深度学习的模型需要大量样本用于适当的训练,这在医学领域难以满足。通过正确初始化权重,通常可以避免此问题。在一般的医学图像分割任务中,通常采用两种技术来解决深度网络f T的训练。第一个包括重新使用在大规模数据库上预训练的网络的一些权重,例如, ImageNet。这个过程,也称为文本传输学习,恰好会降低新网络设计的灵活性,因为f T被约束为匹配f S的某些部分。第二种常用技术包括处理图像补丁以从大量可用补丁中受益。本文将这两种技术结合起来,并提出培训任意设计的网络,重点是相对较小的数据库,分两阶段补丁预训练和全尺寸图像微调。利用四个公开可用的数据库,对视网膜血管分割和视盘血管分割的任务进行了实验工作。此外,考虑三种类型的网络,从非常轻的网络到密集连接的网络。最终结果显示了所提出的框架的效率以及所有数据库的最新结果。 |
Referring to Objects in Videos using Spatio-Temporal Identifying DescriptionsAuthors Peratham Wiriyathammabhum, Abhinav Shrivastava, Vlad I. Morariu, Larry S. Davis 本文提出了一个新的任务,即视频中时空识别描述的基础。以前的工作表明现有数据集存在潜在偏差,并强调需要新的数据创建模式来更好地模拟语言结构。我们引入了一种基于表面实现的语法约束的新数据收集方案,使我们能够研究视频中基于时空识别描述的基础问题。然后,我们提出了一个双流模块化注意网络,该网络基于外观和运动来学习和理论时空识别描述。我们展示了运动模块有助于地面运动相关单词,也有助于学习外观模块,因为模块化神经网络解决了模块之间的任务干扰。最后,我们提出了一个未来的挑战,并需要一个强大的系统,因为用自动视频对象检测器和时间事件定位替换地面真实视觉注释。 |
Streamlined Dense Video CaptioningAuthors Jonghwan Mun, Linjie Yang, Zhou Ren, Ning Xu, Bohyung Han 密集视频字幕是一项极具挑战性的任务,因为视频中事件的准确和连贯的描述需要全面了解视频内容以及个别事件的上下文推理。大多数现有方法通过首先从视频中检测事件提议然后对提议的子集进行字幕处理来处理该问题。结果,生成的句子倾向于冗余或不一致,因为它们不能考虑事件之间的时间依赖性。为了应对这一挑战,我们提出了一种新颖的密集视频字幕框架,它可以明确地模拟视频中事件的时间依赖性,并利用先前事件的视觉和语言环境进行连贯的叙事。该目标通过1整合事件序列生成网络以自适应地选择事件提议序列来实现,并且2将事件提议序列馈送到我们的顺序视频字幕网络,该网络通过强化学习在两个事件和两个级别奖励进行训练。剧集级别用于更好的上下文建模。在大多数指标中,所提出的技术在ActivityNet Captions数据集上实现了出色的性能。 |
Noise-Aware Unsupervised Deep Lidar-Stereo FusionAuthors Xuelian Cheng, Yiran Zhong, Yuchao Dai, Pan Ji, Hongdong Li 在本文中,我们介绍了LidarStereoNet,这是第一个无监督的激光雷达立体融合网络,可以在不需要地面实况深度图的情况下以端到端的方式进行训练。通过引入一种新颖的反馈回路将网络输入与输出连接起来,LidarStereoNet可以解决现有激光雷达立体声融合研究中忽略的噪声激光雷达点和传感器之间的不对准问题。此外,我们建议将分段平面模型结合到网络学习中,以进一步约束深度以符合基础3D几何。对真实和合成数据集进行广泛的定量和定性评估,证明了我们的方法的优越性,该方法优于现有技术的立体匹配,深度完成和激光雷达立体融合方法。 |
Unsupervised Deep Epipolar Flow for Stationary or Dynamic ScenesAuthors Yiran Zhong, Pan Ji, Jianyuan Wang, Yuchao Dai, Hongdong Li 用于光流计算的无监督深度学习已经取得了有希望的结果。大多数现有的基于深度网的方法依赖于图像亮度一致性和局部平滑度约束来训练网络。它们的性能在重复纹理或遮挡发生的区域会降低。在本文中,我们提出了Deep Epipolar Flow,一种无监督的光流方法,它将全局几何约束结合到网络学习中。特别是,我们研究了在流量估算中强制执行极线约束的多种方法。为了减轻在可能存在多个运动的动态场景中遇到的鸡和蛋类型问题,我们提出了低秩约束以及用于训练的子空间约束的并集。各种基准数据集的实验结果表明,与监督方法相比,我们的方法实现了竞争性能,并且优于现有技术的无监督深度学习方法。 |
Decomposition-Based Transfer Distance Metric Learning for Image ClassificationAuthors Yong Luo, Tongliang Liu, Dacheng Tao, Chao Xu 距离度量学习DML是图像分析和模式识别的关键因素。为了学习目标任务的鲁棒距离度量,我们需要丰富的辅助信息,即标记数据上的相似性不相似成对约束,这在实践中通常由于高标签成本而不可用。本文通过利用来自某些相关但不同的源任务的大量辅助信息来考虑转移学习设置,以帮助仅用少量辅助信息进行目标度量学习。最先进的度量学习算法通常在此设置中失败,因为源任务和目标任务的数据分布通常非常不同。我们通过假设目标距离度量位于由源度量或其他随机生成的基数的特征向量跨越的空间中来解决该问题。目标度量表示为基本度量的组合,其使用源度量的分解的组件或仅仅是我们称为所提出的方法的基于分解的传递DML DTDML的一组随机碱来计算。特别是,DTDML通过强制目标度量接近源度量的集成来学习基本度量的稀疏组合以构建目标度量。与现有的传递度量学习方法相比,所提出的方法的主要优点是我们直接学习基础度量系数而不是目标度量。为此,需要学习的变量要少得多。因此,鉴于有限的辅助信息,我们获得了更可靠的解决方案,并且优化趋于更快。对流行的手写图像数字,字母分类和挑战自然图像注释任务的实验证明了该方法的有效性。 |
Weakly Supervised Person Re-identification: Cost-effective Learning with A New BenchmarkAuthors Guangrun Wang, Guangcong Wang, Xujie Zhang, Jianhuang Lai, Liang Lin 人员识别ReID极大地受益于现有数据集的准确注释,例如CUHK03引用li2014deepreid和Market 1501引用zheng2015scalable,这非常昂贵,因为必须为这些数据集中的每个图像分配适当的标签。在这项工作中,我们探索通过用不准确的注释替换准确的注释来简化ReID的注释,即,我们将图像按时间分组为袋子并为每个袋子分配袋子级别标签。这大大减少了注释工作量,并导致创建称为SYSU 30 k的大规模ReID基准测试。新基准包含30k类人员,比CUHK03 1.3k类别和市场1501 1.5k类别大约20倍,ImageNet 1k类别大30倍。它总共达到了29,606,918张图片。使用行级注释学习ReID模型称为弱监督的ReID问题。为了解决这个问题,我们引入条件随机字段CRF来捕获包中所有图像的依赖关系,并为每个人图像生成可靠的伪标签。伪标签还用于监督ReID模型的学习。与完全监督的ReID模型相比,我们的方法在SYSU 30 k和其他数据集上实现了最先进的性能。代码,数据集和预训练模型将在线提供。 |
Weakly Supervised Person Re-IdentificationAuthors Jingke Meng, Sheng Wu, Wei Shi Zheng 在传统的人物设置中,假设标记图像是每个个体的边界框内的人物图像,这种来自原始视频监视的多个非重叠相机视图上的标记是昂贵且耗时的。为了克服这个困难,我们考虑弱监督的人物重建模型。弱设置是指将目标人物与未修剪的画廊视频匹配,其中我们仅知道身份出现在视频中而不需要在训练过程期间在视频的任何帧中注释身份。因此,对于视频,可能存在多个视频级标签。我们将这个弱受监督的人员重新挑战转变为多实例多标签学习MIML问题。特别地,我们开发了一种Cross View MIML CV MIML方法,该方法能够通过结合袋内对齐和交叉视图袋对齐来探索来自所有相机视图的潜在的类内人物图像。最后,将CV MIML方法嵌入到现有的深度神经网络中,以开发Deep Cross View MIML Deep CV MIML模型。我们已经进行了大量的实验来证明所提出的弱监督设置的可行性,并验证了我们的方法与四个弱标记数据集的相关方法相比的有效性。 |
Ensemble Teaching for Hybrid Label PropagationAuthors Chen Gong, Dacheng Tao, Xiaojun Chang, Jian Yang 标签传播旨在通过相似性图形迭代地将标记信息从标记示例扩散到未标记示例。当前标签传播算法不能始终如一地产生令人满意的性能,原因有两个原因:一种是单一传播方法在处理各种实际数据时的不稳定性,另一种是不适当的传播序列,忽略了不同实例的标记困难。为了弥补上述缺陷,本文提出了一种新的传播算法,即在HyDEnT集成教学下称为混合扩散。具体而言,HyDEnT将多种传播方法作为基础学习者集成,以充分利用其个人智慧,这有助于HyDEnT稳定并获得一致的令人鼓舞的结果。更重要的是,HyDEnT在一群教师的指导下进行传播。也就是说,在每个传播回合中,最简单的课程示例由教学算法明智地指定,使得他们的标签可以由学习者可靠且准确地确定。为了最佳地选择这些最简单的例子,整体中的每位教师都应该从自己的角度全面考虑这些例子的困难,以及所有教师共有的共同知识。这是通过设计的优化问题来实现的,该优化问题可以通过块坐标下降法有效地解决。由于教师的努力,所有未标记的示例在逻辑上从简单传播到困难,导致HyDEnT的传播质量比现有方法更好。 |
Towards Real-Time Automatic Portrait Matting on Mobile DevicesAuthors Seokjun Seo, Seungwoo Choi, Martin Kersner, Beomjun Shin, Hyungsuk Yoon, Hyeongmin Byun, Sungjoo Ha 我们解决了移动设备上自动纵向遮罩的问题。所提出的模型旨在实现对移动设备的实时推断,同时模型性能的降低最小。我们的模型MMNet基于具有线性瓶颈块的多分支扩张卷积,优于现有技术模型,并且速度提高了几个数量级。该模型可以加速四次,在小米米5设备上达到30 FPS,梯度误差适度增加。在相同条件下,我们的模型的参数数量减少了一个数量级,并且比Mobile DeepLabv3更快,同时保持了相当的性能。随附的实施可以在网址找到 |
Visual Localization Using Sparse Semantic 3D MapAuthors Tianxin Shi, Shuhan Shen, Xiang Gao, Lingjie Zhu 在各种观察条件变化(包括季节和照明变化以及天气和夜间变化)下,准确而强大的视觉定位是许多计算机视觉和机器人应用的关键组成部分。在这些条件下,大多数传统方法都无法定位相机。在本文中,我们提出了一种视觉定位算法,它将基于结构的方法和基于图像的方法与语义信息相结合。给定关于查询和数据库图像的语义信息,根据3D模型和查询图像的语义一致性对检索到的图像进行评分。然后将语义匹配分数用作RANSAC采样的权重,并通过标准PnP求解器求解姿势。对具有挑战性的长期视觉定位基准数据集的实验表明,与现有技术相比,我们的方法具有显着的改进。 |
FoveaBox: Beyond Anchor-based Object DetectorAuthors Tao Kong, Fuchun Sun, Huaping Liu, Yuning Jiang, Jianbo Shi 我们介绍FoveaBox,一个准确,灵活,完全无锚的物体检测框架。虽然几乎所有现有技术的物体检测器都利用预定义的锚点来枚举用于搜索物体的可能的位置,比例和纵横比,但是它们的性能和概括能力也限于锚的设计。相反,FoveaBox直接学习对象现有的可能性和边界框坐标而没有锚引用。这是通过为对象存在的可能性预测类别敏感的语义映射来实现的,并且b为可能包含对象的每个位置生成类别不可知的边界框。目标框的比例自然地与每个输入图像的特征金字塔表示相关联。在没有花里胡哨的情况下,FoveaBox在标准COCO检测基准上实现了42.1 AP的最先进的单一模型性能。特别是对于具有任意宽高比的物体,与基于锚的探测器相比,FoveaBox带来了显着的改进。更令人惊讶的是,当受到拉伸测试图像的挑战时,FoveaBox对于改变的边界框形状分布表现出很强的鲁棒性和泛化能力。该代码将公开发布。 |
Resource Constrained Neural Network Architecture SearchAuthors Yunyang Xiong, Ronak Mehta, Vikas Singh 神经网络架构的设计通常基于使用试验误差和经验反馈的人类专业知识,或者通过在不同的离散架构选择上运行的大规模强化学习策略来解决。在后一种情况下,优化任务是不可微分的,也不太适合衍生自由优化方法。目前使用的大多数方法都需要过高的计算资源。如果我们想要额外满足资源限制的网络,则上述挑战会加剧,因为搜索程序现在必须在准确性与资源的某些预算约束之间取得平衡。我们将这个问题表述为集合函数的优化,我们发现这个集合函数的经验行为经常但并不总是满足子模块化思想中的边际增益和单调性原则属性。基于这种观察,我们调整离散优化中众所周知的算法,以获得神经网络架构搜索的启发式方案,对架构有资源限制。这种简单的方案应用于CIFAR 100和ImageNet时,可以识别资源受限的架构,其性能可以比为移动设备设计的当前最先进的模型具有更好的性能。具体来说,我们通过更快的搜索方法找到具有更少参数和计算的高性能体系结构。 |
ANTNets: Mobile Convolutional Neural Networks for Resource Efficient Image ClassificationAuthors Yunyang Xiong, Hyunwoo J. Kim, Varsha Hedau 深度卷积神经网络在计算机视觉方面取得了显着成功。然而,深度神经网络需要大量计算资源才能实现高性能。尽管深度可分离卷积可以是接近标准卷积的有效模块,但它通常会导致网络的代表能力降低。在本文中,在计算成本MAdds和参数计数等预算约束下,我们提出了一种新的基本架构块ANTBlock。它通过在高维空间中对ANTBlocks中的深度卷积层和投影层之间的通道的相互依赖性进行建模来提高表征能力。我们的实验表明,由一系列ANTBlock构建的ANTNet始终优于跨多个数据集的最先进的低成本移动卷积神经网络。在CIFAR100上,我们的模型实现了75.7的前1精度,比MobileNetV2高1.5,参数减少8.3,计算成本减少19.6。在ImageNet上,我们的模型实现了72.8的前1精度,这是0.8改进,在iPhone 5s上比MobileNetV2快157.7ms 20。 |
Meta-Learning with Differentiable Convex OptimizationAuthors Kwonjoon Lee, Subhransu Maji, Avinash Ravichandran, Stefano Soatto 许多用于少数镜头学习的元学习方法依赖于简单的基础学习者,例如最近邻分类器。然而,即使在少数射击机制中,经过有区别训练的线性预测器也可以提供更好的泛化。我们建议使用这些预测器作为基础学习者来学习少数镜头学习的表示,并表明它们在一系列镜头识别基准测试中提供了特征尺寸和性能之间更好的权衡。我们的目标是学习在新的类别的线性分类规则下很好地概括的特征嵌入。为了有效地求解目标,我们利用线性分类器的两个性质隐式区分凸问题的最优性条件和优化问题的双重表达式。这允许我们使用高维嵌入,并且在适度增加计算开销的情况下具有改进的泛化。我们的方法名为MetaOptNet,在miniImageNet,tieredImageNet,CIFAR FS和FC100少数镜头学习基准测试中实现了最先进的性能。 |
Can GCNs Go as Deep as CNNs?Authors Guohao Li, Matthias M ller, Ali Thabet, Bernard Ghanem 卷积神经网络CNN在各种领域取得了令人瞩目的成果。他们的成功得益于能够训练非常深的CNN模型的巨大推动力。尽管取得了积极的成果,但CNN未能正确解决非欧几里德数据的问题。为了克服这一挑战,图形卷积网络GCN构建图表来表示非欧几里德数据,并从CNN借用概念并应用它们来训练这些模型。 GCN显示出有希望的结果,但由于梯度消失问题,它们仅限于非常浅的模型。因此,大多数现有技术的GCN算法都不会超过3或4层。在这项工作中,我们提出了成功训练非常深的GCN的新方法。我们从CNN借用概念,主要是残余密集连接和扩张卷积,并使它们适应GCN架构。通过大量实验,我们展示了这些深度GCN框架的积极作用。最后,我们使用这些新概念构建了一个非常深的56层GCN,并展示了它在点云语义分割任务中如何显着提升3.7 mIoU的性能。项目网站可在 |
Measuring Human Perception to Improve Handwritten Document TranscriptionAuthors Samuel Grieggs, Bingyu Shen, Pei Li, Cana Short, Jiaqi Ma, Mihow McKenny, Melody Wauke, Brian Price, Walter Scheirer 视觉科学家通过使用心理物理学来衡量人类感知的微妙之处,是视觉识别内部运作的重要线索。例如,测量的反应时间可以指示视觉刺激是否容易被主体识别,或者是否很难。在本文中,我们考虑如何将视觉感知的心理物理测量结合到被训练用于识别任务的深度神经网络的损失函数中,假设这样的信息可以强制与人类行为的一致性。作为评估这种方法可行性的案例研究,我们研究了手写文档转录的问题。虽然在自动转录现代笔迹方面取得了良好进展,但在抄写历史文件方面仍存在重大挑战。在这里,我们致力于为中世纪手稿提供全面的转录解决方案,将使用我们的新型损失公式训练的网络与自然语言处理元素相结合。在基线评估中,标准IAM和RIMES数据集的可靠性能得到了证明。此外,我们继续展示我们对先前发布的数据集和数字化拉丁文手稿的新数据集的可行性,这些数据集最初是由9世纪中叶的圣加尔修道院的文士制作的。 |
Planar Geometry and Latest Scene Recovery from a Single Motion Blurred ImageAuthors Kuldeep Purohit, Subeesh Vasu, M. Purnachandra Rao, A. N. Rajagopalan 关于运动去模糊的现有工作要么忽略深度相关模糊的影响,要么假设多层场景,其中每个层以前平行平面的形式建模。在这项工作中,我们考虑具有分段平面结构的3D场景的情况,即,可以被建模为具有任意取向的多个平面的组合的场景。我们首先提出一种从单个运动模糊观察中估计平面场景的法线的方法。然后,我们开发一种算法,用于自动恢复多个平面,对应于每个平面的参数,以及来自多平面3D场景的单个运动模糊图像的相机运动。最后,我们提出了第一种通过采用基于我们的研究结果的交替最小化框架来恢复场景的平面几何和潜像的方法。对合成和真实数据的实验表明,我们提出的方法达到了最先进的结果。 |
A Novel Apex-Time Network for Cross-Dataset Micro-Expression RecognitionAuthors Min Peng, Chongyang Wang, Tao Bi, Tong Chen, XiangDong Zhou, Yu shi 自成功引入深度学习方法以来,微表达的自动识别得到了提升。虽然研究这些主题的研究人员越来越倾向于从微观表达的本质中学习,但使用深度学习技术的实践已经从处理微表达的整个视频剪辑发展到顶点框架上的识别。使用顶点框架能够摆脱冗余信息,但是因此省略了微表达的时间证据。在本文中,我们建议基于来自顶点帧的空间信息以及来自各个相邻帧的时间信息进行识别。因此,提出了一种新颖的Apex时间网络ATNet。通过对三个基准测试的广泛实验,我们通过添加从顶点框架周围的相邻帧学习的时间信息来证明所实现的改进。特别地,具有这种时间信息的模型在交叉数据集验证中更加健壮。 |
Unsupervised Domain Adaptation for Multispectral Pedestrian DetectionAuthors Dayan Guan, Xing Luo, Yanpeng Cao, Jiangxin Yang, Yanlong Cao, George Vosselman, Michael Ying Yang 多模态信息(例如,可见和热)可以生成稳健的行人检测以便于全天候计算机视觉应用,例如自动驾驶和视频监视。然而,在没有手动注释的情况下训练可靠的探测器在不同的多光谱行人数据集中工作仍然是一个至关重要的挑战。在本文中,我们提出了一种用于多光谱行人检测的新型无监督域自适应框架,通过迭代生成伪注释并更新我们设计的多目标行人探测器在目标域上的参数。使用在源域上训练的检测器生成伪注释,然后通过固定检测器的参数并最小化交叉熵损失而不反向传播来更新伪注释。通过考虑良好对齐的可见和红外图像对之间的相似性和互补性的特征,使用伪注释生成训练标签。通过使用反向传播最小化我们定义的多检测损失函数,使用生成的标签更新检测器的参数。在迭代更新伪注释和参数之后,可以获得检测器的最佳参数。实验结果表明,我们提出的无监督多模态域自适应方法比没有域自适应的方法具有更高的检测性能,并且与监督的多光谱行人检测器相比具有竞争力。 |
Robust Building-based Registration of Airborne LiDAR Data and Optical Imagery on Urban ScenesAuthors Thanh Huy Nguyen, Sylvie Daniel, Didier Gueriot, Christophe Sintes, Jean Marc Le Caillec 本文的动机是解决在不同时间,不同观点和细节层面登记从不同平台获取的机载激光雷达数据和光学天线或卫星图像的问题。在本文中,我们提出了一种基于建筑区域的稳健配准方法,使用均值移位分割从光学图像中提取,并使用3D点云滤波过程从LiDAR数据中提取。然后使用图形变换匹配GTM执行所提取的建筑物片段的匹配,其允许确定片段中心的相对位置的共同模式。由于这种注册,数据集之间的相对位移显着减少,这使得随后的精确配准和由此产生的高质量数据融合成为可能。 |
Real-Time Quality Assessment of Pediatric MRI via Semi-Supervised Deep Nonlocal Residual Neural NetworksAuthors Siyuan Liu, Kim Han Thung, Weili Lin, Pew Thian Yap, DinggangShen 在本文中,我们介绍了儿童T1和T2加权MR图像的图像质量评估IQA方法。首先使用非局部残留神经网络NR Net以切片方式执行IQA,然后通过使用随机森林对切片QA结果进行聚集来逐卷地进行。我们的方法仅需要少量用于训练的高质量注释图像,并且被设计为对由于评估者错误以及图像体积中的好的和坏的切片的不可避免的混合而可能发生的注释噪声具有鲁棒性。使用一小组质量评估图像,我们预先训练NR Net以初始质量等级来注释每个图像切片,即通过,可疑,失败,然后我们通过半监督学习和迭代自我训练来改进。实验结果表明,我们的方法仅使用适度大小的样本进行训练,具有很好的通用性,能够实现每体积大规模IQA的实时毫秒,并具有接近完美的精度。 |
Learning to Learn Relation for Important People Detection in Still ImagesAuthors Wei Hong Li, Fa Ting Hong, Wei Shi Zheng 人类可以很容易地认识到人们在社交活动图像中的重要性,他们总是关注最重要的个体。然而,学习如何学习图像中人与人之间的关系,并根据这种关系推断出最重要的人,仍未得到发展。在这项工作中,我们提出了一个深刻的关联NeTwork POINT,它结合了关系建模和特征学习。特别地,我们推断两种类型的交互模块:人员交互模块,其学习人与人之间的交互,并且事件人交互模块学习描述人如何参与图像中发生的事件。然后,我们估计来自两个交互的人们之间的重要性关系,并从重要性关系中编码关系特征。通过这种方式,POINT自动并行地学习几种类型的关系特征,并将这些关系特征和人的特征进行聚合,形成重要人物分类的重要性特征。广泛的实验结果表明,我们的方法对于重要人群的检测和验证学习关系的有效性对于重要人群的检测是有效的。 |
Adaptive NMS: Refining Pedestrian Detection in a CrowdAuthors Songtao Liu, Di Huang, Yunhong Wang 人群中的行人检测是一个非常具有挑战性的问题。本文通过一种新颖的非最大抑制NMS算法来解决这个问题,以更好地改进探测器给出的边界框。贡献是三倍1我们提出自适应NMS,它将动态抑制阈值应用于实例,根据目标密度2我们设计了一个有效的子网来学习密度分数,可以方便地嵌入到单级和两级探测器中3我们在CityPersons和CrowdHuman基准测试中取得了最先进的成果。 |