AI视野·今日CS.CV 计算机视觉论文速读 Tue, 8 Jun 2021 (showing first 100 of 133 entries) Totally 100 papers ???更多精彩请移步主页
Daily Computer Vision Papers
SIMONe: View-Invariant, Temporally-Abstracted Object Representations via Unsupervised Video Decomposition Authors Rishabh Kabra, Daniel Zoran, Goker Erdogan, Loic Matthey, Antonia Creswell, Matthew Botvinick, Alexander Lerchner, Christopher P. Burgess为了帮助代理构建场景的原因,我们希望特别提取任何给定场景的组成结构,包括场景对象的配置和特征。在估计代理S位置的观点时,当需要推断场景时,这个问题特别困难,因为两个变量共同引起了代理的观察。我们对这个问题提出了一种无监督变分的方法。利用不同场景中存在的共享结构,学习我们的模型RGB视频输入两组潜在表示,单组对象潜伏,对应场景时间不变,对象级内容和一组帧延迟,对应整体时间变化元素,如视角。这种分解允许我们的模型Simone,对象属性的分类不依赖于视角。此外,它允许我们分解对象的动态,并随着时间的抽象检查不变,总结每个对象的属性。这些功能集中在三个程序生成的视频数据中,以及在查看合成和实例分段时的模型性能。 |
Mean-Shifted Contrastive Loss for Anomaly Detection Authors Tal Reiss, Yedid Hoshen学习正常和异常样品之间分离的深度异常检测方法。在强大的外部训练特征提取器中,得到非常有效的表示。预先培训的内存在想象中培训是微调的,该训练数据包括正常样本和没有异常。然而,这是一项能够遭受灾难性崩溃的艰巨任务,即容易学习微不足道和非特定功能。本文提出了一种能够克服中心损失和比较损失方法的失效模式。此外,我们将其与相信度不变的角度损失相结合,取代了以往工作中使用的欧几里德距离,对预测信心非常敏感。基于纺织品意味着对比损失,我们的改进产生了一种新的异常检测方法,比以前的方法更准确、更敏感。我们的方法是CIFAR 10数据集上实现了在多个基准上的艺术异常检测性能的状态,包括97.5 ROC AUC。 |
NTIRE 2021 Challenge on Burst Super-Resolution: Methods and Results Authors Goutam Bhat, Martin Danelljan, Radu Timofte, Kazutoshi Akita, Wooyeong Cho, Haoqiang Fan, Lanpeng Jia, Daeshik Kim, Bruno Lecouat, Youwei Li, Shuaicheng Liu, Ziluan Liu, Ziwei Luo, Takahiro Maeda, Julien Mairal, Christian Micheloni, Xuan Mo, Takeru Oba, Pavel Ostyakov, Jean Ponce, Sanghyeok Son, Jian Sun, Norimichi Ukita, Rao Muhammad Umer, Youliang Yan, Lei Yu, Magauiya Zhussip, Xueyi Zou本文评论了NTIRE超级分辨率爆发的挑战是2021年。鉴于原始噪声的爆发作为输入,挑战中的任务是生成一个干净的RGB图像,分辨率是4倍。挑战包括对综合生成的数据进行评估,以及对移动摄像头真实世界的突然跟踪2。在最后的测试阶段,六支队伍用不同的解决方案提交了结果。顶部执行方法为突发超分辨率任务设定了新的最新状态。 |
High Resolution Solar Image Generation using Generative Adversarial Networks Authors Ankan Dash, Junyi Ye, Guiling Wang我们应用了被称为生成的对抗网络GAN深度学习算法转换太阳能图像。换句话说,太阳能动力学天文台SDO Helioseismic和磁成像仪HMI视线磁力照片图像到SDO大气成像组件AIA 0304图像。紫外线紫外线紫外线紫外线紫外线紫外线紫外线紫外线紫外线紫外线紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外紫外EUV观测,如SDO AIA即使是20世纪70年代以来的0304图像SDO HMI等Magenetic田间观测只能为科学家提供科学家。因此,通过使用图像GAN对于这种深度学习算法,我们可以为科学家提供完整的数据集进行分析。我们使用它来生成高分辨率的太阳能图像PIX2PIXHD和PIX2PIX算法。 PIX2PIXHD该算法专门为高分辨率图像生成设计任务PIX2PIX该算法是迄今为止图像转换算法中使用最广泛的图像。我们使用了2012年、2013年和2014年的数据进行培训和测试。结果表明,我们的深度学习模型可以从HMI磁图产生高分辨率1024 x 1024像素AIA0304图像。具体地,PIX2PIXHD由原始图像生成的图像的像素PEARSON相关系数的像素高达0.99。如果PIX2PIX用于生成图像的数字为0.962。我们的PIX2PIXHD模型的结果优于以前由他人完成的以前作品的结果AIA0304图像。因此,我们可以使用这些模型AIA0304数据时生成AIA0304图像可用于了解空间天气,并给研究人员预测太阳能事件的能力(如大量太阳能耀斑和冠状喷射)。据我们所知,我们的作品是第一次尝试使用Pix2Pixhd算法将SDO HMI算法到SDO AIA从图像转换到0304。 |
3DB: A Framework for Debugging Computer Vision Models Authors Guillaume Leclerc, Hadi Salman, Andrew Ilyas, Sai Vemprala, Logan Engstrom, Vibhav Vineet, Kai Xiao, Pengchuan Zhang, Shibani Santurkar, Greg Yang, Ashish Kapoor, Aleksander Madry我们介绍3DB采用光保护模拟测试和调试视觉模型,可扩展统一框架。通过广泛的应用展示,3DB允许用户在计算机视觉系统中发现漏洞,并在模型做出决策时获得意见。 3DB捕获并总结了许多现有工作的稳定性分析,并利用一个人来研究它们的相互作用。最后,我们发现了系统转移到物理世界的观点。 |
Visual Transformer for Task-aware Active Learning Authors Razvan Caramalau, Binod Bhattarai, Tae Kyun Kim基于池的主动学习采样代表了在处理深度学习模型时注释信息数据的关键框架。在本文中,我们提出了一种基于池的主动学习的新管道。与以往的工作不同,我们的方法是在培训期间使用可访问的未标记示例来估计与标记示例的相同关系。本文的另一项贡献是将视觉变压器视为AL管道中采样器。可视变压器在标记和未标记的示例之间模拟非本地视觉概念依赖性,这对于识别影响的未标记示例至关重要。另外,与现有方法相比,学习者和采样器以多阶段方式培训,我们建议将它们培训,以意识到的方式,这使得可以将潜在空间转换为两个单独的任务,该任务将其分类为另一个单独的任务区分标签方向。我们评估了我们在四种不同具有挑战性的分类基准的工作和检测任务viz的工作。 CiFar10,CiFar100,FashionMnist,Rafd和Pascal VOC 2007.我们广泛的实证和定性评估表明了与现有方法相比我们的方法的优越性。可用的代码 |
DoubleField: Bridging the Neural Surface and Radiance Fields for High-fidelity Human Rendering Authors Ruizhi Shao, Hongwen Zhang, He Zhang, Yanpei Cao, Tao Yu, Yebin Liu我们介绍了Doublefield,一种新颖的表示,结合了高保真人类渲染的表面场和辐射场的优点。在DoubleField中,表面字段和辐射字段通过共享特征嵌入和表面引导采样策略相关联。通过这种方式,Doublefield具有用于几何和外观建模的持续但不诚度的学习空间,支持快速训练,推理和芬降。为了实现高保真性的无视点渲染,进一步增强了DoubleField以利用超高分辨率输入,其中介绍了从原始分辨率处的稀疏视图输入的更有效的学习和传输学习方案的视图。通过几个数据集的定量评估验证了Doublefield的功效,并且在真实世界稀疏多视图系统中的定性结果,显示了其优越的照片现实自由观点人类渲染能力。对于代码和演示视频,请参阅我们的项目页面 |
Drone-based AI and 3D Reconstruction for Digital Twin Augmentation Authors Alex To, Maican Liu, Muhammad Hazeeq Bin Muhammad Hairul, Joseph G. Davis, Jeannie S.A. Lee, Henrik Hesse, Hoang D. Nguyen数字双胞胎是一个处于行业4.0的最前沿的新兴技术,最终目标是结合物理空间和虚拟空间。迄今为止,数字双胞胎概念已应用于许多工程领域,在工程设计,制造,自动化和建筑业的领域提供有用的见解。虽然各种技术的Nexus与数字双胞胎开辟了新的机会,但该技术需要一个框架来整合不同的技术,例如建筑和建筑行业的建筑信息模型。在这项工作中,提出了一种信息融合框架,以从所涉及的各种技术的数字双胞胎框架中无缝熔断异构组件。本研究旨在通过使用无人驾驶航空公司的AI和3D重建来增加建筑物中的数字双胞胎。我们提出了一种具有可重用和可定制组件的无人机的数字双增强框架。还开发了概念证明,并且对AI的3D重建和应用进行了广泛的评估,用于缺陷检测。 |
CDN-MEDAL: Two-stage Density and Difference Approximation Framework for Motion Analysis Authors Synh Viet Uyen Ha, Cuong Tien Nguyen, Hung Ngoc Phan, Nhat Minh Chung, Phuong Hoai Ha背景技术建模是具有各种视频监控应用的视频分析中的一个有前途的研究领域。近年来通过运动分析中的有效学习方法目睹了深神经网络的扩散。然而,这些技术仅提供对观察到的场景的有限描述,其特性不足,其中学习单个值映射以近似目标背景的时间条件平均值。另一方面,图像域中的统计学习已经成为最普遍的方法之一,具有高适应动态背景变换,特别是高斯混合模型,与前景提取步骤相结合。在这项工作中,我们提出了一种新颖的,两阶段的改变检测方法,具有两个卷积神经网络。第一个架构基于无监督的高斯混合统计学习,以描述景观特征。第二个实现了前景检测的重量级管线。我们的两个阶段框架总共包含大约3.5k的参数,但仍然保持快速收敛到复杂的运动模式。我们在公开可用的数据集上的实验表明,我们的建议网络不仅能够在未知的案例中概括移动物体的区域,并且在具有前景效率和关于前景分割的效率方面也具有竞争力。 |
Digital Taxonomist: Identifying Plant Species in Citizen Scientists' Photographs Authors Riccardo de Lutio, Yihang She, Stefano D Aronco, Stefania Russo, Philipp Brun, Jan D. Wegner, Konrad Schindler自动识别业余照片的植物标本可以改善物种范围地图,从而支持生态系统的研究以及保护努力。然而,仅基于图像数据的分类植物标本挑战某些物种在视觉外观上表现出大的变化,而在同时不同的物种通常在视觉上相似,物种观察遵循高度不平衡的,由于丰富的差异而遵循高度不平衡的长尾分布。以及观察者偏见。另一方面,大多数物种观察伴随着关于空间,时间和生态背景的侧面信息。此外,生物物种不是无序的类别列表,而是嵌入分类分类结构。我们提出了一种机器学习模型,该模型考虑了统一框架中的这些额外的提示。我们的数字分类家能够更正确地识别照片中的植物物种。 |
Learning Dynamics via Graph Neural Networks for Human Pose Estimation and Tracking Authors Yiding Yang, Zhou Ren, Haoxiang Li, Chunluan Zhou, Xinchao Wang, Gang Hua多人姿态估计和跟踪作为视频理解的关键步骤。最先进的技术方法依赖于每个帧中的首先估计姿势,并且仅实现数据关联和细化。尽管取得了有希望的成果,但这种策略不可避免地忽略了尤其是在严重杂乱的场景中错过的检测,因为通过自然来说,这种追踪是基本上依赖于在闭塞的情况下不存在的视觉证据。在本文中,我们提出了一种新的在线方法来学习姿势动态,它们与当前名称的姿势检测无关,因此即使在包括遮挡的具有挑战性的情况下也可以作为稳健的估计。具体而言,我们通过图形神经网络GNN从明确地占空间时间和视觉信息的图形GNN来实现这种动态预测。它需要输入历史姿势轨迹,并且直接预测每个轨道的以下帧中的相应姿势。然后将预测的姿势将被检测到的姿势(如果有)在同一帧处聚合,以便产生最终姿势,可能恢复估计器错过的遮挡关节。 Posetrack 2017和Posetrack 2018数据集的实验表明,该方法在人类姿势估算和跟踪任务中实现了优于现有技术的结果。 |
Few-Shot Unsupervised Image-to-Image Translation on complex scenes Authors Luca Barras, Samuel Chassot, Daniel Filipe Nunes Silva未经监督的图像到图像翻译方法在过去几年中受到了很多关注。出现了解决不同观点的初始挑战的多种技术。一些专注于从几个目标样式图像中学习的焦点,而其他目标风格图像在其他利用对象检测,以便在内容丰富的场景中产生更现实的结果。在这项工作中,我们评估最初用于单个对象翻译的方法如何在更多样化和丰富的图像上执行。我们的作品基于Funit 1框架,我们用更多样化的数据集训练它。这有助于了解此类方法的行为如何超出其初始应用程序帧。我们提出了一种基于对象检测扩展数据集的方法。此外,我们提出了一种方法来调整机器框架,以利用物体检测的力量,即可以在其他方法中看到。 |
Bias Mitigation of Face Recognition Models Through Calibration Authors Tiago Salvador, Stephanie Cairns, Vikram Voleti, Noah Marshall, Adam Oberman面部识别模型遭受偏见,例如,虚假阳性不正确面部匹配的概率强烈取决于像种族这样的敏感属性。结果,当在执法中使用时,这些模型可能对少数群体产生负面影响。在这项工作中,我们介绍了偏置缓解校准BMC方法,我提高了模型精度,提高了现有技术,II产生相当校准的概率,III显着降低了假阳性率的差距,IV不需要了解敏感属性。 |
HERS Superpixels: Deep Affinity Learning for Hierarchical Entropy Rate Segmentation Authors Hankui Peng, Angelica I. Aviles Rivero, Carola Bibiane SchonliebSuperpixels作为许多计算机视觉任务中的强大预处理工具。通过使用Superpixel表示,图像基元的数量可以大大降低倍数。大多数Superpixel方法使用手工制作功能,这通常不会平移到对目标边界的强烈依从性。最近最近的超像素方法引入了Superpixel分段过程的深度学习。然而,这些方法都不能够在近实时生产超像素,这对于在实践中的超像素方法的适用性至关重要。在这项工作中,我们提出了一种基于阶段的基于图形的Superpixel分段框架。在第一阶段,我们通过聚合多尺度信息来介绍一个有效的深度亲和学习DAL网络,其学习成对像素关联。在第二阶段,我们提出了一种称为分层熵速率分割的高效超像素方法。使用来自第一阶段的学习亲和力,HERS构建了一个分层树结构,可以瞬间生产任何数量的高度自适应超像素。我们通过视觉和数值实验证明了我们的方法的有效性和效率与各种状态的艺术超像素方法相比。 |
Efficient Training of Visual Transformers with Small-Size Datasets Authors Yahui Liu, Enver Sangineto, Wei Bi, Nicu Sebe, Bruno Lepri, Marco De NadaiVisual Transformers VTS作为卷积网络CNNS的架构范式替代。与CNN不同,VT可以捕获图像元素之间的全局关系,并且它们可能具有更大的表示容量。然而,典型的卷积电感偏差缺乏使这些模型比普通的CNN更饥饿更多的数据。事实上,在VTS中嵌入在CNN架构设计中的一些本地属性,应该从样本中学到。在本文中,我们经验经验分析了不同的VTS,比较了他们在小型训练制度中的鲁棒性,并且我们表明,尽管在想象中训练时具有可比的准确性,但它们在较小数据集上的性能可能很大程度上不同。此外,我们提出了一种自我监督的任务,可以从图像中提取其他信息,只有可忽略的计算开销。这项任务鼓励VTS学习图像内的空间关系,并使VT培训在训练数据稀缺时更加强劲。我们的任务与标准的监督培训共同使用,它不依赖于特定的架构选择,因此它可以很容易地插入现有的VTS。使用与不同的VTS和数据集进行广泛的评估,我们表明我们的方法有时可以急剧提高VTS的最终精度。代码将在接受时提供。 |
Unsupervised Action Segmentation for Instructional Videos Authors AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo, Irfan Essa在本文中,我们解决了从教学视频中以无监督的方式发现原子动作的问题,这很少以原子行动注释。我们提出了一种无监督的方法,以根据视频分割的顺序随机自回转模型从各种教学视频中学习结构化人类任务的原子行动。这将学习表示并发现任务的不同原子动作之间的顺序关系,并提供自动和无监督的自我标记。 |
Reveal of Vision Transformers Robustness against Adversarial Attacks Authors Ahmed Aldahdooh, Wassim Hamidouche, Olivier Deforges基于关注的网络在许多计算机视觉任务中实现了最先进的性能,例如图像分类。与卷积神经网络CNN不同,Vanilla Vision变压器Vit的主要部分是注意力块,它带来了模仿输入图像的全局背景的力量。这种力量是数据饥饿,因此,训练数据越大,性能越好。为了克服这种限制,已经提出了许多基于Vit基于VIT的网络或混合vt,包括在训练期间包括当地背景。 VITS及其变体对抗对抗攻击的鲁棒性并未被广泛投资于文献中。在以前的一些作品中揭示了一些稳健性属性,因此,更多的洞察力稳健性属性尚未迷失。在施加预处理防御方法之后,研究与在普发的防御方法中的逆势实例AES下的CNN和2相比,研究VIT变体1对不同L p基于对抗的对抗的抗体攻击的鲁棒性。为此,我们从ImageNet 1K上运行一组实验,然后提供了一种分析,显示Vanilla Vit或杂种Vit比CNN更鲁棒。例如,我们发现,1 Vanilla Vits或混合Vits比L 0,L 1,L 2,L流入下的CNNS更强大,并且CCP攻击的CNN。 2 vanilla Vits没有响应主要减少高频分量的预处理防御,而混合vits对这种防御更加响应。 3 CCP可以用作预处理防御,并且发现较大的VIT变体比其他模型更响应。此外,提供了具有图像质量措施的特征图,注意力映射和渐变凸轮可视化,以及扰动能量谱的见解了解基于关注的模型。 |
Person Re-Identification with a Locally Aware Transformer Authors Charu Sharma, Siddhant R. Kapil, David Chapman人员RE识别是基于计算机视觉的监视应用中的重要问题,其中同一个人试图从各种附近区域中的监控照片中识别。目前,大多数人RE ID技术基于卷积神经网络CNN,但是视觉变形金机开始取代纯CNN的各种对象识别任务。视觉变换器的主要输出是全局分类令牌,但视觉变换器还产生本地令牌,其中包含有关图像的本地区域的附加信息。利用这些本地代币来提高分类准确性的技术是一个有效的研究领域。我们提出了一种新颖的本地知识变压器LA变压器,采用基于零件的卷积基线PCB启发策略,将全局增强的本地分类代币聚集到SQRT N分类器的集合中,其中N是补丁的数量。额外的新颖之处在于我们纳入块状微调,进一步提高了RE ID精度。 La变压器具有块状精细调谐,在市场上的标准偏差为0.13和98.7的标准偏差分别在CUHK03数据集中标准偏差,在写作时,标准偏差为0.13的标准偏差。 |
Incremental False Negative Detection for Contrastive Learning Authors Tsai Shien Chen, Wei Chih Hung, Hung Yu Tseng, Shao Yi Chien, Ming Hsuan Yang自我监督的学习最近通过对比学习在视觉任务中显示出巨大的潜力,这旨在在数据集中区分每个图像或实例。然而,这种实例级别学习忽略了实例之间的语义关系,并从语义相似的样本同样地排斥锚,被称为假否定。在这项工作中,我们首先经验突出显示虚假否定的不利影响对于包含更多语义概念的数据集来说更为重要。为了解决这个问题,我们介绍了自我监督对比学习的新型增量假阴性检测。在培训过程之后,当编码器逐渐培训并且嵌入空间变得更加语义上结构时,我们的方法逐步检测更可靠的假底片。随后,在对比学习期间,我们讨论了两种策略,明确地删除了检测到的错误否定。广泛的实验表明,我们所提出的方法在有限计算中的多个基准上表现出其他自我监督的对比学习框架。 |
Refiner: Refining Self-attention for Vision Transformers Authors Daquan Zhou, Yujun Shi, Bingyi Kang, Weihao Yu, Zihang Jiang, Yuan Li, Xiaojie Jin, Qibin Hou, Jiashi Feng与CNN相比,视觉变压器VITS在图像分类任务中显示了竞争精度。然而,它们通常需要更多的数据进行模型预培训。因此,最近的大部分作品都致力于设计更复杂的架构或培训方法来解决VITS的数据效率问题。然而,其中很少有人探讨改善自我关注机制,是区分VITS的关键因素。与现有的作品不同,我们介绍了一个概念上简单的计划,称炼油机,直接完善VITS的自我注意图。具体而言,炼油厂探讨了注意力扩展,将多头注意映射到更高的尺寸空间,以促进其多样性。此外,炼油厂应用卷积来增加注意地图的本地模式,我们向我们展示相当于分布式本地注意功能,与学习内核在本地聚合,然后通过自我关注全球聚合。广泛的实验表明,炼油厂令人惊讶。值得注意的是,它使VITS能够在ImageNet上实现86个顶级分类准确性,只有81米参数。 |
Deep Learning 3D Dose Prediction for Conventional Lung IMRT Using Consistent/Unbiased Automated Plans Authors Navdeep Dahiya, Gourav Jhanwar, Anthony Yezzi, Masoud Zarepisheh, Saad Nadeem深入学习DL 3D剂量预测最近获得了很多关注。然而,训练数据集中的计划质量的可变性,由具有广泛专业知识的规划人员手动生成,可以大大影响最终预测的质量。此外,临床标准的任何变化需要规划人员需要一组新的手动制定的计划来构建新的预测模型。在这项工作中,我们使用我们在名为Echo的House自动化规划系统生成的一致计划来培训DL模型。 Echo加急约束分层优化通过顺序解决大规模约束优化问题来生成一致的无偏见计划。如果临床标准发生变化,可以使用回声,没有或有限的人工干预,可以轻松地将新的训练数据集能够轻松地生成,使基于DL基于DL的预测模型适应临床实践的变化。我们使用120例常规肺患者100进行训练,20用于使用不同的光束配置进行测试,并使用手动产生的DL模型和自动回声计划培训。我们评估了不同输入1 CT PTV OAR轮廓,以及2 CT轮廓光束配置,以及不同的损耗功能1 MAE平均值误差,2 MAE DVH剂量块直方图。使用不同的DVH指标以及剂量评分和DVH得分,最近被AAPM知识的规划巨大挑战所介绍,预测的质量。使用自动回声计划和CT轮廓光束作为训练输入和MAE DVH作为损耗功能获得的最佳结果。 |
Detection of marine floating plastic using Sentinel-2 imagery and machine learning models Authors Srikanta Sannigrahi, Bidroha Basu, Arunima Sarkar Basu, Francesco Pilla越来越多的海洋塑料污染水平对海洋生态系统和生物多样性的严重威胁。本研究试图探索开放的Sentinel卫星数据和ML模型的全功能,用于检测和分类浮动塑料碎片在米蒂利尼希腊,利马索尔塞浦路斯,卡拉布里亚意大利和贝鲁特黎巴嫩的浮动塑料碎片。两个ML型号,即支持向量机SVM和随机森林RF进行分类分析。在原位塑料位置数据被从米中,希腊和利马索尔,塞浦路斯进行的对照实验中收集,并且考虑了培训模型的同样。遥感频带和光谱索引都用于开发ML模型。为塑料的光谱特征型材,用于区分来自其他海洋碎片的浮动塑料。新开发的指数,内核归一化差异植被指数Kndvi纳入建模,以检查其对模型性能的贡献。 SVM和RF都在五种模型中进行了很好的表现,并且测试案例组合。在两个ML模型中,测量RF的最高性能。发现了kndvi有效并增加了模型性能,而模型表现,通过针对SVM的模型280至98测量的高平衡精度反映为RF的87至97。使用最佳执行的模型,在Calabria和Beirut开发并测试了自动浮动塑料检测系统。对于这两个网站,训练有素的模型检测到浮动塑料,精度为99。在六个预测因子中,FDI被发现是检测海洋浮动塑料的最重要变量。这些调查结果共同提出,高分辨率遥感图像和自动化ML模型可以是船用浮动塑料的成本有效检测的有效替代方案。 |
Open source disease analysis system of cactus by artificial intelligence and image processing Authors Kanlayanee Kaweesinsakul, Siranee Nuchitprasitchai, Joshua M. Pearce由于众多仙人掌从室内用来食品和药用应用,仙人掌培养越来越感兴趣。各种疾病会影响仙人掌的生长。开发用于分析仙人掌病的自动化模型,并能够快速治疗和防止仙人掌损坏。用于分析仙人掌疾病的速率较快的R CNN和YOLO算法技术,将仙人掌疾病分成六组1 anthracnose,2只溃疡,3缺乏护理,4个蚜虫,5锈病和6个正常组。基于实验结果,发现yolov5算法在检测和识别仙人掌疾病方面更有效地比R CNN算法更有效。使用yolov5s模型的数据培训和测试导致了89.7的精确度,精度召回为98.5,这对于在仙人掌培养中的许多应用中有效。总体而言,YOLOV5算法每张图像的测试时间仅为26毫秒。因此,发现yolov5算法适用于移动应用,并且该模型可以进一步开发成用于分析仙人掌病的程序。 |
Recovery Analysis for Plug-and-Play Priors using the Restricted Eigenvalue Condition Authors Jiaming Liu, M. Salman Asif, Brendt Wohlberg, Ulugbek S. Kamilov通过剥夺红色方法通过利用预训练的深脱落器作为图像前导者来解决逆问题,即可广泛用于解决逆问题。虽然已经被广泛研究了这些算法的经验成像性能和这些算法的理论会聚特性,但先前没有过度地分析它们的回收性能。通过假设这些方法的解决方案在深度神经网络的固定点附近,我们通过展示如何建立PNP红色的理论恢复保证来解决这种差距。我们还呈现了数值结果比较了基于生成模型的最近压缩传感算法的压缩感测的PNP红色的恢复性能。我们的数值结果表明,与现有技术的现有状态相比,PNP具有预先训练的工件去除网络提供了更好的结果。 |
Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer Authors Zilong Huang, Youcheng Ben, Guozhong Luo, Pei Cheng, Gang Yu, Bin Fu最近,基于窗口的变压器,在非重叠本地窗口内计算了自我关注,在图像分类,语义分割和对象检测中表现出有希望的结果。然而,较少的研究已经致力于横窗连接,这是提高表示能力的关键元素。在这项工作中,我们将空间Shuffle重新审视为在Windows之间构建连接的有效方法。因此,我们提出了一个名为Shuffle变压器的新视觉变压器,通过修改两行代码来实现高效且易于实现。此外,引入了深度明智的卷积以补充空间洗牌以增强邻居窗口连接。拟议的架构在广泛的视觉任务中实现出色的性能,包括图像级分类,对象检测和语义分割。代码将被释放为复制。 |
Efficient Iterative Amortized Inference for Learning Symmetric and Disentangled Multi-Object Representations Authors Patrick Emami, Pan He, Sanjay Ranka, Anand Rangarajan无监督的多对象表示学习取决于感应偏差,以指导概括的对象中心表示的发现。但是,我们观察到学习这些表示的方法是由于长期训练时间和大的记忆消耗或放弃关键归纳偏差而不切实际。在这项工作中,我们介绍了高效的Morl,这是一个有效的对象学习的无监督学习的框架。我们表明,通过设计框架来最大限度地减少对其的依赖性来解决这两个对称性和解剖学而导致的优化挑战可以通过高成本的迭代摊销推理来解决。我们采取了两个阶段的推断方法,分层变形AutoEncoder通过自下而上推断提取对称和解开的表示,而第二个,轻量级网络通过顶部反馈提供了顶端反馈的表示。在课程后培训期间采取的细化步骤的数量减少,因此在零步骤的测试时间内,模型实现了99.1的精细分解性能。我们在标准多目标基准上展示了强大的物体分解和解剖学,同时实现了更快的训练顺序和通过前一种训练的训练和测试时间推断。 |
Adversarial Attack and Defense in Deep Ranking Authors Mo Zhou, Le Wang, Zhenxing Niu, Qilin Zhang, Nanning Zheng, Gang Hua深神经网络分类器容易受到对抗的攻击,其中难以察觉的扰动可能导致错误分类。然而,基于DNN的图像排名系统的漏洞仍然仍然探索。在本文中,我们提出了两次对深度排名系统的攻击,即候选攻击和查询攻击,可以通过对抗扰动来提高或降低所选候选人的等级。具体地,预期的排名顺序首先表示为一组不等式,然后设计类似目标函数的三态以获得最佳扰动。相反,提出了一种防崩倒塌三态防御来改善对所有拟议攻击的排名模型稳健性,其中模型学会防止通过对抗攻击彼此靠近彼此靠近的正和阴性样本。全面测量排名模式与我们的防务的经验对抗性稳健性,我们提出了一个经验丰富的稳健性评分,这涉及一套针对排名模式的代表性攻击。我们的对抗排名攻击和防御是在Mnist,Fashion Mnist,Cub200 2011,Cars196和Stanford在线产品数据集上进行评估。实验结果表明,典型的深度排名系统可以通过我们的攻击有效地损害。尽管如此,我们的防守可以显着提高排名系统的鲁棒性,同时减轻广泛的攻击。 |
End-to-end reconstruction meets data-driven regularization for inverse problems Authors Subhadip Mukherjee, Marcello Carioni, Ozan ktem, Carola Bibiane Sch nlieb我们提出了一种无监督的学习结束来实现终结逆问题的方法。所提出的方法将经典变分框架与迭代展开组合,其基本上寻求最小化测量空间中预期变形的加权组合和重建和地面事实的分布之间的WasserSein 1距离。更具体地,变分设置中的规则器由深神经网络参数化,并与展开的重建操作员同时学习。然后通过重建展开的操作员初始化变分问题并迭代地解决,直到收敛。值得注意的是,由于通过展开的运营商获得的出色初始化,它需要较少的迭代率来融合。所得到的方法将端端结束的计算效率与变分设置的阱姿势和噪声稳定性保证结合到底展开重建。此外,我们用X射线计算断层摄影CT的示例来证明我们的方法优于艺术艺术无监督方法的状态,并且它优于或与艺术状态的胜利,监督学习的重建方法。 |
Multi-Exit Semantic Segmentation Networks Authors Alexandros Kouris, Stylianos I. Venieris, Stefanos Laskaridis, Nicholas D. Lane语义分割是作为许多视觉系统的骨干,从自动驾驶汽车和机器人导航到增强现实和电话会议。经常在有限资源信封内的严格延迟约束下运行,优化有效执行变得重要。为此,我们提出了一个框架,用于将艺术分割模型的状态转换为混乱网络的特殊培训的CNN,该网络在其深度沿着它们的深度采用参数化的早期退出,以在更容易的样本期间节省计算。设计和培训此类网络天真地伤害性能。因此,我们提出了两个分阶段的培训过程,推动了网络早期的语义重要功能。我们CO优化附加分割头的数量,放置和架构以及退出策略,以适应设备功能和应用特定要求。优化速度,混乱网络可以通过无精度地降级实现最高可达2.83倍的延迟增益。因此,在相同的计算预算下,优化准确性,达到高达5.33磅的改善。 |
Self-supervised Depth Estimation Leveraging Global Perception and Geometric Smoothness Using On-board Videos Authors Shaocheng Jia, Xin Pei, Wei Yao, S.C. Wong近年来,自我监督的深度估计绘制了很多关注,因为它不需要标记的数据而是图像序列。此外,它可以方便地用于各种应用,例如自主驾驶,机器人,现实导航和智能城市。然而,从图像中提取全局上下文信息并预测几何自然深度图仍然具有挑战性。在本文中,我们借助我们深度的Linformer块同时提取全局和局部特征的DLNET进行DLNET。该块包括Linformer和创新的软分裂多层Perceptron块。此外,提出了三维几何平滑度损失来通过对预测的三维点云施加二阶平滑度约束来预测几何自然深度图,从而实现改进的性能作为副产品。最后,我们探讨了多种规模预测策略,提出了用于进一步性能改进的最大保证金双模预测策略。在Kitti和Make3D基准测试的实验中,所提出的DLNET将分别为最先进的方法,减少时间和空间复杂性分别为62和56来实现性能。对各种现实世界情况的广泛测试进一步展示了所提出的模型的强大实用性和泛化能力。 |
The Distance Transform and its Computation Authors Tilo Strutz距离变换是用于许多不同应用的图像处理技术。与二进制图像相关,一般思想是确定所有背景点到最近对象点的距离,反之亦然。在本教程中,使用示例详细解释不同的方法并使用示例进行比较。提供了相应的源代码以促进自己的调查。本教程的特定目的是阐明任意距离变换和精确的欧几里德距离变换之间的差异。 |
Efficient training for future video generation based on hierarchical disentangled representation of latent variables Authors Naoya Fushishita, Antonio Tejero de Pablos, Yusuke Mukuta, Tatsuya Harada生成视频预测给定序列的未来是近年来积极研究的一个领域。然而,重要的问题仍然是未解决的大多数方法需要大量的计算成本和用于训练的内存使用情况。在本文中,我们提出了一种新的方法,用于产生未来的内存使用量的未来预测视频而不是传统方法。这是朝向具有高图像质量的视频的路径中的临界踩踏石,类似于图像生成领域的最新作品中所生成的图像的临界石头。我们通过在两个阶段1图像重建中培训我们的方法来实现高效率,以将视频帧编码为潜在变量,以及2个潜在的变量预测来生成未来序列。我们的方法通过根据其分层结构分解每个帧来实现视频压缩到低维潜变量。也就是说,我们认为视频可以分成背景和前景对象,并且每个对象独立地保持时间变化和时间信息。我们的实验表明,即使对于无法通过以前的方法处理的复杂数据集,所提出的方法也可以有效地生成未来的预测视频。 |
Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain Detection Authors F. Cappio Borlino, S. Polizzotto, A. D Innocente, S. Bucci, B. Caputo, T. Tommasi深度检测模型在很大程度上被证明是在受控设置中非常强大,但在看不见的域上的架子上涂抹在架子上时显得脆弱并失败。开发用于修改此问题的所有自适应方法都在培训时访问可大量的目标样本,当目标未知时不适合的策略,其数据无法提前使用。例如,考虑从社交媒体上监视图像馈送的任务,因为每个图像都上传到不同的用户,它属于在培训期间不可能预见到不同的目标域。我们的工作解决了这个设置,呈现了一个对象检测算法,其能够通过仅在测试时间内看到的一个目标样本来执行跨域的无监督适应性。我们介绍了一个多任务架构,即通过迭代解决它的自我监督任务来拍摄一个射击对任何传入样本。我们进一步利用META学习来模拟单个样本跨域学习剧集,并更好地对准测试条件。此外,跨任务伪标记过程允许专注于图像前景并增强适应过程。针对最近的跨域检测方法和详细消融研究的彻底基准分析显示了我们方法的优势。 |
Exploiting Emotional Dependencies with Graph Convolutional Networks for Facial Expression Recognition Authors Panagiotis Antoniadis, Panagiotis P. Filntisis, Petros Maragos在过去的几年里,深入学习方法在许多面部相关任务中显示出显着的结果,包括野外的自动面部表情识别焦点。与此同时,心理学界提出了众多模型,描述了人类情绪状态。但是,我们没有明确的证据表明,这是更合适的,大多数FER系统使用的影响或维度模型。灵感来自最近在多标签分类中的工作,本文提出了一种新的多任务学习MTL框架,其利用图形卷积网络GCN识别野外的面部表情来利用这两个模型之间的依赖性。具体地,在MTL设置中的离散和连续识别中学习共享特征表示。此外,面部表情分类器和价值唤醒回归通过GCN学习,该GCN明确地捕获它们之间的依赖关系。为了评估我们在真实世界条件下的方法的性能,我们培训我们在EffectNet数据集上培训我们的模型。我们的实验结果表明,我们的方法优于离散FER的现有技术的当前状态。 |
FINet: Dual Branches Feature Interaction for Partial-to-Partial Point Cloud Registration Authors Hao Xu, Nianjin Ye, Shuaicheng Liu, Guanghui Liu, Bing Zeng数据关联在点云注册中很重要。在这项工作中,我们建议通过在特征提取阶段的源和参考云之间引入特征交互来解决部分地注册,从而可以在没有显式掩模估计或注意事项的情况下实现注册以前所采用的重叠检测。具体地,我们呈现FinEt,基于特征交互的结构,具有能够使能和加强在多个阶段之间相关联的信息。为实现这一目标,我们首先将特征分成两个组件,一个组件,一个用于旋转和一个用于翻译,基于它们属于不同的解决方案空间,产生双分支结构。其次,我们在数据关联的特征提取器中插入多个交互模块。第三,我们提出了一种转型敏感性损失,以获得旋转细节和翻译细节。实验表明,与传统和基于学习的方法的状态相比,我们的方法具有更高的精度和鲁棒性。 |
Shape As Points: A Differentiable Poisson Solver Authors Songyou Peng, Chiyu Max Jiang, Yiyi Liao, Michael Niemeyer, Marc Pollefeys, Andreas Geiger近年来,由于其表达性和灵活性,神经隐式表示在3D重建中获得了普及。但是,神经隐式表示的隐式性质导致缓慢的推理时间,并且需要仔细初始化。在本文中,我们重新审视经典但无处不在的点云表示,并使用泊松表面重建PSR的可分辨率配方引入对网格层的可分化点,其允许GPU加速指示灯函数的快速解决方案。可微分的PSR层允许我们通过隐式指示器字段有效地和分散地桥接与3D网格的显式3D点表示,使结束于诸如倒角距离的表面重建度量的结束优化。点和网格之间的这种二元性因此允许我们以面向点云表示形状,这是明确的,轻量级和富有表现力的。与神经隐式表示相比,我们的形状为点SAP模型是更可解释,轻量级的,并通过一个级别加速推理时间。与其他显式表示相比,如点,贴片和网格,SAP产生拓扑无止境,水密歧管表面。我们展示了SAP对无知点云和基于学习的重建的表面重建任务的有效性。 |
supervised adptive threshold network for instance segmentation Authors Kuikun Liu, Jie Yang, Cai Sun, Haoyuan Chi目前,实例分割在机器学习区域中吸引了越来越多的注意。然而,在先前的掩码R CNN和其他网络模型中存在一些缺陷。在本文中,我们提出了监督自适应阈值网络,例如分段。具体地,我们采用基于自适应阈值的掩模R CNN方法,并通过建立分层自适应网络结构,它在掩模RCNN生成的概率图上执行自适应二值化,以获得更好的分割效果并降低误差率。同时,自适应特征池设计用于使网络的不同层之间的传输更加准确,有效,降低特征传输过程中的损耗,并进一步改进掩模方法。基准数据集的实验表明所提出的模型的有效性 |
Unsupervised Learning for Cuboid Shape Abstraction via Joint Segmentation from Point Clouds Authors Kaizhi Yang, Xuejin Chen表示复杂的3D对象作为简单的几何基元,称为形状抽象,对于几何建模,结构分析和形状合成是重要的。在本文中,我们提出了一种无监督的形状抽象方法来将点云映射到紧凑的长方体表示。我们共同预测,作为零件分割和长方体形状,并强制实施分割与自学抽象之间的一致性。对于长方体抽象任务,我们使用变化自动编码器网络将输入点云转换为一组参数长方体。分割网络将每个点分配到考虑点长方体亲和力的长方体中。如果没有手动注释点云,我们设计四种新颖的损失,以在几何相似性和长方体致密度方面共同监督两个分支机构。我们在多种形状集中评估我们的方法,并展示其在现有形状抽象方法上的优越性。此外,基于我们的网络架构和学习的表示,我们的方法支持包括结构化形状生成,形状插值和结构形状聚类的各种应用。 |
Channel DropBlock: An Improved Regularization Method for Fine-Grained Visual Classification Authors Yifeng Ding, Shuwei Dong, Yujun Tong, Zhanyu Ma, Bo Xiao, Haibin Ling将对象的子类别从同一超级类别进行分类,例如,在细粒度的视觉分类FGVC任务中的鸟类高度依赖于采矿多种辨别特征。现有方法主要通过引入注意机制来定位辨别部分或特征编码方法来提取歧视的时尚以弱监督的方式提取高度参数化特征来解决这个问题。在这项工作中,我们提出了一种名为Channel Dropblock CDB的轻量级又有效的正则化方法,与两个替代相关度量组合,以解决此问题。关键的想法是在训练期间随机掩盖一组相关频道,以毁坏CO适应,从而增强特征表示。在三个基准FGV数据集上进行广泛的实验表明,CDB有效提高了性能。 |
Source-Free Open Compound Domain Adaptation in Semantic Segmentation Authors Yuyang Zhao, Zhun Zhong, Zhiming Luo, Gim Hee Lee, Nicu Sebe在这项工作中,我们介绍了一个新的概念,命名为Source Free Open Compound Domain Adaption SF OCDA,并在语义细分中研究。 SF OCDA比传统领域适应更具挑战性,但它更加实用。它共同考虑了数据隐私和数据存储的问题,以及2个方案的多个目标域和不均义的开放域。在SF OCDA中,只有源预训练模型和目标数据可以学习目标模型。该模型在目标和看不见的域的样本上进行评估。为了解决这个问题,我们通过将培训过程分为两个阶段1预先培训了一个有效的框架,以预先培训具有自我监督学习的广义源模型和2。在我们的框架中,我们提出了交叉补丁样式交换CPS,以使特征级别的各种补丁样式多样化样品,这可以使两个阶段的培训受益。首先,CPS可以显着提高源模型的泛化能力,为后期阶段提供更准确的伪标签。其次,CPS可以减少嘈杂的伪标签的影响,并且还避免了在自我监督学习期间对目标域的模型过度接受,始终如一地提高目标和开放域的性能。实验表明,我们的方法在C驾驶数据集上产生最新的技术结果。此外,我们的模型还实现了域泛化的城市景观的主要性能。 |
Multi-Target Domain Adaptation with Collaborative Consistency Learning Authors Takashi Isobe, Xu Jia, Shuaijun Chen, Jianzhong He, Yongjie Shi, Jianzhuang Liu, Huchuan Lu, Shengjin Wang由于现实世界图像上的像素级别注释的高成本,最近对语义分割任务的无监督域适应已经变得越来越受欢迎。但是,大多数域适应方法仅限于单源单个目标对,并且不能直接扩展到多个目标域。在这项工作中,我们提出了一个协作的学习框架来实现无监督的多目标域适应。首先为每个源目标对训练一个无监督的域适配专家模型,并进一步鼓励通过在不同目标域之间建立的桥梁彼此协作。通过添加与具有相同结构化上下文的每个样本的一致像素明智的预测的正则化进一步改进了这些专家模型。要获得跨多个目标域工作的单个模型,我们建议同时学习一个学生模型,该模型不仅验证了对应的目标域上的每个专家的输出,而且还通过正规化拉动彼此的不同专家在他们的体重。广泛的实验表明,所提出的方法可以有效利用包含在标记的源域和多个未标记的目标域中的丰富的结构化信息。它不仅跨多个目标域表现良好,而且还对艺术域无监督域适配方法的艺术状态进行了有利的,而且在单一源目标对上专门培训 |
Resolution learning in deep convolutional networks using scale-space theory Authors Silvia L.Pintea, Nergis Tomen, Stanley F. Goes, Marco Loog, Jan C. van Gemert深度卷积神经网络中的分辨率CNN通常通过过滤尺寸的接收场大小,并在特征图上的冲击层或冲击卷积。根据数据集,最佳分辨率可能显着变化。现代CNNS硬编码其在网络架构中的分辨率超参数,这使得调整此类超参数麻烦。我们建议脱离硬编码分辨率的超参数,并旨在从数据中学习适当的分辨率。我们使用刻度空间理论来获得滤波器的自类似参数化,并利用N个喷射截断的泰勒序列,以通过学习的高斯衍生滤光片的学习组合来近似滤波器。高斯基础的参数Sigma控制滤波器编码的详细量和过滤器的空间范围。由于Sigma是一个连续参数,我们可以在损失方面优化它。当在最先进的架构中使用时,所提出的N喷射层可实现相当的性能,同时自动在每个层中学习正确的分辨率。我们在分类和分割方面评估我们的N喷射层,我们表明学习Sigma对多种尺寸的输入特别有益。 |
DINs: Deep Interactive Networks for Neurofibroma Segmentation in Neurofibromatosis Type 1 on Whole-Body MRI Authors Jian Wei Zhang, Wei Chen, K. Ina Ly, Xubin Zhang, Fan Yan, Justin Jordan, Gordon Harris, Scott Plotkin, Pengyi Hao, Wenli Cai神经纤维瘤病1型NF1是一种常染色体显性肿瘤倾斜综合征,涉及中央和周围神经系统。神经纤维瘤的准确检测和分割对于评估肿瘤负荷和纵向肿瘤大小的变化是必不可少的。自动卷积神经网络CNNS敏感,易受肿瘤变性解剖位置和MRI的异质外观。在这项研究中,我们提出了深度互动网络浸入以解决上述限制。用户相互作用指导模型以识别复杂的肿瘤并快速适应异质肿瘤。我们介绍了一个简单但有效的指数距离变换expdt,将用户交互转换为先前被视为空间和外观的指南地图。 EXPDT与流行的欧几里德和测地距离相比,对各种图像尺寸更加强大,可以保留交互式输入的分布。此外,为了增强肿瘤相关特征,我们设计一个深的交互模块,将导向器传播到更深层面。我们在NF1患者的三个MRI数据集上培训和评估浸渍。实验结果分别在与自动化和其他交互方法相比,在DSC比较44和14的显着改善。我们还通过传统交互方法进行比较时,通过实验证明浸入效率降低了用户负担。我们的方法的源代码可用于URL |
ContourRender: Detecting Arbitrary Contour Shape For Instance Segmentation In One Pass Authors Tutian Tang, Wenqiang Xu, Ruolin Ye, Yan Feng Wang, Cewu Lu例如分割的直接轮廓回归是一个具有挑战性的任务。以前的作品通常通过学习逐渐改进轮廓预测或采用具有有限表现力的形状表示来实现它。在这项工作中,我们认为,在一个通行证中回归轮廓点的难度主要是由于在将光滑轮廓离散到多边形时的模糊性。为了解决歧义,我们提出了一种名为TextBF Contourrender的新颖可分辨率渲染方法。在训练期间,首先预测由可逆形状签名产生的轮廓,然后通过将其转换为轮廓网并将网格渲染到2D地图来利用更稳定的轮廓优化轮廓。 |
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias Authors Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao由于它们使用自我注意机制建模长距离依赖性的强大能力,变压器在各种计算机视觉任务中表现出很大的潜力。然而,视觉变压器将图像视为1D视觉令牌的序列,缺乏内在的电感偏置IB,用于建模局部视觉结构并处理比例方差。或者,它们需要大规模的培训数据和更长的培训计划来隐含地学习IB。在本文中,我们提出了一种新的视觉变压器,通过探索来自卷积的内在IB,即简化。从技术上讲,vitae有几个空间金字塔减少模块,通过使用具有不同扩张速率的多个卷积来将输入图像与丰富的多尺度上下文嵌入到令牌中。以这种方式,它获取内在规模的不变性IB,并且能够为各种比较的对象学习强大的特征表示。此外,在每个变压器层中,Vitae具有与多头自我注意模块平行的卷积块,其特征融合并馈入前馈网络。因此,它具有内在的位置IB,并且能够协同学习本地特征和全局依赖性。想象成的实验以及下游任务证明了基线变压器和并发作品上的知识的优越性。源代码和预用型号将在GitHub上获得。 |
Wide-Baseline Relative Camera Pose Estimation with Directional Learning Authors Kefan Chen, Noah Snavely, Ameesh Makadia在两个图像之间回归相对相机姿势的现代深度学习技术难以处理具有挑战性的场景,例如大型摄像机运动,导致图像之间留下很少重叠的遮挡和显着变化。即使是大型监督培训数据集的利益,这些模型也在继续奋斗。为了解决这些模型的局限性,我们采用了通过估计关键点位置的离散分布来提高2D和3D技术的启发。类似地,在本文中,我们通过改善相机姿势的离散分布来探索改进的相机姿势回归。为了实现这个想法,我们介绍了DirectionNet,其使用新颖的参数化估计了5D相对姿势空间上的离散分布,以使估计问题发布。具体而言,方向网络将由3D旋转和翻译方向指定的相对相机姿势,进入一组3D方向向量。由于可以用球体上的点识别3D方向,因此定向网络估计球体上的离散分布作为其输出。我们评估了从attryPort3D和Interiornet构建的挑战合成和真实姿态估算数据集的挑战性和真实姿态估算集。有希望的结果显示出直接回归方法误差的近50次减少。 |
SelfDoc: Self-Supervised Document Representation Learning Authors Peizhao Li, Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Rajiv Jain, Varun Manjunatha, Hongfu Liu我们提出了Selfoc,一项任务不可知的文档图像理解训练框架。由于文档是多式联数的,并且旨在顺序读数,我们的框架利用文档中每个语义有意义的组件的位置,文本和视觉信息,并且它模拟了每个内容块之间的上下文化。与现有文档预培训模型不同,我们的模型是粗粒粒度,而不是将单个单词视为输入,因此避免过度细微粗糙,具有过度的上下文化。除此之外,我们在模型预训练阶段引入跨模型学习,以充分利用未标记文件的多模式信息。对于下游使用,我们提出了一种通过自适应地强调语言和视觉信号来提出一种用于多模式特征融合的模型自适应机制。我们的框架从自我监督的预训练中获益于文件,而无需通过一个特征掩蔽培训策略的注释。它在与以前的作品相比,在预训练阶段中使用的文档图像的多个下游任务的卓越性能达到了多个下游任务。 |
Contextual Guided Segmentation Framework for Semi-supervised Video Instance Segmentation Authors Trung Nghia Le, Tam V. Nguyen, Minh Triet Tran在本文中,我们在三次通过中提出了用于视频实例分段的上下文引导分段CGS框架。在第一传递中,即预览分段,我们提出了实例RE识别流以估计每个实例的主要属性即,通过将其预览掩模传播到其他帧来估计每种实例的主要属性。在第二次通过,即上下文分段,我们引入多个上下文分段方案。对于人类实例,我们在框架中开发 |