资讯详情

【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021

AI视野·今日CS.CV 计算机视觉论文速读 Fri, 25 Jun 2021 Totally 63 papers ???更精彩请移动主页

在这里插入图片描述

Interesting:

??*****VOLO, 基于局域编码增强token新的视觉识别模块(from Sea AI Lab National University of Singapore) code:https://github.com/sail-sg/volo 图像分类指标榜单:https://paperswithcode.com/sota/image-classification-on-imagenet

??***Video Swin Transformer, 视觉transformer用于视频预测(from MSRA) code:https://github.com/SwinTransformer/Video-Swin-Transformer

??***Learning by Planning, 基于语言的全局图像编辑模型 (from 罗彻斯特大学 cvpr2021)

code: https://jshi31.github.io/T2ONet/

??***AudioCLIP, 文本、语音和视频 模型多模态(from TU Kaiserslautern) code:https://github.com/AndreyGuzhov/AudioCLIP dataset: Composite CLIP Dataset ImageNet AudioSet UrbanSound8K ESC-50

??**MatchVIE, 提取和匹配实体相关性。(from 南方科技大学)

code: https://www.pazhoulab.com/ scut.edu.cn

??FaDIV-Syn, 与深度独立的快速场景合成 (from 波恩大学)

??Sparse Needlets, 新的场景光源估计方法 (from 南洋理工)

??SGTBN,单激光雷达探测线辅助深度估计方法。(from )

??多模态三维目标检测综述自动驾驶, (from 中科大)

??Florida Wildlife Camera Trap Dataset,触发相机的小动物数据集 (from University of Central Florida)

??, (from )

??AVHYAS, 开放式高光谱数据处理分析平台(from Space Applications Centre, ISRO, Ahmedabad, Gujarat, India)

??Deep Fake Detection综述, (from AITR india )

??Fuji,开源生物图像处理软件。 (from …)

code:https://imagej.net/software/fiji/


Daily Computer Vision Papers

标签: token电流传感器镜反射式光电传感器fr10

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台

Video Swin Transformer Authors Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu愿景界目睹了从CNN纯变压器架构在主要视频识别基准上实现了变形金刚模型的最高精度。这些视频型号都是基于整体跨空间和时间尺寸的变压器图层。在本文中,我们提倡视频变压器中的局部偏差。与以往的方法、空间时间分解和以往的方法相比,我们计算了自我关注的方法,导致了更好的速度衷。通过调整图像域设计Swin变压器继续利用预训练图像模型的功率,实现提出的视频架构的局部性。我们的方法在广泛的视频识别基准上实现了最新的技术准确性,包括84动作识别.动力学400和869.1前1个精度。 69.6在v一个高精度的东西。代码和模型将公开使用

HyperNeRF: A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields Authors Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien Bouaziz, Dan B Goldman, Ricardo Martin Brualla, Steven M. Seitz神经辐射田间NERF能够重建前所未有的保真场景,各种最近的作品都延伸了NERF处理动态场景。重建这种非刚性场景的常用方法是使用学习变形字段从每个输入图像中映射到标准模板坐标空间。然而,这些基于变形的方法试图模拟拓扑变化,因为拓扑变化需要变形场中的不连续性,但这些变形字段必须连续。我们通过将NERFS通过将每个单独的输入图像表示为切片,将其提升到更高的尺寸空间,并通过超空间解决这些限制。我们的方法是通过分级设置来启发表面的演变模拟,并通过更高尺寸的表面进行切片。我们在两个任务中评估我的方法,即在固定时刻保持视觉合理性和综合性,即场景配置之间的平稳输入图像。我们将展示我们的方法,我们将Hivernerf通过显著的利润,提供优于两项任务的现有方法。与NERFIES相比,HypernerF通过LPIP新视图合成的插值和8.8来减少8.平均误差率为6。

AutoAdapt: Automated Segmentation Network Search for Unsupervised Domain Adaptation Authors Xueqing Deng, Yi Zhu, Yuxin Tian, Shawn Newsam当大量注释数据可用时,神经网络的语义分割在监督箱中取得了显著的结果。然而,这些数据收集价格昂贵,因此开发了适应培训的方法,通常是容易获得标签的合成数据。目前的适应方法不考虑这些模型对网络架构泛化可转移性的依赖。在本文中,我们执行神经结构搜索NAS,为域适应提供系统结构级透视和分析。我们确定搜索域为无监督域适应的架构时存在的优化差距,这使得该NAS唯一困难的问题。通过使用最大平均差异和区域加权熵来估计精度指标的缩小。一些广泛使用的基准测试的实验结果表明,我们提出了Autoadapt框架确实发现了提高许多现有适应技术性能的架构。

Depth Confidence-aware Camouflaged Object Detection Authors Jing Zang, Yunqiu Lv, Mochu Xiang, Aixuan Li, Yuchao Dai, Yiran Zhong伪装的物体检测鳕鱼旨在掩盖掩藏环境中的伪装物体,这是由于伪装物体及其周围环境的类似外观而挑战。生物学研究表明,深度可以为伪装的物体发现提供有用的对象定位提示,因为所有动物都有3D感知能力。但是,未被利用深度信息以伪装对象检测。为了探索伪装检测的深度的贡献,我们介绍了一个深度引导的伪装对象检测网络,具有来自现有单眼深度估计方法的预计算机深度映射。由于深度估计数据集和我们的伪装对象检测数据集之间的域间隙,所生成的深度可能不足以直接在我们的框架中使用。然后,我们引入深度质量评估模块,以评估基于RGB COD分支和RGB D COD分支的模型预测的深度质量。在培训期间,只使用高质量的深度来更新多模态学习的模态交互模块。在测试期间,我们的深度质量评估模块可以有效地确定深度的贡献,并选择RGB分支或RGB D分支以进行伪装预测。各种伪装对象检测数据集的广泛实验证明了我们解决方案在探索伪装对象检测的深度信息方面的有效性。我们的代码和数据在URL上公开提供

GaussiGAN: Controllable Image Synthesis with 3D Gaussians from Unposed Silhouettes Authors Youssef A.Mejjati, Isa Milefchik, Aaron Gokaslan, Oliver Wang, Kwang In Kim, James Tompkin我们提出了一种算法,该算法从未曝光的多视图2D掩码监控学习对象的粗略3D表示,然后使用它来生成详细的掩码和图像纹理。与基于Voxel基于的未铺设的对象重建的方法相比,我们的方法学习通过透视照相机代表生成的形状和姿势,并通过透视照相机和每个图像变换的一组自我监督的规范3D各向异性高斯。我们表明这种方法可以强大地估计相机和对象的3D空间,而最近的基线有时会在此设置中重建相位的3D空间。我们在具有现实照明的合成数据集上显示结果,并用交互式摆展示对象插入。通过我们的工作,我们帮助转向结构化的表示,这些表现在基于学习的物体重建中处理了更多的世界变化。

Handling Data Heterogeneity with Generative Replay in Collaborative Learning for Medical Imaging Authors Liangqiong Qu, Niranjan Balachandar, Miao Zhang, Daniel Rubin协作学习,可以在隐私保存方式下在多个机构中进行协作和分散培训深神经网络,并在医疗保健应用中迅速涌现为宝贵的技术。然而,其分布式性质通常导致机构数据分布中的显着异质性。现有的协作学习方法通​​常不会占机构之间数据中的异质性,或者仅研究了轻度倾斜标签分布。在本文中,我们提出了一种新的生成重播策略,以解决协作学习方法中数据异质性的挑战。而不是直接培训用于任务性能的模型,利用最近的图像综合技术来开发一种新型双模型体系结构,初级模型学习所需的任务,而辅助生成重放模型合成密切地类似于输入图像的图像或帮助提取潜伏变量。生成重播策略是灵活的,可以使用,可以纳入现有的协作学习方法,以提高其在机构跨机构处理数据异质性的能力,或者被用作被称为联邦交叉口的新颖和个人协作学习框架以降低通信成本。实验结果表明了跨机构处理异构数据的方法的能力。在高度异构的数据分区上,与糖尿病视网膜病分类数据集的预测准确性有49.8,与骨龄预测数据集的预测准确性的提高有关,与最新的协作学习方法相比,49.8分别对骨龄预测数据集进行了49.8。

When Differential Privacy Meets Interpretability: A Case Study Authors Rakshit Naidu, Aman Priyanshu, Aadith Kumar, Sasikanth Kotti, Haofan Wang, Fatemehsadat Mireshghallah鉴于在医学成像和诊​​断等任务中使用个人数据的使用增加,DNN的差异私人培训在重要性中飙升,并且有一个巨大的工作致力于提供更好的隐私式贸易。但是,对这些模型的可解释性具有很少的关注,以及DP的应用程度如何影响解释的质量。我们提出了广泛的研究在APTOS数据集上对DP培训对DNN训练的影响,特别是在医学成像应用程序上。

Driver-centric Risk Object Identification Authors Chengxi Li, Stanley H. Chan, Yi Ting Chen大量的流量死亡是由于驾驶员错误。为了减少死亡人,开发智能驾驶系统,协助司机识别潜在风险的迫切需要。风险情况通常根据现有研究中的碰撞预测来定义。但是,碰撞只是交通方案中的一种风险。我们相信需要更通用的定义。在这项工作中,我们提出了一种新颖的驾驶员中心风险定义,即风险对象影响驾驶员行为。基于此定义,介绍了一种新的任务,称为风险对象识别。我们将任务作为原因效果问题,并提出了一种新颖的两个阶段风险对象识别框架,从事情况意识和因果推断的模型采取灵感。策划驾驶员中心风险对象识别ROI数据集以评估所提出的系统。与ROI数据集上的强基线相比,我们展示了艺术风险对象识别性能的状态。此外,我们进行了广泛的消融研究,以证明我们的设计选择。

FitVid: Overfitting in Pixel-Level Video Prediction Authors Mohammad Babaeizadeh, Mohammad Taghi Saffar, Suraj Nair, Sergey Levine, Chelsea Finn, Dumitru Erhan能够预测接下来发生什么的代理可以通过规划没有任何额外的培训来执行各种任务。此外,这种代理可以在内部代表现实世界的复杂动态,因此可以获得对各种视觉感知任务的表示。这使得预测视频的未来帧,在观察到的过去和可能未来的行动上,这是一个有趣的任务,尽管最近的进步,尽管仍然存在异常具有挑战性。现有的视频预测模型在简单的窄基准测试中显示了有希望的结果,但它们在具有更复杂的动态或更广泛的域的现实生活数据集上产生低质量的预测。还有一种日益增长的证据,即训练数据的贴筑是低质量预测的主要原因之一。在本文中,我们认为当前视频模型中参数的低效使用是底层的主要原因。因此,我们介绍了一个名为FITVID的新架构,它能够在公共基准上严重过度拟合,同时具有与最新的艺术模型的当前状态相似的参数计数。我们分析过度装备的后果,说明它如何产生意外结果,例如通过重复训练数据来产生高质量的输出,以及如何使用现有的图像增强技术来减轻它。因此,FITVID在四个不同度量上的四个不同视频预测基准上占据了本领域的当前状态。

Differential Morph Face Detection using Discriminative Wavelet Sub-bands Authors Baaria Chaudhary, Poorya Aghdaie, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi面部识别系统非常容易受到变形攻击的影响,其中变形面部参考图像可以被成功验证为两个或更多个不同的身份。在本文中,我们提出了一种变形攻击检测算法,其利用未传定的2D离散小波变换DWT来识别变形面部图像。我们框架的核心是在空间频域中可以更容易地识别由图像域中不可辨别的变形过程产生的伪像。鉴别的小波频带可以突出真实和变形图像之间的视差。为此,将多级DWT应用于所有图像,每个图像都产生48个中频和高频子带。每个子带的熵分布是单独计算的真实和变形图像。对于一些子频带,在真人般的图像中的子带的熵和变形图像中的相同子带S熵之间存在明显的差异。因此,我们采用Kullback Leebler Divergence KLD利用这些差异,并将这些差异隔离为最判别的子频段。我们测量子频带是如何通过其KLD值的差异,并且选择具有最高KLD值的22个子带进行网络培训。然后,我们使用这22个选择的子带来训练深度暹罗神经网络,用于差异变形攻击检测。我们研究了变形攻击检测的鉴别小波子带的功效,并表明在这些子带上培训的深神经网络可以准确地识别变形图像。

Learning by Planning: Language-Guided Global Image Editing Authors Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt, Chenliang Xu最近,语言引导的全球形象编辑利用日益增长的应用潜力提高了不断的关注。然而,以前的GaN基方法不仅限于特定的域,低分辨率数据,而且缺乏可解释性。为了克服集体困难,我们开发一个文本到操作模型,以将模糊的编辑语言请求映射到一系列编辑操作中,例如,更改对比度,亮度和饱和度。每个操作都是可解释和可微分的。此外,任务中唯一的监督是目标图像,这不足以稳定地训练顺序决策。因此,我们提出了一种新颖的操作规划算法,以从目标图像生成可能的编辑序列,作为伪基础。新收集的MA5K REQ数据集和Gier DataSet上的比较实验显示了我们的方法的优势。代码可用

FaDIV-Syn: Fast Depth-Independent View Synthesis Authors Andre Rochow, Max Schwarz, Michael Weinmann, Sven Behnke我们介绍了Fadiv Syn,一个快速深度独立的视图合成方法。我们的多视图方法解决了观看合成方法的问题通常受到深度估计阶段的限制,其中不正确的深度预测可能导致大的投影错误。为避免此问题,我们将多个输入图像有效地将多个输入图像横发到目标帧中,以进行一系列假定的深度平面。由此产生的张量表示被馈送到具有门控卷积的U NET等CNN中,其直接产生新颖的输出视图。因此,我们侧行显式深度估计。这提高了透明,反射性和功能较少的场景部件的效率和性能。 Fadiv Syn可以处理在大规模Realestate10K数据集上的内插和外推任务和优于最佳推出方法的状态。与可比方法相比,由于其轻量级架构,它能够实时运行。我们进一步通过较少的示例从较少的示例中培训来展示Fadiv Syn的数据效率,以及在严重深度离散化下的更高分辨率和任意深度范围内的概率。

Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers Authors Katelyn Morrison, Benjamin Gilby, Colton Lipchak, Adam Mattioli, Adriana Kovashka最近,已经开发了视觉变换器和基于MLP的模型,以解决卷积神经网络中的一些普遍缺陷。由于在该领域使用的变压器的新颖性以及自我关注机制,因此这些架构对损坏的鲁棒程度仍然不清楚。尽管有些作品提出,数据增强对模型对腐败的稳健仍然是必不可少的,但我们建议探讨架构对腐败鲁棒性的影响。我们发现视觉变形金刚架构本质上对损坏具有比Reset 50和MLP混频器更强大。我们还发现,比Reset 50更少的参数的视觉变压器具有更多的形状偏差。我们的代码可用于复制。

VOLO: Vision Outlooker for Visual Recognition Authors Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan视觉识别多年来一直由卷积作业网络中的CNN主导。虽然最近,预vailing视觉变压器Vits在Imagenet Classifica中显示了基于自我关注的潜力,但它们的性能仍然不如最新的SOTA CNNSIF,没有提供额外的数据。在这项工作中,我们的目标是为了收取性能差距,并证明基于的注意力确实能够优于CNN。我们发现限制了IMA遗传分类VITS性能的主要因素是它们在编码细水位特征到令牌表示中的低功效。对于解决方案,我们介绍了一个新颖的agooutlook注意力和一般建筑,被称为愿景Outlooker沃罗。与专注于粗糙水平的全球凭证建模的自我关注不同,展望Aimsto有效地编码更精细的级别特征和上下文intotokens,这些功能对于每个格式的识别至关重要,但在很大程度上被自我关注忽略了识别。实验证明我们的沃洛实现了87.1前面1精度的ImageNet 1K分类,是第一个在这个竞争基准上超过87准确性的模型,毫无尊重培训数据。此外,预训练过滤良好地转移到下游任务,例如Seman TIC分段。我们在ChecityScapes验证集中达到84.3 miou得分和ADE20K Valida Tion集的54.3。代码可用

Sparse Needlets for Lighting Estimation with Spherical Transport Loss Authors Fangneng Zhan, Changgong Zhang, Wenbo Hu, Shijian Lu, Feiying Ma, Xuansong Xie, Ling Shao准确的照明估算是挑战,对于许多计算机视觉和计算机图形任务,如高动态范围HDR致密的挑战性问题是至关重要的。现有方法在频域或空间域中的模型照明,其不足以表示场景中的复杂照明条件,并且倾向于产生不准确的估计。本文呈现了一种新的照明估计模型,该模型代表了针对针的照明,并共同允许在频域和空间域中的照明估计。最佳阈值函数旨在实现稀疏针头,其修剪冗余照明参数,并展示了照明表示的卓越的定位特性。此外,基于最佳运输理论设计了一种新的球形传输损失,该优化传输理论是考虑空间信息来回归照明表示参数。此外,我们提出了一种新的指标,它通过直接评估估计的照明映射而不是渲染的图像来简明扼要的公制。广泛的实验表明,与现有技术的状态相比,针状智能概括在多种评估指标上一致地实现了卓越的照明估计。

ChaLearn Looking at People: Inpainting and Denoising challenges Authors Sergio Escalera, Marti Soler, Stephane Ayache, Umut Guclu, Jun Wan, Meysam Madadi, Xavier Baro, Hugo Jair Escalante, Isabelle Guyon处理不完整信息是在机器学习和计算智能的背景下进行了良好的问题。然而,在计算机视觉的上下文中,仅在特定场景中研究了问题,例如,特定类型的图像中的某些类型的闭塞,但是在视觉数据中具有不完整的信息。本章介绍了一个专注于侵染WCCI2018竞争计划的图像和视频序列的学术竞争的设计,并将卫星活动与ECCV2018合作。看着人们的挑战,旨在通过促进图像和视频恢复丢失和封闭信息的方法来推进挑战的挑战。提出了三条曲目,其中视觉染色可能有用,但仍然具有挑战性的人体姿势估计,文本覆盖和指纹去噪。本章介绍了挑战的设计,包括释放三个新型数据集,以及评估度量,基线和评估协议的描述。分析并详细分析挑战的结果,并详细讨论并讨论了从该事件中得出的结论。

Unsupervised Learning of Depth and Depth-of-Field Effect from Natural Images with Aperture Rendering Generative Adversarial Networks Authors Takuhiro Kaneko了解来自2D预计的自然图像的3D世界是计算机视觉和图形中的根本挑战。最近,由于其在数据收集方面的优势,无监督的学习方法已经得到了相当大的关注。然而,为了缓解训练限制,典型方法需要施加视点分布的假设,例如,包含各种视点图像或对象形状的数据集。,对称对象。这些假设通常将应用程序限制为非刚性物体或从类似视点捕获的图像的应用程序,例如,花或鸟图像仍然是一个挑战。为了补充这些方法,我们提出了孔径渲染生成的对策网络AR GAN,它在GAN的顶部装备光圈渲染,并采用焦点提示来学习未标记的自然图像的现场DOF效果的深度和深度。为了解决由无监督设置触发的含糊不清的含糊之处,即在光滑的纹理和焦影之间以及前景和背景模糊之间,我们开发DOF混合学习,这使得发电机能够在产生各种DOF图像的同时学习真实的图像分布。此外,我们在引导学习方向之前设计一个中心重点。在实验中,我们展示了AR GAN在各种数据集中的AR GAN的有效性,例如花,鸟和面部图像,通过将它们结合到其他3D表示学习GAN来证明它们的可移植性,并验证其在浅水渲染中的适用性。

A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021 Authors Ke Han Lu, Bo Han Fang, Kuan Yu Chen在本文中,灵感来自Visionlanguage预训练模型的成功以及来自对抗攻击的培训的益处,我们通过纳入VQA挑战2021的两个概念来提出一种新型变换基础跨模型融合建模。具体地,所提出的模型是最重要的VINVL模型19的架构和对抗训练策略4的应用程序用于使模型稳健和广义。此外,我们的系统中也使用了两个实现技巧以获得更好的结果。实验表明,新颖的框架可以在VQAV2测试STD集上实现76.72。

A Simple and Strong Baseline: Progressively Region-based Scene Text Removal Networks Authors Yuxin Wang, Hongtao Xie, Shancheng Fang, Yadong Qu, Yongdong Zhang现有场景文本删除方法主要培训具有配对图像的详细网络,以实现文本本地化和背景重建的功能同时,但存在两个问题1缺乏文本区域的详尽擦除,导致过度擦除到无自由区域。为了处理这些问题,本文提供了一种新颖的基于区域的场景文本橡皮擦Pert,其介绍基于区域的修改策略,以逐步删除仅文本区域的像素。首先,Pert将str任务分解为几个删除阶段。由于每个阶段旨在朝文本移除图像而不是直接回归到最终结果,因此分解的操作减少了每个阶段的学习难度,并且可以通过迭代具有共享的轻质擦除块来获得详尽的擦除结果参数。然后,Pert介绍基于区域的修改策略,以确保通过从擦除过程中解耦文本本地化来指导删除的文本定位的完整性。受益于简单架构,Pert是一种简单而强大的基线,很容易遵循和开发。广泛的实验表明Pert获得了合成和现实世界数据集的最新状态。代码是可用的,Athttps github.com王莹,87 Pert。

Exploring Stronger Feature for Temporal Action Localization Authors Zhiwu Qing, Xiang Wang, Ziyuan Huang, Yutong Feng, Shiwei Zhang, jianwen Jiang, Mingqian Tang, Changxin Gao, Nong Sang时间操作本地化旨在通过行动类别本地化启动和结束时间。受GPU内存的限制,主流方法为每个视频提取特征。因此,特征质量决定了检测性能的上限。在本技术报告中,我们探讨了基于经典的卷积的骨干和最近的变压器底座震荡。我们发现基于变压器的方法可以实现比基于卷积更好的分类性能,但它们无法生成准确性的行动提案。另外,提取具有更大帧分辨率的特征以减少空间信息的丢失也可以有效地提高时间动作定位的性能。最后,我们通过简单的组合BMN Tcanet实现了验证的验证集42.42,这是一个简单的BMN Tcanet,它比2020 S多模型集合的结果高1.87。最后,我们在CVPR2021 HACS监督时间行动本地化挑战中实现了第1次。

SGTBN: Generating Dense Depth Maps from Single-Line LiDAR Authors Hengjie Lu, Shugong Xu, Shan Cao深度完成旨在从稀疏深度图生成密集深度图并对齐RGB图像。但是,当前深度完成方法使用极其昂贵的64行LIDAR约100,000以获得稀疏深度图,这将限制其应用方案。与64线LIDAR相比,单行LIDAR更便宜,更强大。因此,我们提出了一种解决单线深度完成问题的方法,其中我们的目标是从单行LIDAR信息和对准的RGB图像产生密集的深度图。基于现有的64行深度完成数据集Kitti提出了单行深度完成数据集。为此任务提出了一个名为Semantic引导的两个分支网络SGTBN,其中包含全局和本地分支以提取和保险丝全局和本地信息。我们的网络中使用了一个语义引导深度上采样模块,以充分利用RGB图像中的语义信息。除了通常的MSE亏损外,我们添加了虚拟正常丢失,以增加我们网络中高阶3D几何的约束。我们的网络在单行深度完成任务中优于现有技术。此外,与单眼深度估计相比,我们的方法在精度和模型尺寸方面也具有显着的优势。

Evaluation of deep lift pose models for 3D rodent pose estimation based on geometrically triangulated data Authors Indrani Sarkar, Indranil Maji, Charitha Omprakash, Sebastian Stober, Sanja Mikulovic, Pavol Bauer对实验室动物行为的评估是对现代神经科学研究的核心兴趣。通常在姿势变化方面研究了行为,其理想地捕获三维。这需要通过多摄像机系统进行三角测量,该系统从不同的角度观看动物。然而,由于闭塞和其他技术限制,这在现实实验室设置中具有挑战性。在这里,我们提出了升降机姿势模型,其允许从单个视图相机视图自由移动啮齿动物的鲁棒3D姿态估计。为了获得用于姿势升降的高质量训练数据,我们首先在涉及底部的相机设置中执行几何校准以及表现动物的侧视图。然后,我们根据给定推理的观点评估两个先前提出的模型架构的性能,并且得出结论可以使用时间卷积获得可靠的3D姿势推断。通过这项工作,我们希望为在神经科学区广泛的实验和设置方面,为自由移动啮齿动物提供更强大和多样化的行为跟踪。

Relationship between pulmonary nodule malignancy and surrounding pleurae, airways and vessels: a quantitative study using the public LIDC-IDRI dataset Authors Yulei Qin, Yun Gu, Hanxiao Zhang, Jie Yang, Lihui Wang, Feng Yao, Yue Min Zhu为了研究非对比计算断层摄影术的胸膜,气道和血管是否可以区分良性和恶性肺结核。 LIDC IDRI DataSet是最大的公开可用的CT数据库之一,被利用进行学习。共有1556名来自694名患者的结节涉及统计分析,其中具有平均速度3和3的结节分别表示为良性和恶性肿瘤。此外,来自113名诊断患者的339名结节是独立评估的。将计算机算法开发成肺部结构,并量化胸膜表面,气道和血管的距离,以及结节附近的气道和血管的计数数量和归一化。进行差距或志方志2测试以证明周围结构的特征与结节恶性肿瘤之间的相关性。在逻辑回归中进行了非参数接收器操作特征ROC分析,以评估每个结构的判别能力。对于良性和恶性群体,从结节到胸膜表面,气道和血管的平均距离分别为6.56,5.19,37.08,26.43和1.42,1.07 mm。结节与呼吸数量的关联和接触或朝向结节的血管的相关性分别为22.96,CHI 2 105.04和或7.06,CHI 2 290.11。结节与气道和血管的体积之间的相关性或9.19,CHI 2 159.02和或2.29,CHI 2 55.89。曲线曲线,气道和血管的曲线区域分别为0.5202,0.6943和0.6529。我们的研究结果表明,与良性人员相比,恶性结节通常被更多的肺部结构包围,表明这些结构的特征可以被视为肺癌生物标志物。

Class agnostic moving target detection by color and location prediction of moving area Authors Zhuang He, Qi Li, Huajun Feng, Zhihai Xu移动目标检测在计算机视觉中起着重要作用。然而,诸如帧差和光学流程的传统算法通常遭受低精度或重计算。最近的基于深度学习的卷积神经网络的算法已经取得了高精度和实时性能,但他们通常需要提前了解目标的类别,这限制了实际应用。因此,我们提出了一种自由移动目标检测算法。该算法通过图像特征的差异提取移动区域。然后,将通过最大概率计算移动区域的颜色和位置概率图。并且可以通过两张地图之间的点乘以点来获得目标概率图。最后,可以通过目标概率图上的随机梯度下降来解决最佳移动目标区域。结果表明,该算法与最先进的算法相比实现了最高精度,而无需了解目标类别。此外,当现有数据集不适合移动目标检测时,我们提出了一种制造评估数据集的方法。此外,我们还证明了所提出的算法可用于协助目标跟踪。

Continual Novelty Detection Authors Rahaf Aljundi, Daniel Olmeda Reino, Nikolay Chumerin, Richard E. Turner新颖性检测方法识别不代表模型S训练的样本,从而标记误导性预测并在部署时间带来更大的灵活性和透明度。然而,在该区域的研究中仅考虑了离线设置中的新奇检测。最近,在计算机视觉社区中,应用程序需要更加灵活的框架持续学习,其中新批次,代表新域名,新课程或新任务的新批次在不同的时间点可用。在这个环境中,新奇的检测变得更加重要,有趣和具有挑战性。这项工作确定了两个问题与持续学习环境下的新奇检测问题之间的关键联系。我们制定持续的新颖性检测问题,并提供基准,在不同的持续学习设置下比较几种新颖性检测方法。

Self-Supervised Monocular Depth Estimation of Untextured Indoor Rotated Scenes Authors Benjamin Keltjens, Tom van Dijk, Guido de Croon自我监督的深度学习方法利用立体声图像训练单眼深度估计。虽然这些方法在户外数据集(如KITTI)上显示出强烈的结果,但它们与相机旋转的室内环境上不匹配监督方法的性能。室内,旋转场景对于较少约束的应用和构成问题是常见的,因为两个原因在于低纹理区域的丰富度和旋转图像的图像的深度线索的复杂性增加。努力将自我监督的学习扩展到更广泛的环境,我们提出了两种补充。首先,我们提出了一种新颖的填充差异损失术语,可以纠正Textulless区域中图像重建误差损失的模糊性。具体而言,我们使用周围纹理区域的估计差异在未致致致致细胞区域中插入差异,并使用L1损耗来校正原始估计。我们的实验表明,与Godard等人的单一相比,在低纹理场景中,在低纹理场景中,深度估计显着提高了纹理场景。其次,我们表明,在俯仰和辊中,通过应用S代表性旋转的训练足以显着提高整个预期旋转范围的性能。我们证明,在没有相机旋转的测试集上评估时,深度估计成功概括为性能不会丢失。这些发展能够更广泛地利用复杂环境的单眼深度估计学习。

Regularisation for PCA- and SVD-type matrix factorisations Authors Abdolrahman Khoshrou, Eric J. Pauwels奇异值分解SVD及其紧密相对,主成分分析PCA是众所周知的线性矩阵分解技术,其广泛用于尺寸减少和聚类等应用。然而,SVD PCA的一个重要限制是对输入数据中的噪声的敏感性。在本文中,我们拍摄了正规化问题,并表明最小化问题的不同配方导致定性不同的解决方案。

MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction Authors Guozhi Tang, Lele Xie, Lianwen Jin, Jiapeng Wang, Jingdong Chen, Zhen Xu, Qianying Wang, Yaqiang Wu, Hui Li视觉信息提取VIE任务旨在从多种文档图像中提取关键信息,例如,发票和购买收据。最先前的方法将VIE任务视为序列标记问题或分类问题,这需要模型通过引入多式联偶特征,例如字体,颜色,布局来仔细识别各种语义。但是,当面对数字语义类别或一些模糊的文本时,简单地引入多模式功能可能会很好地工作。为了解决这个问题,在本文中,我们提出了一种基于vie匹配的图形神经网络的新型关键价值匹配模型。通过基于相关性评估的关键价值匹配,所提出的匹配可以绕过各种语义的识别,并简单地关注实体之间的强有力。此外,我们引入了一个简单但有效的操作Num2Vec,以解决编码值的不稳定性,这有助于更平滑的模型会聚。综合实验表明,所提出的匹配可以显着优于先前的方法。值得注意的是,据我们所知,匹配可能是第一次尝试通过建模键和值之间的相关性来解决vie任务,并且它是现有方法的良好补充。

Attention Toward Neighbors: A Context Aware Framework for High Resolution Image Segmentation Authors Fahim Faisal Niloy, M. Ashraful Amin, Amin Ahsan Ali, AKM Mahbubur Rahman由于中间特征图的巨大大小,高分辨率图像分割仍然持挑战性和易于忽略。传统方法通过使用基于贴片的方法来避免此问题,其中每个补丁被独立分割。然而,独立的补丁分割导致错误,特别是在贴片边界处,由于在与完整图像相比的贴片大小的非常高分辨率图像中的上下文信息缺乏上下文信息。为了克服这些限制,在本文中,我们提出了一种新颖的框架来通过从其邻近的补丁中包含上下文信息来分割特定修补程序。这允许分段网络在没有更大的特征映射的情况下看到具有更宽视野的目标补丁。来自许多实验的比较分析表明,我们所提出的框架能够将高分辨率图像分段,具有显着改善的联合和整体精度的平均交叉口。

Unsupervised Deep Image Stitching: Reconstructing Stitched Features to Images Authors Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao基于传统的特征的图像拼接技术严重依赖于特征检测质量,往往不能缝合少数功能或低分辨率的图像。由于缺乏标记数据,很少研究基于学习的图像拼接解决方案,使监督方法不可靠。为了解决上述限制,我们提出了一种无监督的深度图像拼接框架,其由两个阶段无监督粗糙图像对准和无监督的图像重建组成。在第一阶段,我们设计基于消融的损失,以限制无监督的同住网络,这更适合大型基线场景。此外,引入变压器层以在拼接域空间中经过输入图像。在第二阶段,通过洞察力的激励,即在像素级别中的错位可以在特征级别中消除错位,我们设计无监督的图像重建网络,以消除来自特征的伪像到像素。具体地,重建网络可以由低分辨率变形分支和高分辨率精制分支实现,从而学习图像拼接的变形规则并同时增强分辨率。为了建立评估基准和培训学习框架,介绍和释放了一个用于无监督深映像拼接的全面的真实世界图像数据集。广泛的实验很好地展示了我们对现有技术的方法的优越性。即使与监督解决方案相比,我们的图像拼接质量仍然是用户仍然优选。

Detection of Deepfake Videos Using Long Distance Attention Authors Wei Lu, Lingyi Liu, Junwei Luo, Xianfeng Zhao, Yicong Zhou, Jiwu Huang随着近年来DeepFake技术的快速进步,面部视频伪造可以产生高度欺骗的视频内容并带来严重的安全威胁。并检测这种伪造的视频更为紧迫和具有挑战性。大多数现有的检测方法将问题视为香草二进制分类问题。在本文中,问题被视为一个特殊的细粒度分类问题,因为假和真正的面孔之间的差异非常微妙。观察到,大多数现有的面部伪造方法在空间域和时域中留下了一些常见的伪像,包括空间域中的生成缺陷和时域中的帧间帧不一致。提出了一种空间时间模型,其具有分别在全局透视中捕获空间和颞伪迹线的两个组件。两种组件采用新型长距离关注机构设计。空间域的一个组件用于捕获单帧中的伪像,并且时域的其他组件用于捕获连续帧中的伪像。它们以补丁的形式产生注意图。注意方法具有更广泛的愿景,有助于更好地组装全球信息并提取本地统计信息。最后,注意力映射用于指导网络聚焦面部的关键部件,就像其他细粒度的分类方法一样。不同公共数据集的实验结果表明,该方法实现了现有性能的状态,并且所提出的长途注意方法可以有效地捕获面部伪造的关键部件。

Fast Monte Carlo Rendering via Multi-Resolution Sampling Authors Qiqi Hou, Zhan Li, Carl S Marshall, Selvakumar Panneer, Feng Liu蒙特卡罗渲染算法被广泛用于生产光电型计算机图形图像。然而,这些算法需要每个像素采样大量的光线以实现适当的全局照明,因此需要巨大的计算。在本文中,我们介绍了一种混合渲染方法来加速蒙特卡罗渲染算法。我们的方法首先以低分辨率为低分辨率生成两个版本,具有高样本速率LRHS,另一个以低采样率HRL的高分辨率。然后,我们开发一个深度卷积神经网络,使这两个渲染融入高质量的图像,就像以高采样率以高分辨率渲染一样。具体地,我们将该融合任务制定为超分辨率问题,该问题从低分辨率输入LRH生成高分辨率渲染,辅助HRL渲染。 HRL渲染提供关键的高频细节,这些细节难以从LRHS获取任何超分辨率方法。我们的实验表明,当在我们自己的BCR数据集和Gharbi数据集上测试时,我们的混合渲染算法比艺术蒙特卡罗去噪方式的状态明显快于艺术蒙特卡罗去噪方法的速度。 URL.

Towards Automatic Speech to Sign Language Generation Authors Parul Kapoor, Rudrabha Mukhopadhyay, Sindhu B Hegde, Vinay Namboodiri, C V Jawahar我们的目标是解决了第一次从语音段生成连续手语视频的高度挑战性任务。在不考虑其他方式的情况下,这个空间中最近的努力都集中在从人类注释的文本成绩单中产生这些视频。然而,用手语替换语音证明是一个实用的解决方案,同时与遭受听力损失的人们沟通。因此,我们消除了使用文本作为输入和设计技术的需要,这些技术适用于更自然,连续,自由地发出广泛的词汇。由于当前数据集不足以直接从语音生成手语,因此我们收集并释放包括语音级注释,文本成绩单和相应的手语视频的第一个印度标志语言数据集。接下来,我们提出了一种训练的多任务变压器网络,以从语音段生成签名者的姿势。用语音到文本作为辅助任务和额外的跨模式鉴别器,我们的模型学会以结束以结束的方式生成连续标志姿势序列。与其他基线的广泛实验和比较展示了我们方法的有效性。我们还进行额外的消融研究,以分析我们网络不同模块的影响。包含若干结果的演示视频附加到补充材料。

Video Super-Resolution with Long-Term Self-Exemplars Authors Guotao Meng, Yue Wu, Sijin Li, Qifeng Chen现有视频超分辨率方法通常利用少数相邻帧来为每个帧生成更高分辨率的图像。然而,在这些方法中尚未充分利用遥控帧之间的冗余信息,相同实例的相应斑块在不同尺度处的远处帧中出现。基于该观察,我们提出了一种视频超分辨率,具有长期交叉尺度聚集的视频,它利用了跨越帧的类似补丁自我示例。我们的模型还包括多参考对齐模块,以融合从类似补丁导出的功能我们融合了遥远参考的功能,以执行高质量的超分辨率。我们还提出了一种基于转票的新颖和实践培训策略。为了评估我们提出的方法的性能,我们对我们收集的Carcam数据集和Waymo Open DataSet进行了广泛的实验,结果证明了我们的方法优于现有技术的状态。我们的源代码将公开。

Planetary UAV localization based on Multi-modal Registration with Pre-existing Digital Terrain Model Authors Xue Wan, Yuanbin Shao, Shengyang Li行星UAV的自主实时光学导航是保证勘探成功的关键技术。在这种GPS拒绝环境中,基于视觉的本地化是一种最佳方法。在本文中,我们提出了一种基于多模型登记的SLAM算法,其与预先存在的数字地形模型相比,在UAV上使用Nadir视图相机估计行星UAV的位置。为了克服船上UAV图像和预安装数字地形模型之间的刻度和外观差异,提出了一种理论模型来证明UAV图像和DEM的地形特征可以通过交叉功率谱在频域中相关。为了提供无人机的六个DOF,我们还开发了一种优化方法,使GEO通过LBA本地捆绑调整融合到SLAM系统中,以实现鲁棒和准确的基于视觉的导航,即使在无特征的行星区域中也是如此。为了测试所提出的定位算法的稳健性和有效性,提出了一种用于行星勘探的新的跨源无人机的定位数据集。所提出的数据集包括40200种合成无人机图像,其中九个行星场景与相关的DEM查询图像。进行的比较实验证明,在33.8km的飞行距离,所提出的方法达到平均定位误差为0.45米,而ORB SLAM为1.31米,加工速度为12Hz,确保实时性能。我们将使我们的数据集可以鼓励在这一有前途的话题上进一步努力。

Frequency Domain Convolutional Neural Network: Accelerated CNN for Large Diabetic Retinopathy Image Classification Authors Ee Fey Goh, ZhiYuan Chen, Wei Xiang Lim卷积神经网络中的传统空间卷积层CNNS在训练时间可能需要数天的点上计算昂贵,除非层数,训练图像的次数或训练图像的尺寸减小。 256x256像素的图像尺寸通常用于CNN的大多数应用,但对于糖尿病视网膜病变DR分类等应用而言,该图像尺寸太小,其中图像细节对于准确分类是重要的。本研究提出了频域卷积FDC和频域池池FDP层,其用RFFT,内核初始化策略,卷积器删除和渠道独立卷积CIC构建,以取代传统的卷积和汇集层。 FDC和FDP层用于构建频域卷积神经网络FDCNN,以加速对DR分类的大图像的训练。完整的FDC层是FDC层的扩展,以便在传统的CNN中直接使用,它还用于修改VGG16架构。与等效的CNN架构相比,FDCNN速度较快,70.74更快,70.74更高。据报道,具有全FDC层的改进的VGG16架构,以实现更短的培训时间和更高的精度,而在95.63上与原始VGG16架构进行DR分类。

Multi-Modal 3D Object Detection in Autonomous Driving: a Survey Authors Yingjie Wang, Qiuyu Mao, Hanqi Zhu, Yu Zhang, Jianmin Ji, Yanyong Zhang在过去几年中,我们目睹了自动驾驶的快速发展。然而,由于复杂和动态的驾驶环境,实现完全自主权仍然是一个艰巨的任务。因此,自动驾驶汽车配备了一套传感器,可以进行稳健和准确的环境感知。随着传感器的数量和类型继续增加,将它们与更好的感知相结合正在成为一种自然趋势。到目前为止,没有侧无期注目的评论,专注于基于多传感器融合的感知。为了弥补这种差距并激励未来的研究,这项调查旨在审查最近基于融合的3D检测深度学习模型,它利用多个传感器数据来源,尤其是相机和闪光灯。在本调查中,我们首先介绍自动车辆的流行传感器背景,包括它们的常见数据表示以及为每种类型的传感器数据开发的对象检测网络。接下来,我们讨论一些流行的数据集进行多模态3D对象检测,特别关注每个数据集中包含的传感器数据。然后我们通过考虑融合融合位置,融合数据表示和融合粒度的以下三个方面来介绍最近的多模态3D检测网络的深度评论。在详细审查后,我们讨论开放挑战并指出可能的解决方案。我们希望我们的详细审查可以帮助研究人员在多模态3D对象检测领域开始调查。

Feature Completion for Occluded Person Re-Identification Authors Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen人员重新识别Reid在计算机愿景中发挥着重要作用。然而,现有方法在封闭场景中遭受性能下降。在这项工作中,我们提出了一个遮挡强大的块,区域功能完成RFC,用于遮挡REID。不同于丢弃遮挡区域的最先前作品,RFC块可以在特征空间中恢复遮挡区域的语义。首先,开发了空间RFC SRFC模块。 SRFC利用来自非遮挡区域的长距离空间上下文来预测遮挡区域的特征。单位明智的预测任务导致编码器解码器架构,其中区域编码器模拟非遮挡和闭塞区域之间的相关性,并且区域解码器利用空间相关来恢复封闭区域特征。其次,我们介绍时间RFC TRFC模块,该模块捕获长期时间上下文以优化SRFC的预测。 RFC块是重量轻的,端到端可训练,可以轻松插入现有的CNN以形成RFCNet。广泛的实验是在封闭和普通的Reid基准上进行的。我们的方法显着优于遮挡数据集的现有方法,而在整体数据集上仍然是较高的性能。源代码可用

All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection Authors Meng Cao, Can Zhang, Dongming Yang, Yuexian Zou任意形状的文本检测是一个具有挑战性的任务,因为野生中的弯曲文本是复杂的几何布局。现有的主流方法遵循实例分段管线以获取文本区域。然而,由于变化的尺度,难以通过一个分割网络来描绘任意拍摄的文本。在本文中,我们提出了一种基于两级分割的探测器,称为NAKS需要第二个外观,用于任意形状的文本检测。与传统的单级分割网络相比,我们的NAKK以粗略的方式对检测进行粗略地进行矩形文本提案和第二个检索紧凑型表示。具体而言,NASK由文本实例分段TIS网络第一阶段,几何意识文本ROI对齐地理统计模块,以及基准点表达式FOX模块第二阶段。首先,TIS利用新型组空间和通道注意GSCA模块提取增强功能,并进行实例分段以获得矩形提案。然后,Geoalign将这些矩形转换为固定大小并编码ROI Wise特征表示。最后,FOX将文本实例拆解为Serval Tivotal几何属性以优化检测结果。在三个公共基准中的广泛实验结果包括总文本,SCUTCTW1500和ICDAR 2015,验证了我们的NAKS优于最近的最新状态的方法。

Topological Semantic Mapping by Consolidation of Deep Visual Features Authors Ygor C. N. Sousa, Hansenclever F. Bassani近期文献中的许多作品介绍了使用CNNS卷积神经网络的语义映射方法,以识别图像中的语义属性。属性的类型例如。房间大小,地方类别和对象及其课程,例如。厨房和浴室,适用于地方类别通常是预定义的,并限于特定任务。因此,在地图的构造期间获取和处理的所有视觉数据都丢失,并且仅在地图上仍然存在识别的语义属性。相比之下,该工作介绍了一种拓扑语义映射方法,该方法使用由CNN,Goodlenet提取的深度视觉特征从环境中的多个视图中捕获的2D图像,以创建区域中获取的可视特征的统一表示每个拓扑节点覆盖。这些综合表示允许灵活地识别区域的语义属性,并在一系列视觉任务中使用。使用现实世界室内数据集执行的实验表明,该方法能够整合区域的视觉特征,并使用它们识别对象和将类别作为语义属性,并指示图像的拓扑位置,具有非常有前途的结果。使用Googlenet的分类层进行分类对象,无需再培训,并且使用浅多层的Perceptron识别地点类别。

Conditional Deformable Image Registration with Convolutional Neural Network Authors Tony C. W. Mok, Albert C. S. Chung最近的基于深度学习的方法在可变形图像配准中显示了有前途的结果和运行时优势。但是,分析了超参数和搜索最佳正则化参数的影响,证明了在基于深度学习的方法中过于抑漫。这是因为它涉及培训具有不同的超参数值的大量单独模型。在本文中,我们提出了一种有条件的图像登记方法和用于深可变形图像配准的新自我监督学习范式。通过学习与正则化QuandParameter相关的条件特征,我们证明可以通过单个深度卷积神经网络捕获具有任意超参数的最佳解决方案。另外,可以在推理期间以任意平滑正则化的任意强度操纵所得变形场的平滑度。大规模脑MRI数据集的广泛实验表明,我们所提出的方法使得能够精确控制变形场的平滑度,而不会牺牲运行时的优势或登记精度。

What makes visual place recognition easy or hard? Authors Stefan Schubert, Peer Neubert视觉地位识别是移动机器人本地化的基本能力。它在物理世界中操作的物理代理的实际背景下放置图像检索。它是一种积极的研究领域,在许多不同的实验中提出并评估了许多不同的方法。在下文中,我们认为,由于这种实际情况和个人设计决策的变化,地点识别实验在不同的纸质上几乎没有比较,并且有各种各样的性质可以从一个实验到另一个实验发生变化。我们提供了广泛的此类属性列表,并举例说明如何使用它们更容易或更难的位置识别实验。这可能对不同涉及的缔约方有趣的是一个只想选择适合其特定任务的属性的人,2名研究人员来说,这是一个寻找开放研究问题的研究人员,并对特别困难的情况感兴趣3个作者这希望在本主题创建可重复的论文,4个也有审查员,该审核人员可以识别正在审查的论文中的潜在问题。

Human Activity Recognition using Continuous Wavelet Transform and Convolutional Neural Networks Authors Anna Nedorubova, Alena Kadyrova, Aleksey Khlyupin世界上有很多人必须保持永久监测,因为健康原因,他们包括糖尿病人或其他一些慢性病的人,老人和残疾人。这些团体可能面临着生命威胁下降或被击中的风险一个晕厥。由于资源可用性有限,风险的大部分人无法获得必要的监测,因此暴露于过度危险。如今,这个问题通常通过应用人类活动识别Har方法来解决。 HAR是一个透视和快节奏的数据科学领域,具有广泛的应用领域,如医疗保健,运动,安全等。然而,目前的识别技术明显缺乏准确性,因此缺乏本文表明高度准确人类活动分类方法。 Wepropose一个新的工作流程来解决HAR问题并在UNIMIB Shar DataSet上进行评估,该数据集由加速度计信号组成。我们建议的模型基于连续小波变换CWT和卷积神经网络CNNS。小波变换定位在时间和频率域中的信号特征,之后CNN提取这些功能并识别活动。值得注意的是,CWT将1D加速度计信号转换为2D图像,从而使得能够获得更好的结果,因为2D网络具有明显更高的预测能力。在工作过程中,我们构建卷积神经网络并随着空间轴的数量,层数,每层的神经元数,图像尺寸,母小波类型,母小波的顺序而变化。此外,我们还应用具有剩余块的模型,导致度量明显更高。最后,我们成功达到99.26的准确性,这是一个值得这个问题的表现。

Florida Wildlife Camera Trap Dataset Authors Crystal Gagne, Jyoti Kini, Daniel Smith, Mubarak ShahTrail Camera Imagery在生物学家中越来越受到保护和生态研究的流行。操作摄像机陷阱所需的最小人性干扰允许捕获无偏见的物种活动。基于人和野生动物互动的几项研究,各种物种的迁徙模式,濒危人群灭绝的风险受到缺乏丰富的数据和手动注释迹线相机图像的耗时性质的限制。我们介绍了从佛罗里达州西南部的两个不同地点收集的挑战性野生动物摄像头陷阱分类数据集,包括104,495张图片,具有视觉上类似的物种,不同的照明条件,偏斜阶级分布以及包括濒危物种的样本,即佛罗里达黑豹。与RESET 50架构的实验评估表明基于图像的数据集可以进一步推动野生动物统计建模的进步。我们将公开提供数据集。

IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision Transformers Authors Bowen Pan, Yifan Jiang, Rameswar Panda, Zhangyang Wang, Rogerio Feris, Aude Oliva基于自我注意的模型,变压器,最近成为计算机视野领域的领先骨干。尽管变压器在各种视野任务中取得了令人印象深刻的成功,但它仍然存在沉重的计算和密集内存成本。为了解决这个限制,本文提出了一种可解释性意识的冗余减少框架IA红色2。我们首先观察大量的冗余计算,主要花在不相关的输入修补程序上,然后引入可解释的模块以动态且优雅地删除这些冗余补丁。然后将该新颖框架扩展到分层结构,其中不同阶段的不相关令牌逐渐被移除,导致计算成本相当收缩。我们在图像和视频任务中包括广泛的实验,其中我们的方法可以通过仅牺牲小于0.7的精度,为艺术模型的状态提供高达1.4倍的速度。更重要的是,与其他加速方法相反,我们的方法本质上是具有实质性视觉证据的可观解释,使视觉变压器更接近更加人类的理解建筑,同时更轻。我们证明,我们框架中自然出现的可解释性可以越优于原始的视觉变压器学习的原始注意力,以及由货架解释方法产生的那些,具有定性和定量结果。项目页面

Handwritten Digit Recognition using Machine and Deep Learning Algorithms Authors Samay Pashine, Ritik Dixit, Rishika Kushwah人类对机器的依赖从未如此之高,使得从照片中的对象分类来向静音电影添加声音,可以通过深度学习和机器学习算法来执行所有内容。同样,手写的文本识别是具有可以实现的流媒数的重要研究和开发领域之一。手写识别HWR,也称为手写文本识别HTR,是计算机接收和解释从索取文件,照片,触摸屏和其他设备1的源的可理解手写输入的能力。显然,在本文中,我们使用支持向量机SVM,多层Perceptron MLP和卷积神经网络CNN模型的MNIST数据集进行了手写的数字识别。我们的主要目标是比较上面规定的模型的准确性以及他们的执行时间来获得最佳模型的数字识别。