【AI视野·今日CV 计算机视觉论文速览第228期】Tue, 29 Jun 2021

AI视野·今日CS.CV 计算机视觉论文速读 Tue, 29 Jun 2021 (showing first 100 of 120 entries) Totally 100 papers ??上期速览?更精彩请移动主页

在这里插入图片描述

Interesting:

??*****提升Transformer早期的卷积层训练稳定性和性能， (from FAIR)

??***CCS基于循环行列MLP视觉网络， (from 百度认知实验室)

??****CLIPDraw文本到绘图合成，语言图像编码器， (from Cross Labs JP MIT)

code:https://colab.research.google.com/github/kvfrans/clipdraw/blob/main/clipdraw.ipynb cross compass:https://github.com/xc-jp https://www.cross-compass.com/ Contrastive Language-Image Pre-training: CLIP

??***Fractal Pyramid Networks, 提取多个信息处理渠道和特征分支的分数架构。(from 浙大)

??VAT-MART, 预测人工物体的操作轨迹。(from 北大) web：https://hyperplane-lab.github.io/vat-mart

??DenseTNT, 自动驾驶中的运动预测问题(from 清华 )

code:https://waymo.com/open/challenges

??***Interflow,多层特征映射机制础的多层特征映射机制和聚合。(from 南京大学)

??***3D Spherical Neurons球神经元用于点云学习。(from 林雪平大学)

Daily Computer Vision Papers

Rethinking Token-Mixing MLP for MLP-based Vision Backbone Authors Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li在过去的十年里，我们在机器视觉骨干中发展迅速。通过将电感偏差引入图像处理，卷积神经网络CNN它在许多计算机视觉任务中取得了优异的性能，并已建立起来Emph de骨干。近年来，通过变压器NLP视觉变压器模型出现在任务中取得巨大成功的启发下。与CNN与对应物相比，使用较少的归纳偏差在计算机视觉任务中取得了希望。最近，研究人员使用纯净MLP架构调查，以建立视觉骨干，以进一步降低电感偏差，实现良好的性能。纯MLP基于频道混合的骨架MLPS，混合通道和令牌MLP贴片之间熔合的通信。本文认为令牌混合MLP的设计。我们发现了一些MLP骨干中的令牌混合MLP它是空间特异性的，所以它对空间翻译很敏感。同时，现有令牌混合MLP该通道的不可知性将其能力限制在混合令牌中。为了克服这些限制，我们提出了一种循环通道特异性CCS令牌混合MLP改进结构是空间不变和特定通道。它需要更少的参数，但在ImageNet1k分类准确性较高。

Early Convolutions Help Transformers See Better Authors Tete Xiao, Mannat Singh, Eric Mintun, Trevor Darrell, Piotr Doll r, Ross Girshick视觉变压器Vit模型优化不合格。特别是对于优化器Adamw与SGD，培训计划长度选择优化器超参数敏感。相比之下，现代卷积神经网络更容易优化。在这项工作在这项工作的帮助下猜测这个问题？vit在输入图像的默认情况下，模型的的默认情况P PXP卷积P 16实现。计数器采用大步卷积和神经网络中典型的卷积层设计。为了测试这个非典型设计选择是否导致问题，我们将vit与原有的涂层茎相比，模型的优化行为通过少量的堆叠卷曲，我们通过少量的堆叠步伐来改变vit阀门。虽然两种Vit大多数设计都是相同的，但我们发现早期视觉处理的小变化导致了对优化设置和最终模型精度的敏感性。在VIT卷积杆的使用显著提高了优化稳定性Imagenet 1K峰值性能在保持拖鞋和运行的同时，通过12前1的精度提高。可以在从1G到36G拖伏宽范围模型的复杂性横跨Imagenet 1K到Imagenet 21k观察到数据集尺度的改进。这些调查结果引导我们使用标准的轻质卷积阀与原始卷积阀Vit建筑选择比模型设计更强大。

HDMapGen: A Hierarchical Graph Generative Model of High Definition Maps Authors Lu Mi, Hang Zhao, Charlie Nash, Xiaohan Jin, Jiyang Gao, Chen Sun, Cordelia Schmid, Nir Shavit, Yuning Chai, Dragomir Anguelov高定义高清地图是定义准确、交通规则语义丰富的地图。它们对自主驾驶系统的几个关键阶段至关重要，包括运动预测和规划。然而，现实世界中只有少量的道路拓扑和几何形状，这显然限制了我们测试自动驾驶堆的能力，以总结新的无形场景。为了解决这个问题，我们介绍了一成高清地图的新的具有挑战性的任务。在这项工作中，我们使用不同的数据来探索几种自回归模型，包括序列、纯图和分层图。我们提出了HDMAPGEN，高质量、多样化的高清地图等级图形可以通过粗糙的方法生成。协会数据集和房屋数据集的实验表明，HDMAPGEN明显优于基线方法。另外，我们证明HDMAPGEN实现了高可扩展性和效率。

Explicit Clothing Modeling for an Animatable Full-Body Avatar Authors Donglai Xiang, Fabian Andres Prada, Timur Bagautdinov, Weipeng Xu, Yuan Dong, He Wen, Jessica Hodgins, Chenglei Wu最近的工作在动画全身编解码全身编解码器头像方面取得了很大的进步，但这些化身仍然面临困难，发电服装的高保真动画仍然面临困难。为了解决困难，我们提出了一种制作动画头像的方法，从多视图捕获的视频中上半身的衣服表示。我们用两层网格单独注册3D扫描模板。为了改善不同帧的光度对应性，通过逆转录的衣服几何形状和变形自动码器预测的纹理进行纹理对准。然后，我们用外套和内部主体层的单独建模来训练新的两层编码器头像。为了了解身体动态和服装状态之间的互动，我们使用时间积累网络基于一系列输入骨架姿势来预测服装潜力。我们向三位不同的演员表达了光动画的输出，并在上一份工作中展示了身体化身的优势。我们还展示了明确服装模型的好处，可以在动画输出中编辑服装纹理。

K-Net: Towards Unified Image Segmentation Authors Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy尽管有不同的相关框架，已经通过不同的和专门的框架解决了语义，实例和Panoptic分段。本文为这些基本相似的任务提供了一个统一，简单，有效的框架。该框架，名为K NET，段落的一组被学习内核的实例和语义类别，其中每个内核负责为潜在实例或填充类生成掩码。为了解决区分各种实例的困难，我们提出了一个内核更新策略，它使每个内核动态和条件在输入图像中的其有意义的组上。 K NET可以在结束时培训，以与二分匹配为止，其培训和推论自然是免费的，盒子免费。如果没有钟声和口哨，K网超越了先前的所有先前状态的艺术单一模型，分别在ADE20K上与52.1 PQ和54.3 miou的ADE20K上的COCO和语义分段上的PANoptic Semonation结果。其实例分段性能也与级联掩模R CNNON MS COCO相同，具有60 90升的推理速度。代码和模型将被释放

Iris Presentation Attack Detection by Attention-based and Deep Pixel-wise Binary Supervision Network Authors Meiling Fang, Naser Damer, Fadi Boutros, Florian Kirchbuchner, Arjan Kuijper虹膜呈现攻击检测垫在虹膜识别系统中起着重要作用。基于CNN的最现有的CNN IRIS PAD解决方案1仅在CNNS培训期间执行二进制标签监控，服务全球信息学习但削弱局部鉴别特征的捕获，2更喜欢堆叠更深层次的卷曲或专家设计的网络，提高了过度装备的风险，3保险丝多垫系统或各种类型的功能，越来越难以在移动设备上部署。因此，我们提出了一种基于深度的深度引起的深映射二进制监控PBS方法。像素明智的监督首先能够捕获细粒度像素补丁级别提示。然后，注意机制指导网络自动找到最多有助于准确的焊盘决定的区域。在Livdet Iris 2017和其他三个公开数据库上进行了广泛的实验，以显示提出的PBS方法的有效性和稳健性。例如，PBS模型在IITD WVU数据库上实现了6.50的HTER，现有技术的表现优势。

CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders Authors Kevin Frans, L.B. Soros, Olaf Witkowski这项工作提出了ClipDraw，这是一种算法，其基于自然语言输入综合新颖绘图。 ClipDraw不需要任何培训，而是将预先训练的剪辑语言图像编码器用作度量标准，以便最大化给定描述和生成的图形之间的相似性。 Clipeally，ClipDraw在向量中进行操作，而不是像素图像，这是一个对更简单的人类可识别形状偏置图的约束。结果通过优化方法突出ClipDraw和其他综合，以及突出ClipDraw的各种有趣行为，例如以多种方式满足模糊文本，可靠地在不同的艺术风格中制作图纸，并且从简单到复杂的视觉表示，作为笔划计数增加。有关该方法的试验代码可供选择

Dataset Bias Mitigation Through Analysis of CNN Training Scores Authors Ekberjan Derman训练数据集对于基于卷积神经网络的算法至关重要，直接影响其整体性能。因此，始终需要使用具有最小偏差水平的井结构数据集。在本文中，我们提出了一种新颖的域独立方法，称为基于分数的重采样SBR，以基于使用该训练集获得的模型预测分数来定位原始训练数据集的表示样本。在我们的方法中，一旦接受培训，我们使用相同的CNN模型来推断自己的训练样本，获得预测分数，并基于预测和地面真理之间的距离，我们识别远离地面真相并增加它们的样本在原始培训集中。 S形函数的温度术语降低以更好地区分得分。对于实验评估，我们为性别分类选择了一个摇臂数据集。我们首先使用基于CNN的分类器，具有相对标准的结构，在训练图像上培训，并在原始数据集的提供的验证样本上进行评估。然后，我们在完全新的测试数据集中评估它，包括轻型男性，轻的女性，黑雄性和黑色女性团体。获得的精度变化，揭示了对原始数据集中的某些组的分类偏差的存在。随后，根据我们提出的方法，我们在重新采样后培训了模型。我们将我们的方法与先前提出的变分性AutoEncoder VAE算法进行了比较。所获得的结果证实了我们建议的方法对原始数据集之间代表样本的识别识别的有效性，以减少分类某些组的分类偏差。虽然测试了性别分类，但是所提出的算法可用于调查基于CNN的任意CNN的数据集结构。

Hyperspectral Remote Sensing Image Classification Based on Multi-scale Cross Graphic Convolution Authors Yunsong Zhao, Yin Li, Zhihan Chen, Tianchong Qiu, Guojin Liu特征的挖掘和利用直接影响了对高光谱遥感图像分类和识别的模型的分类性能。传统模型通常从单一的角度进行特征开采，其中特征在于被挖掘有限，并且它们之间的内部关系被忽略。因此，有用的特征丢失，分类结果不满意。为了完全挖掘并利用图像特征，提出了一种新的多尺度特征挖掘学习算法MGRNet。该模型使用主成分分析来降低原始高光谱图像HSI的维度，以保留其语义信息的99.99并提取维度减少特征。使用多尺度卷积算法，开采输入维数减少特征，以获得浅的特征，然后送入多尺度图卷积算法的输入，以构造不同尺度的特征值之间的内部关系。然后，我们在通过图表卷积获得的多尺度信息的交叉融合，在输入为深度特征挖掘的残余网络算法中获得的新信息之前。最后，使用灵活的最大传输函数分类器来预测最终特征并完成分类。三个常见的高光谱数据集的实验显示了本文提出的MGRNET算法，以识别准确性优于传统方法。

A Theory-Driven Self-Labeling Refinement Method for Contrastive Representation Learning Authors Pan Zhou, Caiming Xiong, Xiao Tong Yuan, Steven Hoi对于图像查询，无监督的对比学习标签与阳性相同图像的作物，以及其他图像作物作为否定。虽然直观，但原生标签分配策略不能揭示查询及其阳性和否定之间的潜在语义相似性，并且损害性能，因为一些否定是语义上类似于查询甚至与查询共享相同的语义类。在这项工作中，我们首先证明，对于对比学习，不准确的标签分配严重损害其对语义实例歧视的泛化，而准确的标签则有利于其泛化。受到这个理论的启发，我们提出了一种新颖的自我标签对比学习的细化方法。它通过两个互补模块改善了标签质量，即可自行标记炼油厂SLR，以产生准确的标签和II动量混合MM，以增强查询与其正的相似性。 SLR使用阳性查询来估计查询和积极和否定之间的语义相似性，并将估计的相似性与Vanilla标签分配相结合，以便迭代地生成更准确和信息丰富的软标签。理论上我们显示我们的SLR可以完全恢复标签损坏数据的真正语义标签，并监督网络以实现分类任务的零预测错误。 MM随机结合查询和阳性，以增加所生成的虚拟查询和它们的阳性之间的语义相似性，以提高标签精度。 CIFAR10，Imagenet，VOC和Coco的实验结果表明了我们方法的有效性。 Pytorch码和模型将在线发布。

One-Shot Affordance Detection Authors Hongchen Luo 1 , Wei Zhai 1 and 3 , Jing Zhang 2 , Yang Cao 1 , Dacheng Tao 3 1 University of Science and Technology of China, China, 2 The University of Sydney, Australia, 3 JD Explore Academy, JD.com, China 可用性检测是指识别图像中对象的潜在动作可能性，这是机器人感知和操纵的重要能力。为了使机器人能够在看不见的情景中具有这种能力，我们考虑了本文的挑战，即，给定描述动作目的的支持图像，应检测到具有共同带来的场景中的所有对象。为此，我们设计了一个拍摄的一拍了一拍了OS广告网络，首先估计目的，然后将其传送以帮助检测所有候选图像的共同承受。通过协作学习，OS AD可以捕获具有相同潜在可供性的对象之间的共同特征，并学习良好的适应能力，以感知看不见的能力。此外，我们通过从31带31次提供和标记4K图像和72个对象类别来构建一个目的驱动的无力数据集垫。实验结果表明，在客观指标和视觉质量方面，我们对以前代表性的模型的优越性。基准套件是ProjectPage。

Real-Time Human Pose Estimation on a Smart Walker using Convolutional Neural Networks Authors Manuel Palermo, Sara Moccia, Lucia Migliorelli, Emanuele Frontoni, Cristina P. Santos康复对于改善流动性障碍的生活质量是重要的。智能步行者是一个常用的解决方案，应该嵌入自动和客观工具，用于循环控制和监控中的数据驱动的人。但是，目前的解决方案专注于从专用传感器中提取少量特定指标，没有统一的全身方法。我们调查一般，实时，全身姿势估计框架，基于两个RGB D相机流，其安装在康复中使用的智能助行器设备上。使用两个阶段神经网络框架执行人的关键点估计。 2D阶段实现检测模块，该检测模块在2D图像帧中定位身体键点。 3D阶段实现了一个回归模块，其升级并将两个相机中的检测到的关键点相对于助行器涉及到3D空间。模型预测低通滤波以提高时间一致性。使用自定义采集方法来获取数据集，其中具有14个健康的科目，用于培训和评估拟议的框架离线，然后部署在真实的助行器设备上。报告了2D级的3.73像素的总体关键点检测误差和3D阶段44.05mm，推测时间为26.6ms，当时在步行者的受限硬件上部署。我们在智能步行者背景下提出了一种新的患者监测和数据驱动人员的方法。它能够实时提取完整和紧凑的身体表示以及从廉价的传感器中提取完整和紧凑的体表示，作为下游度量提取解决方案和人体机器人交互应用的公共基础。尽管结果有前途，但应对具有损伤的用户收集更多数据，以评估其作为现实世界情景中的康复工具的性能。

Unsupervised Discovery of Actions in Instructional Videos Authors AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo, Irfan Essa在本文中，我们解决了从教学视频中自动发现无人监督的原子行为的问题。教学视频包含复杂的活动，是智能代理的丰富信息来源，例如，自主机器人或虚拟助手，例如，可以从教学视频中自动读取步骤并执行它们。但是，视频很少有原子活动，界限或持续时间注释。我们提出了一种无人监督的方法来从各种教学视频中学习结构化人类任务的原子行动。我们提出了一种序贯的随机自回归模型，用于视频的时间分割，从而了解任务的不同原子动作之间的顺序关系，并为视频提供自动和无监督的自我标记。我们的方法优于艺术艺术的状态无监督的方法。我们将开源代码。

Real-Time Multi-View 3D Human Pose Estimation using Semantic Feedback to Smart Edge Sensors Authors Simon Bultmann, Sven Behnke我们介绍了一种从多相机设置估计3D人类姿势的新方法，采用分布式智能边缘传感器，通过语义反馈回路与后端耦合。每个摄像机视图的2D接头检测在专用嵌入式推断处理器上本地执行。在网络上仅传输语义骨架表示，并在传感器板上保持原始图像。 3D姿势从中央后端的2D关节恢复，基于三角测量和一个人的模型，该模型包括人体骨架的先验知识。从后端到各个传感器的反馈通道在语义级别实现。将Allocentric 3D姿势倒置到传感器视图中，在那里它与2D联合检测融合。因此可以通过结合全局上下文信息来提高每个传感器上的局部语义模型。整个管道能够实时运行。我们在三个公共数据集中评估我们的方法，在那里我们实现了最先进的结果，并显示了我们的反馈架构的好处，以及我们自己的多人实验设置。使用反馈信号改善了2D联合检测，并且又估计的3D姿势。

Motion Projection Consistency Based 3D Human Pose Estimation with Virtual Bones from Monocular Videos Authors Guangming Wang, Honghao Zeng, Ziliang Wang, Zhe Liu, Hesheng Wang实时3D人类姿态估计对于人机互动至关重要。它是便宜且实用的是仅从单眼视频估计3D人类姿势。然而，近期基于骨剪接的3D人姿势估计方法带来了累积误差的问题。在本文中，提出了虚拟骨骼的概念来解决这种挑战。虚拟骨骼是非相邻关节之间的虚构骨骼。它们不存在于现实中，但它们为3D人类关节估计带来了新的循环约束。本文中所提出的网络同时预测真实的骨骼和虚拟骨骼。真实骨骼的最终长度被由预测的真实骨骼和虚拟骨骼构成的循环约束和学习。此外，考虑了连续框架中的关节的运动约束。通过网络预测的2D投影位置位移与相机捕获的真实2D位移之间的一致性被提出为3D人类姿势学习的新投影一致性损失。人体3.6M数据集的实验表明了该方法的良好性能。消融研究证明了所提出的帧间投影一致性约束和帧内帧间循环约束的有效性。

Fast computation of mutual information in the frequency domain with applications to global multimodal image alignment Authors Johan fverstedt, Joakim Lindblad, Nata a Sladoje多模式图像对齐是在不同成像技术或在不同条件下找到图像之间的空间对应的过程，以促进异构数据融合和相关分析。相互信息MI的信息理论概念被广泛用作引导多式联合对准过程的相似度措施，其中大多数作品专注于MI的局部最大化，通常仅适用于小型位移，这指出了对MI的全局最大化的需要，由于现有算法的高运行时间复杂性，这先前已经计算得不可行。我们提出了一种用于计算MI的高效算法，用于计算作为交叉互信息函数CMIF的所有离散位移，这基于频域中计算的跨相关性。我们表明该算法等同于直接方法，而在运行时的渐近上优越。此外，我们提出了一种用于多模式图像对准的方法，用于具有少量自由度的变换模型。基于所提出的CMIF算法刚性。我们评估所提出的方法对三个不同的基准数据集，空中图像，细胞学图像和组织学图像的功效，并且我们在恢复已知的刚性变换时观察出优异的成功率，总体优于替代方法，包括MI的局部优化以及MI的局部优化以及几种最近的基于深度学习的方法。与直接方法的GPU实现相比，我们还评估了所提出的算法的GPU实现的运行时间，并观察从100到超过100,000次的速度UPS为现实图像尺寸。代码以URL为开放源共享

Fractal Pyramid Networks Authors Zhiqiang Deng, Huimin Yu, Yangqi Long我们提出了一种新的网络架构，分形金字塔网络PFNS用于像素明智的预测任务作为广泛使用的编码器解码器结构的替代方案。在编码器解码器结构中，通过编码解码管道处理输入，该方法尝试获得语义大信道特征。与之不同，我们提出的PFNS保持多个信息处理路径，并将信息编码为多个单独的小信道特征。关于自我监督单眼深度估计的任务，即使没有想象成掠夺，我们的模型也可以竞争或胜过凯蒂数据集上的现有技术的状态，具有更少的参数。此外，预测的视觉质量显着提高。语义分割的实验提供了证据表明PFN可以应用于其他像素明智的预测任务，并表明我们的模型可以捕获更多的全局结构信息。

Dataset and Benchmarking of Real-Time Embedded Object Detection for RoboCup SSL Authors Roberto Fernandes, Walber M. Rodrigues, Edna Barros当在特定上下文中产生对象检测的模型时，第一个障碍是具有标记所需类的数据集。在Robocup中，一些联赛已经有多个数据集培训和评估模型。但是，在小型联盟SSL中，还没有这样的数据集。本文介绍了一个开源数据集，可用作SSL中实时对象检测的基准。这项工作还提出了一种管道，用于在低功耗嵌入式系统中培训，部署和评估卷积神经网络CNNS模型。该管道用于评估具有最佳优化模型的建议的数据集。在此数据集中，MobiLenet SSD V1在SSL机器人运行时在每秒94个FPS上实现44.88 AP 68.81 AP50。

Privacy-Preserving Image Acquisition Using Trainable Optical Kernel Authors Yamin Sepehri, Pedram Pad, Pascal Frossard, L. Andrea Dunbar保护隐私是我们社会的越来越令人担忧，其中传感器和摄像机普遍存在。在这项工作中，我们首次提出了一种可训练的图像获取方法，该方法可以在达到图像传感器之前去除光学域中的敏感标识信息。该方法来自可训练的光学卷积核，其在滤除敏感内容的同时发送所需信息。由于在到达图像传感器之前抑制了敏感内容，因此不会进入数字域，因此通过任何类型的隐私攻击是未进入的。这与当前的数字隐私保留方法相反，所有都容易直接访问攻击。此外，与无法接受培训的先前光学隐私保留方法相比，我们的方法是针对手头的特定应用程序的数据驱动和优化。此外，由于该处理在光学域中被动地发生了这种处理，因此在采集系统上没有额外的计算，存储器或电力负担，并且甚至可以一起使用并在全数字隐私保存系统的顶部。所提出的方法适用于不同的数字神经网络和内容。我们展示了几种场景，例如微笑检测作为所需属性，而性别被滤除为敏感内容。我们与两个对手神经网络一起培训了光学核，其中分析网络试图检测所需的属性和对手网络试图检测敏感内容。 We show that this method can reduce 65.1 of sensitive content when it is selected to be the gender and it only loses 7.3 of the desired content.此外，我们使用深度重建方法重建原始面，证实重建攻击的无效性以获得敏感内容。

Contrastive Counterfactual Visual Explanations With Overdetermination Authors Adam White, Kwun Ho Ngan, James Phelan, Saman Sadeghi Afgeh, Kevin Ryan, Constantino Carlos Reyes Aldasoro, Artur d Avila Garcez本文介绍了一种新颖的可解释的AI方法，称为清晰图像。清晰的图像是基于视图，即令人满意的解释应该是对比的，反事实和可测量的。通过通过对抗通过对抗学习将图像与自动生成的图像对比，清除图像通过对应于自动生成的图像来解释图像S分类概率。这使得能够忠实地确定每个分段的突出分割和扰动。清晰的图像成功应用于医学成像案例研究，其中使用新颖的指向游戏度量平均27个以27的方式表现出诸如毕业凸轮和石灰的方法。清除图像excel excels在识别图像中有多个贴片的因果过量确定的情况下，其中任何一个都足以使分类概率接近一个。

A Diffeomorphic Aging Model for Adult Human Brain from Cross-Sectional Data Authors Alphin J Thottupattu, Jayanthi Sivaswamy, Venkateswaran P.Krishnan大脑的规范性老化趋势可以作为评估神经结构障碍的重要参考。这些模型通常由纵向脑图像数据在不同的时间点上跟踪相同主题的数据。在实践中，获得这种纵向数据是困难的。我们提出了一种方法来开发给定群体的老化模型，在没有纵向数据的情况下，通过在不同时间点的不同对象的图像中使用来自不同的时间点的图像，所谓的横截面数据。我们将老化模型定义为源自数据的结构模板上的扩散模型，并提出一种方法，该方法开发了浅与自然老化的拓扑衰老模型的方法。在两个公共横截面数据集上成功验证了所提出的模型，提供由不同年龄点的不同主体组构成的模板。

R2RNet: Low-light Image Enhancement via Real-low to Real-normal Network Authors Jiang Hai, Zhu Xuan, Ren Yang, Yutong Hao, Fengzhu Zou, Fang Lin, Songchen Han在弱照明条件下捕获的图像将严重降低图像质量。求解一系列低光图像的降解可以有效地提高图像的视觉质量和高级视觉任务的性能。在本文中，我们提出了一种基于Retinex理论的低光图像增强的实际正常网络，包括三个子网，包括三个子网，一个denoise网和revight网。这三个子网分别用于分解，去噪和对比增强。与最先前的方法不同，我们收集第一个大型现实世界成对的低正常灯图像数据集LSRW数据集进行培训。我们的方法可以正确地改善对比度并同时抑制噪声。公开可用数据集的广泛实验表明，我们的方法在定量和视觉上通过大型裕度优于现有技术的现有状态。我们还表明，通过在低光条件下的方法获得的增强结果，可以有效地改善了高级视觉任务的性能。我们的代码和LSRW数据集可用

Cheating Detection Pipeline for Online Interviews and Exams Authors Azmi Can zgen, Mahiye Uluya mur zt rk, Umut Bayraktar由于流行病和远程工作环境的优势，远程审查和求职面试获得了普及，并变得不可或缺。大多数公司和学术机构利用这些系统为他们的招聘流程以及在线考试。然而，远程检查系统的一个关键问题是在可靠的环境中进行考试。在这项工作中，我们展示了一个作弊分析管道，用于在线访谈和考试。该系统仅需要候选人的视频，在考试期间记录。然后采用作弊检测管道来检测另一个人，电子设备使用和候选缺席状态。管道由面部检测，面部识别，对象检测和面部跟踪算法组成。为了评估管道的表现，我们收集了私人视频数据集。视频数据集包括作弊活动和清洁视频。最终，我们的管道提供了一种有效和快速的准则，可以检测和分析在线访谈和考试视频中的作弊活动。

Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs Authors Daniel Reich, Felix Putze, Tanja Schultz随着在VQA的推理过程中提高系统透明度和视觉接地的表达目标，我们为基于场景图的组成VQA的任务提供了一种模块化系统。我们的系统被称为冒险家的宝藏狩猎或ATH，以类比命名，我们在我们的模型S搜索程序之间抽出答案和冒险家搜索宝藏。我们开发了三个特征特征的思想1.通过设计，Ath允许我们明确地量化每个子组件对整体VQA性能的影响，以及它们在各个子任务上的性能。 2.通过在宝藏狩猎之后建模搜索任务，Ath本质地为处理问题产生了明确的视觉接地推理路径。 3. Ath是第一个通过直接查询视觉知识库而动态提取答案的GQA培训的VQA系统，而不是通过预先固定的答案词汇表中从特殊学习的分类器输出分布中选择一个。我们在GQA数据集中报告了所有组件的详细结果以及对整体VQA性能的贡献，并显示ATH实现所有检查系统中最高的视觉接地分数。

A More Compact Object Detector Head Network with Feature Enhancement and Relational Reasoning Authors Wen chao Zhang, Chong Fu, Xiang shi Chang, Teng fei Zhao, Xiang Li, Chiu Wing Sham建模隐式功能交互模式对对象检测任务具有重要意义。然而，在两个阶段的探测器中，由于手工制作组件过度使用，非常难以理解实例特征的隐式关系。为了解决这个问题，我们分析了三个不同级别的特征交互关系，即裁剪本地特征与全局特征之间的依赖关系，实例内的特征自相关，以及实例之间的互相关关系。为此，我们提出了一种更紧凑的对象检测器头网络Codh，其不仅可以保留全局上下文信息并冷凝信息密度，而且还允许在更大的矩阵空间中进行实例明智的特征增强和关系推理。如果没有钟声和吹口哨，我们的方法可以有效地提高检测性能，同时显着减少模型的参数，例如，通过我们的方法，头部网络的参数比艺术级联R CNN的状态小0.6倍，但是COCO测试开发的性能提升为1.3。如果没有失去泛，我们也可以通过组装我们的方法来为其他多级探测器构建更轻的头网络。

False Negative Reduction in Video Instance Segmentation using Uncertainty Estimates Authors Kira Maag图像的实例分割是自动化场景了解的重要工具。通常培训神经网络，以在准确性方面优化它们的整体性能。同时，在自动驾驶等应用中，被忽视的行人似乎比虚假检测到的行人更有害。在这项工作中，我们给出了一种假阴性检测方法，其基于在线应用程序中的图像序列的可用性的时间序列的不一致性序列的图像序列。由于该算法可以大大增加实例的数量，我们使用在实例聚合的不确定性估计来应用假阳性剪枝。为此，构造实例明确度量标准，其表征给定实例的不确定性和几何体，或者在深度估计上进行预测。所提出的方法用作适用于任何可以在单帧上培训的神经网络的后处理步骤。在我们的测试中，我们通过融合检测方法获得了假阴性和假实例之间的改进折衷，与推断过程中实例分段网络提供的普通得分值相比，我们的融合检测方法在使用的普通得分值相比。

Dizygotic Conditional Variational AutoEncoder for Multi-Modal and Partial Modality Absent Few-Shot Learning Authors Yi Zhang, Sheng Huang, Xi Peng, Dan Yang数据增强是一种强大的技术，可以提高少数拍摄分类任务的性能。它会生成更多的样本作为补充，然后可以将此任务转换为解决方案的共同监督学习问题。然而，基于大多数主流数据增强的方法仅考虑单个模态信息，这导致产生的功能的低分集和质量。在本文中，我们提出了一种名为Dizygotic Comitional变形AutoEncoder DCVAE的新型多模态数据增强方法，用于解决上述问题。 DCVAE通过配对两种条件变分性自身的特征合成，其具有相同的种子但不同的模态条件以Dizygotic Symbiisis的方式。随后，自适应地组合两个CVAE的生成特征以产生最终特征，其可以转换回其配对条件，同时确保这些条件与原始条件相一致，不仅在表示中而且在功能中。 DCVAE通过利用不同模式先前信息的补充，基本上在各种多模态方案中提供了数据增强的新思想。广泛的实验结果表明，我们的工作在MiniimAgenet，CiFar FS和Cub数据集上实现了最新的表演，并且能够在部分模态缺席情况下工作。

Recurrent neural network transducer for Japanese and Chinese offline handwritten text recognition Authors Trung Tan Ngo, Hung Tuan Nguyen, Nam Tuan Ly, Masaki Nakagawa在本文中，我们提出了一个RNN传感器模型，用于识别日语和中国离线手写文本线图像。据我们所知，它是采用RNN传感器模型的第一种方法，用于离线手写文本识别。所提出的模型由三个主要组件组成了一个可视化特征编码器，它由CNN从输入图像中提取视觉特征，然后通过BLSTM通过嵌入层和LSTM从输入图像中提取和编码语言特征的语言上下文编码器来对视觉功能进行对视觉功能。通过完全连接和SoftMax层组合并将视觉功能和语言特征的联合解码器组合在最终标签序列中。所提出的模型利用来自输入图像的视觉和语言信息。在实验中，我们评估了拟议模型在两个数据集Kuzushiji和SCUT EPT上的表现。实验结果表明，该建议的模型在所有数据集上实现了最先进的性能。

Feature Combination Meets Attention: Baidu Soccer Embeddings and Transformer based Temporal Detection Authors Xin Zhou, Le Kang, Zhiyu Cheng, Bo He, Jingyu Xin随着迅速发展的互联网技术和新兴工具，在线生成的体育相关视频正在以前所未有的快速节奏增加。为了自动化体育视频编辑突出显示生成过程，一个关键任务是精确识别和定位长虚拟视频中的事件。在这个技术报告中，我们展示了两阶段范式来检测在足球广播视频中发生的事件和何时发生。具体而言，我们在足球数据上微调多个动作识别模型，以提取高电平语义特征，并设计基于变压器的时间检测模块来定位目标事件。在CVPR 2021 ActivityNet Workshop下，这种方法在Soccernet V2挑战中实现了两个任务，即Action Spotting和Replay接地的最先进状态。我们的足球嵌入功能释放出来

VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects Authors Ruihai Wu, Yan Zhao, Kaichun Mo, Zizheng Guo, Yian Wang, Tianhao Wu, Qingnan Fan, Xuelin Chen, Leonidas Guibas, Hao Dong感知和操纵3D铰接对象，例如，人类环境中的门是未来家庭助理机器人的重要又具有挑战性的任务。 3D关节物体的空间在其无数语义类别，不同的形状几何形状和复杂的零件功能方面非常丰富。以前的作品主要是抽象的运动结构，具有估计的关节参数和部分作为操纵3D铰接物体的视觉表示。在本文中，我们提出了以中心可操作的视觉前沿，作为一种新的感知交互握手，即感知系统通过预测致密几何意识，交互感知和任务意识的视觉动作可提供度和轨迹提案来输出比运动结构估计更可操作的引导。我们设计了感知框架VAT Mart的互动，以便通过同时培训探索各种交互轨迹的好奇心驱动强化学习政策以及概述各种形状中探讨预测的探索知识来了解这种可操作的互动轨迹和感知模块。实验证明了使用Sapien环境中的大规模Partnet Mobility DataSet的提出方法的有效性，并为新颖的测试形状，看不见的对象类别和现实世界数据显示了有前途的泛化能力。项目页面

Prior-Induced Information Alignment for Image Matting Authors Yuhao Liu, Jiake Xie, Yu Qiao, Yong Tang and, Xin Yang图像消光是一个不适的问题，旨在估计图像中的前景像素的不透明度。然而，大多数现有的基于深度学习的方法仍然遭受粗粒细节。通常，这些算法不能富有区分确定性域某些FG和BG像素之间的探测程度，并且在像素之间不确定的未确定域，或者在连续采样过程中不可避免地丢失信息，导致副最优结果。在本文中，我们提出了一种名为现有的诱导信息对齐光盘垫网络Piiamatting的新型网络，这可以有效地模拟像素明智的响应图的区别和层面特征图的相关性。它主要由动态高斯调制机制DGM和信息对齐策略IA组成。具体地，DGM可以动态获取从先前分发中获得的像素WISE域响应图。响应图可以在训练期间呈现不透明度变化与收敛过程之间的关系。另一方面，IA包括信息匹配模块IMM和信息聚合模块IAM，共同调度以自适应地匹配和聚合相邻的层明智的特征。此外，我们还开发了一个多尺度细化MSR模块，以在细化阶段集成多尺度接收场信息，以恢复波动外观细节。广泛的定量和定性评估表明，建议的Piiamatting对艺术图像消光方法的状态有利地表现出

Progressive Class-based Expansion Learning For Image Classification Authors Hui Wang, Hanbin Zhao, Xi Li在本文中，我们提出了一种新颖的图像过程方案，称为基于类的图像分类的扩展学习，旨在改善混淆类别的样本的监督刺激频率。基于班级的扩展学习采用基于班级的扩展优化时尚的自下而上的增长策略，从而更多地关注学习优先选择的课程的细粒度分类边界的质量。此外，我们开发了一个课堂混淆标准，以选择令人困惑的课程进行培训。以这种方式，经常刺激混乱等级的分类边界，导致细粒形成细粒。实验结果展示了拟议方案对几个基准的有效性。

Multi-Compound Transformer for Accurate Biomedical Image Segmentation Authors Yuanfeng Ji, Ruimao Zhang, Huijie Wang, Zhen Li, Lingyun Wu, Shaoting Zhang, Ping Luo最近的视觉变压器i.e.for Image Classifications学习不同补丁令牌的非本地细节互动。然而，现有技术未命中学习不同像素的横梁依赖性，不同标签的语义对应关系以及特征表示和语义嵌入的一致性，这对于生物医学分割至关重要。在本文中，我们通过提出一个统一的变压器网络，称为多种复合变压器MCTRANS的统一变压器网络，其中包含丰富的特征学习和语义结构挖掘到统一的框架中。具体而言，MCTRANS将多尺度卷积特性嵌入为令牌序列，并在以前的作品中执行帧内和间级别的自我注意力，而不是单一规模注意。此外，还引入了学习的代理嵌入来模拟语义关系和功能增强，分别使用自我关注和跨关注。 MCTRANS可以很容易地插入杂于网络中，并在六个标准基准中的生物医学图像分段中的现有技术状态下实现显着改进。例如，MCTRANS以3.64,3.71,4.34,2.8,1.88,1.34,2.8,1.88,1.34,2.8,1.88,1.57分别在Pannuke，CVC诊所，CVC冒号，ETIS，Kavirs，ISIC2018数据集中进行3.64,3.71,4.34,2.8,1.88,1.57。代码可用

Rail-5k: a Real-World Dataset for Rail Surface Defects Detection Authors Zihao Zhang, Shaozuo Yu, Siwei Yang, Yu Zhou, Bingchen Zhao本文介绍了导轨5K数据集，用于基准测试在真实世界应用场景中的视觉算法的性能，即轨道表面缺陷检测任务。我们从中国的铁路收集了超过5K的高质量图像，并借助于铁路专家的帮助，以确定最常见的13种轨道缺陷。 DataSet可用于两种设置，既具有独特的挑战，首先是使用1K标记图像进行训练的完全监督设置，缺陷类的细粒度性质和长尾分布使得可视算法难以解决。第二个是由4K未标记的图像促进的半监督学习设置，这些4K图像是未透明的包含图像损坏和与标记图像的域移位，这不能通过先前的半监督学习方法轻松解决。我们相信我们的数据集可能是评估视觉算法的稳健性和可靠性的有价值的基准。

Blind Non-Uniform Motion Deblurring using Atrous Spatial Pyramid Deformable Convolution and Deblurring-Reblurring Consistency Authors Dong Huo, Abbas Masoumzadeh, Yee Hong Yang基于深度学习的方法旨在拆下由物体运动和相机抖动引起的非均匀空间变体运动模糊，而不知道模糊内核。一些方法在一个阶段直接输出潜在的锐利图像，而其他方法利用多级策略，例如多级，多贴片或多时间逐渐恢复锐图像。然而，这些方法具有以下两个主要问题1，多阶段的计算成本是高2相同的卷积内核应用于不同地区，这不是非统一模糊的理想选择。因此，非统一运动脱棕色仍然是一个具有挑战性和开放的问题。在本文中，我们提出了一种新的架构，该架构包括多个不足的空间金字塔可变形卷积ASPDC模块，以使图像端DeBlur以更高的灵活性去除。多个ASPDC模块隐式地学习具有同一层中不同扩张速率的像素特定运动，以处理不同幅度的运动。为了改进培训，我们还提出了一种重新掩盖网络来将下孔输出映射回模糊的输入，这会限制溶液空间。我们的实验结果表明，所提出的方法优于基准数据集的现有技术的状态。

Change Detection for Geodatabase Updating Authors Rongjun Qin现在，地理数据库矢量化数据成为一个相当标准的数字城市基础设施，但有效地更新地理数据库，并且在经济上仍然是地理空间行业的基本和实际问题。建立地理数据库的成本非常高，劳动密集型，并且我们使用的地图通常有几个月甚至多年的延迟。一种解决方案是为矢量化地理空间数据生成开发更多自动化方法，这在过去几十年中已被证明是一项艰巨的任务。替代解决方案是首先检测新数据和现有地理空间数据之间的差异，然后仅更新被标识为更改的区域。由于其高实用性和灵活性，第二种方法变得越来越受欢迎。高度相关的技术是变化检测。本文旨在提供概述遥感和地理系统领域的最新变更检测方法，以支持更新地理数据库的任务。用于改变检测的数据是高度不同的，因此我们基于数据的维度直观地构建了我们的审查，是用3D数据2改变检测，使用3D数据进行改变检测。结论将根据该领域的审查努力绘制，我们将分享我们的展望更新地理数据库。

Geometric Processing for Image-based 3D Object Modeling Authors Rongjun Qin, Xu Huang基于图像的3D对象建模是指将原始光学图像转换为对象的3D数字表示的过程。通常，希望这种模型是尺寸为真，用基于光致型外观现实的建模的语义标记。激光扫描被认为是获得高精度的对象3D测量的标准和直接方法，而一个人必须遵守高采集成本及其在某些平台上的不可用。如今，由最近开发的高级密集图像匹配算法和Geo引用范例包销的基于图像的方法正在成为主导方法，这是由于其高度灵活性，可用性和低成本。从订购的无序原始图像到纹理网格的3D对象重建工作流程中的图像的主要自动化几何处理是基于现实的3D建模的关键部分。本文总结了整体几何处理工作流程，专注于引入几何处理的三个主要组件的现有技术方法1 Geo引用2图像密集匹配3纹理映射。最后，我们将得出结论并分享我们对本文讨论的主题的展望。

3D Reconstruction through Fusion of Cross-View Images Authors Rongjun Qin, Shuang Song, Xiao Ling, Mostafa Elhashash从多立体声和立体图像中恢复，作为基于图像的透视几何的重要应用，在计算机视觉，遥感和地理系统中提供许多应用。在本章中，作者利用成像几何形状和现有方法，其在其视点中从横视图像中执行3D重建的方法。我们介绍了我们的框架，以完成地面视图图像和卫星图像以进行全3D恢复，这包括从图像，3D数据CO注册，融合和网格生成中产生的卫星和地面点云生成的必要方法。我们在数据集上展示了由第12颗卫星图像和通过车辆安装的Go Pro相机获取的150K视频帧组成的数据集，并演示了重建结果。我们还将结果与直观的处理管道产生的结果进行了比较，这涉及典型的地理登记和啮合方法。

Darker than Black-Box: Face Reconstruction from Similarity Queries Authors Anton Razzhigaev, Klim Kireev, Igor Udovichenko, Aleksandr Petiushko最近呈现了几种用于面部识别模型的反演方法，试图从深模板重建面部。虽然这些方法中的一些方法仅使用仅使用面部嵌入的黑匣子设置，但通常在最终用户侧，只提供相似度得分。因此，这些算法在这种情况下不可应用。我们提出了一种新颖的方法，允许重建仅重建黑盒模型的相似性得分。虽然我们的算法在更一般的设置中运行，但实验表明它是查询高效并优于现有方法。

Learning without Forgetting for 3D Point Cloud Objects Authors Townim Chowdhury, Mahira Jalisha, Ali Cheraghian, Shafin Rahman当我们微调一个训练有素的深度学习模型，为一组新的课程，网络了解新的概念，但逐渐忘记了旧培训的知识。在一些现实生活中，我们可能有兴趣在毫无遗忘的情况下学习新课程。通常使用2D图像识别任务来研究毫无遗忘问题的这种学习。在本文中，考虑到深度相机技术的增长，我们解决了3D点云对象数据的相同问题。由于大型数据集和强大的预磨削骨干型号，3D域中的3D域中的问题变得更具挑战性。我们研究了3D数据的知识蒸馏技术，以减少灾难性的遗忘之前的训练。此外，我们通过使用对象类的语义词向量来改善蒸馏过程。我们观察到探索训练期间的旧知识的相互关系有助于学习新概念而不会忘记旧的概念。尝试三维3D点云识别备用PointNet，DGCNN和PointConv和Synthetic ModelNET40，ModelNet10和Real Scanned ScanObjectnn数据集，我们在不忘记3D数据的情况下建立新的基线导致学习。这项研究将在这一领域进行许多未来的作品。

Learning Mesh Representations via Binary Space Partitioning Tree Networks Authors Zhiqin Chen, Andrea Tagliasacchi, Hao Zhang多边形网格普遍存在，但只在深入学习革命中发挥了相对较小的作用。用于3D形状的最先进的神经生成模型学习隐式功能并通过昂贵的ISO浮出来生成网格。我们通过从计算机图形学，二进制空间分区BSP中使用古典空间数据结构来克服这些挑战，以促进3D学习。 BSP的核心操作涉及3D空间的递归细分以获得凸集。通过利用此属性，我们设计了BSP网络，该网络学习通过凸分解而没有监控的凸分解表示3D形状。训练网络以使用从内置一组平面上的BSP树获得的一组凸面进行重建形状，其中平面和凸面都由学习网络权重定义。 BSP Net直接从推断的凸起输出多边形网格。所产生的网格是防水，紧凑的即，低聚，非常适合代表尖锐的几何形状。我们表明，BSP网的重建质量与最先进方法的竞争力竞争，同时使用更少的原语。我们还探讨了BSP网的变化，包括使用更通用的解码器来重建，比平面更通用的原语，以及使用变形自动编码器训练生成模型。代码可用

SDOF-Tracker: Fast and Accurate Multiple Human Tracking by Skipped-Detection and Optical-Flow Authors Hitoshi Nishimura, Satoshi Komorita, Yasutomo Kawanishi, Hiroshi Murase多人追踪是场景理解的根本问题。虽然在现实世界应用中需要精度和速度，但最近基于深度学习的跟踪方法专注于准确性，需要大量运行时间。本研究旨在通过在某种帧间隔执行人类检测来提高运行速度，因为它适用于大多数运行时间。问题是如何在跳过人类检测时保持准确性。在本文中，基于某人的外观在相邻框架之间不换多大程度的情况，我们提出了一种与光流量的检测结果补充的方法。为了保持跟踪准确性，我们在人类区域内引入强大的兴趣点选择以及通过兴趣点分布计算的跟踪终止度量。在Motchallenge中的MOT20数据集上，所提出的SDOF跟踪器在保持MOTA度量的同时实现了总运行速度的最佳性能。我们的代码可在HTTPS Anonymous.4open.scence r sdof跟踪器75ae提供。

Representation Based Regression for Object Distance Estimation Authors Mete Ahishali, Mehmet Yamac, Serkan Kiranyaz, Moncef Gabbouj在这项研究中，我们提出了一种新的方法来预测观察到的场景中检测到的对象的距离。建议的方法修改了最近提出的卷积支持估计网络CSENS。 CSENs旨在在基于表示的分类问题中计算支持估计SE任务的直接映射。我们进一步提出并证明基于表示的方法稀疏或协作表示可以在设计良好的回归问题中使用。据我们所知，这是通过利用修改的CSENS来执行回归任务的基于第一表示的方法，我们将这种新方法命名为基于表示的回归RBR。 CSENS的初始版本具有代理映射阶段I.E.，输入输入所需的支持集的粗略估计。在这项研究中，我们通过提出压缩学习CSEN CL CSEN来改善CSEN模型，该CSEN CL CSEN能够共同优化所谓的代理映射阶段以及卷积层。使用基提3D对象检测距离估计数据集的实验评估表明，该方法可以通过所有竞争方法实现显着提高的距离估计性能。最后，该方法的软件实现是公开分享的

Learning to solve geometric construction problems from images Authors J. Macke, J. Sedlar, M. Olsak, J. Urban, J. Sivic我们描述了一种基于纯图像的方法，用于在Euclidea几何游戏中用尺子和指南针找到几何结构。该方法基于调整艺术图像的掩模R CNN状态，并将基于树的搜索过程添加到其上。在监督的环境中，该方法学习从六级欧几里德的前六个级别的欧几里德群中解决所有68种几何施工问题，平均为92精度。在评估新的问题时，该方法可以解决68种Euclidea问题中的31个问题。我们认为这是第一次训练了纯粹的图像学习，以解决这种困难的几何施工问题。

DONet: Learning Category-Level 6D Object Pose and Size Estimation from Depth Observation Authors Haitao Lin, Zichang Liu, Chilam Cheang, Lingwei Zhang, Yanwei Fu, Xiangyang Xue我们提出了一种类别级别6d对象姿势和大小估计从单个深度图像的方法，没有外部姿势被引入的真实世界训练数据。虽然以前的作品在RGB D图像中利用视觉线索，但我们的方法基于单独的深度通道中对象的丰富几何信息进行推断。基本上，我们的框架通过学习统一的3D方向一致表示3D OCR模块来探讨这些几何信息，并通过几何约束的反射对称地墓地模块的属性进一步强制实施。物体大小和中心点的幅度信息最终通过镜像尺寸估计MPDE模块估计。对该类别NOCS基准的广泛实验表明，我们的框架与需要标有现实世界形象的艺术方法的竞争。我们还将我们的方法部署到物理Baxter Robot，以在看不见的情况下执行操作任务，而是已知的实例，结果进一步验证了我们提出的模型的效果。我们的视频可在补充材料中提供。

Mitigating severe over-parameterization in deep convolutional neural networks through forced feature abstraction and compression with an entropy-based heuristic Authors Nidhi Gowdra, Roopak Sinha, Stephen MacDonell, Wei Qi Yan诸如Reset 50，DenSenet 40和Resext 56的卷积神经网络CNNS诸如参数化的诸如参数化的CNN，因此需要随之而来的模型训练所需的计算资源，其在模型深度中呈指数为增量的尺度缩放。在本文中，我们提出了一种基于熵的卷积层估计eBCE启发式，其具有坚固且简单，但有效地解决了关于CNN模型的网络深度的参数化问题。 EBCE启发式旨在了解输入数据集的熵数据分布的先验知识，以确定卷积网络深度的上限，超出哪个身份变换普遍为提高模型性能而提供微不足道的贡献。通过强制特征压缩和抽象来限制深度冗余，在参数化上限制，同时减少培训时间，在24.99 78.59中毫无衰减，在模型性能下降。我们提出了经验证据来强调使用EBCE启发式培训的更广泛的相对效果，而且培训的较浅的型号，它维持或优于较为更深的模型的基线分类准确性。 eBCE启发式是亚麻布解和ebce基于的CNN模型限制了深度冗余，从而提高了可用计算资源的利用率。建议的eBCE启发式是一个令人信服的研究人员，用于分析他们的HyperParameter HP选择对CNNS的说法。在培训CNN模型中的eBCE启发式的经验验证是在五个基准测试数据集Imagenet32，CiFar 10 100，STL 10，Mnist和四个网络架构Densenet，Reset，Resnext和AbseralyNET B0 B2，具有适当的统计测试，用于推断出来的任何结论声称在本文中。

Memory Guided Road Detection Authors Praveen Venkatesh, Rwik Rana, Varun Jain在自动驾驶汽车应用中，需要预测通道的车道的位置，给出输入RGB前面的图像。在本文中，我们提出了一种架构，其允许我们通过引入随时间传播的底层共享特征空间来提高道路检测的速度和稳健性，而不会精确地重点击中，这用作流动的动态存储器。通过利用先前框架的主旨，我们训练网络以预测当前道路，具有更高的准确性和与前一帧的偏差更小。

The Story in Your Eyes: An Individual-difference-aware Model for Cross-person Gaze Estimation Authors Jun Bao, Buyu Liu, Jun Yu我们仅通过显式建模特定的差异来提出一种新的方法对眼睛面部图像的炼制交叉人凝视预测任务。具体而言，我们首先假设我们可以通

标签：熵指数传感器entropy 共模电感e型骨架 ia080170电感式传感器 pq5050电子变压器电感4x4

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！