【AI视野·今日CV 计算机视觉论文速览第187期 part1】Fri, 18 Dec 2020

AI视野·今日CS.CV 计算机视觉论文速读 ??part1 Fri, 18 Dec 2020 Totally 73 papers ??上期速览?更精彩请移动主页

在这里插入图片描述

Interesting:

***??Worldsheet: Wrapping the World in a 3D Sheetfor View Synthesis from a Single Image, 单张RGB输入，先获取深度图，再获得带纹理和深度处理的网格，实现新视角下图像的合成。(from facebook CMU)

code:https://worldsheet.github.io/

****??基于RGB以及稀疏点云的多模态深度估计， (from TU Kaiserslautern)

***** ??Learning to Recover 3D Scene Shape from a Single Image, 三维重建过程准确、规模化。通过三维点云编码器预测深度偏移和焦距，可以从深度图中恢复正确的三维点云。(from 阿德莱德大学 adobe)

code:https://git.io/Depth

**??S3CNet, 激光点云语义补充网络。(from 华为多伦多大学) ask：点云可视化方法 from：Conference on Robot Learning

**:books:[Zoom-to-Inpaint](https://arxiv.org/pdf/2012.09401.pdf), 采用超分辨法补充优化，然后采样得到原尺寸的输出图。(from KAIST Google Research ) ![插入图片描述](https://img-blog.csdnimg.cn/2020121822432899.png =600x)

****??Infinite Nature基于单个图像生成多个自然图像， (from Google Research)

??XResolution Correspondence Networks, 建立完全不同(分辨率、光照、材料等)的两个图像之间的关系，找到图中的对应点。(from Oxford robotics xyzreality)

code:https://xyz-r-d.github.io/xrcnet

??NeRFlow), 基于RGB动态场景4序列D空时场景合成法。(from MIT Stanford)

code: yilundu.github.io/nerflow

??RainNet, 大规模空间降水降量数据集包括62424 高低分辨降水图，Temporal Misalignment, Temporal Sparse and Fluid Properties等特性。(from Shanghai Jiao Tong University, Princeton University, University of Technology Sydney)

https://neuralchen.github.io/RainNet/

??PCT: Point Cloud Transformer, 基于transformer点云学习方法。(from 清华卡迪夫大学) ASK:绘图方法~

??Roof-GAN:, 屋顶形状基于航空图像重建。(from Simon Fraser University西蒙弗雷泽大学)

Daily Computer Vision Papers

Reconstructing Hand-Object Interactions in the Wild Authors Zhe Cao, Ilija Radosavovic, Angjoo Kanazawa, Jitendra Malik在这项工作中，我们探索了重建手和物体在野外的相互作用。这个问题的核心挑战是缺乏适当的3D标签数据。为了克服这个问题，我们提出了一个不需要直接3的基于优化的过程D监督。我们在实验室采用的一般策略是MoCap使用所有可用的相关数据2D边界框，2D手关键点，2D实例蒙版，3D对象模型，3D为3D重建提供约束。与其单独优化手和对象，不如联合优化它们，这样我们就可以根据手对象的接触、碰撞和屏蔽施加其他约束。我们的方法可以针对各种对象类别和类别EPIC Kitchens野生数据在100天之手数据集中的挑战性重构令人信服。就数量而言，我们证明了地面真实性3可以用于我们的方法和实验室设置D与现有的注释方法相比，注释具有优势。

Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image Authors Andrew Liu, Richard Tucker, Varun Jampani, Ameesh Makadia, Noah Snavely, Angjoo Kanazawa我们介绍了永久视图生成的问题，即对应于给定单个图像的任何长相机轨迹的新视图的远距离生成。这是一个具有挑战性的问题，远远超出了当前视图合成方法的能力。该方法只能在有限的视角范围内工作，并在大型相机运动时迅速退化。设计视频生成的方法不能产生较长的视频序列，通常与场景几何无关。我们采用了一种在迭代渲染、优化和重复框架中集成几何和图像合成功能的混合方法，可以生成，覆盖数百帧后的大距离。在没有任何人工注释的情况下，我们的方法可以从一组单眼视频序列中进行训练。我们提出了一个自然沿海场景的航拍数据集，将我们的方法与最近的视图合成和合格的视频生成基准进行了比较，表明它可以在更长的时间内在大型相机轨迹上生成合理的场景。

Worldsheet: Wrapping the World in a 3D Sheet for View Synthesis from a Single Image Authors Ronghang Hu, Deepak Pathak我们介绍了Worldsheet，只使用单个RGB图像是输入新颖视图合成的方法。这是一个具有挑战性的问题，因为它需要了解场景3D从新的角度生成几何形状和纹理映射的可见区域和屏蔽区域。我们的主要观点是，我们只需要将平面网格收缩并包装在输入图像上，这与我们所学到的中间深度一致。我们可以捕捉到基本的几何形状，足以生成真实的大视角变化和逼真的照片级别。为了实现这一点，我们提出了一种新型的微纹理采样器，可以纹理包裹的网格板，然后通过微渲染将其转换为目标图像。我们的方法与类别无关，没有3D端到端训练可以通过监督进行，测试时只需要一个图像。单幅图像视图合成在多个数据集中，Worldsheet始终优于现有技术。此外，将野外图像转换为可导航的3D弹出窗口时，新颖的视图可以在各种高分辨率的野外图像中捕捉到。视频结果和代码位于

Human Mesh Recovery from Multiple Shots Authors Georgios Pavlakos, Jitendra Malik, Angjoo Kanazawa来自电影等编辑媒体的视频是有用的，但仍在探索中。这些影片在较大的时间范围内描绘的人与人之间的外观和互动的丰富变化，可能是有价值的数据来源。但是，数据的丰富性是以根本性的挑战为代价的，这些挑战包括突然的镜头变化和严重被截断的演员的特写镜头，这限制了现有人类3D理解方法的适用性。在本文中，我们以洞察力解决了这些局限性，即尽管同一场景的镜头更改会导致帧之间的不连续，但场景的3D结构仍会平滑变化。这使我们能够在镜头切换之前和之后将帧作为多视图信号来处理，这些信号提供了强有力的线索来恢复演员的3D状态。我们提出了一个多镜头优化框架，该框架可改进3D重建并利用伪地面实况3D人网格对长序列进行挖掘。我们证明了所得的数据对于训练单个图像的各种人体网格恢复模型是有益的，我们为视频实现了更高的鲁棒性，我们提出了一种基于纯变压器的时间编码器，该编码器可以自然地处理由于输入帧中镜头变化而导致的缺失观测。我们通过广泛的实验证明了洞察力和提出的模型的重要性。我们开发的工具打开了处理和分析来自大型已编辑媒体库的3D内容的大门，这可能对许多下游应用程序有所帮助。项目页面

$\mathbb{X}$Resolution Correspondence Networks Authors Georgi Tinchev, Shuda Li, Kai Han, David Mitchell, Rigas Kouskouridas在本文中，我们旨在在具有挑战性的照明变化，视点变化和样式差异下，在具有重叠视场的一对图像之间建立精确的密集对应关系。通过对先进的通信网络进行广泛的消融研究，我们惊奇地发现，可以对广泛采用的4D相关张量及其相关的学习和处理模块进行参数化，并从训练中删除它们，而对最终匹配精度的影响很小。禁用一些最消耗内存和计算量最大的模块，可以极大地加快训练过程，并允许使用4倍大的批处理大小，从而弥补了精度下降的麻烦。结合多GPU推理阶段，我们的方法有助于系统地研究从720p到4K的原始测试图像的匹配精度与上采样分辨率之间的关系。这导致找到最佳分辨率mathbb X，该分辨率可以产生精确的匹配性能，尤其是在拟议的网络和评估数据集的较低误差带上，可以超越现有技术的方法。

Taming Transformers for High-Resolution Image Synthesis Authors Patrick Esser, Robin Rombach, Bj rn Ommer旨在学习顺序数据上的远程交互作用的互感器，在各种任务上继续展现出最新的技术成果。与CNN相比，它们不包含优先考虑局部相互作用的归纳偏置。这使它们表现出来，但对于长序列（例如高分辨率图像）在计算上是不可行的。我们演示了如何将CNN的感应偏置的有效性与变压器的表达能力相结合，从而使它们能够建模并由此合成高分辨率图像。我们展示了如何使用CNN来学习图像成分的上下文相关词汇，然后使用变压器来高效地对高分辨率图像中的成分进行建模。我们的方法很容易应用于条件合成任务，其中非空间信息（例如对象类）和空间信息（例如分割）都可以控制生成的图像。特别是，我们介绍了使用转换器在语义上指导兆像素图像合成的第一个结果。项目页面位于

Transformer Interpretability Beyond Attention Visualization Authors Hila Chefer, Shir Gur, Lior Wolf自我关注技术，尤其是“变形金刚”，在文本处理领域占据主导地位，并且在计算机视觉分类任务中变得越来越流行。为了可视化导致某种分类的图像部分，现有方法要么依赖于获得的注意力图，要么采用沿注意力图的启发式传播。在这项工作中，我们提出了一种计算变压器网络相关性的新颖方法。该方法基于深度泰勒分解原理分配局部相关性，然后将这些相关性分数传播到各层。这种传播涉及注意层和跳过连接，这挑战了现有方法。我们的解决方案基于一种特定的配方，该配方被证明可以保持各层之间的整体相关性。我们在最近的可视化Transformer网络以及文本分类问题上对我们的方法进行了基准测试，并证明了相对于现有可解释性方法的明显优势。

SceneFormer: Indoor Scene Generation with Transformers Authors Xinpeng Wang, Chandan Yeshwanth, Matthias Nie ner室内场景生成的任务是生成一系列对象，它们的位置和方向取决于房间的形状和大小。大型室内场景数据集使我们能够从用户设计的室内场景中提取图案，然后根据这些图案生成新的场景。现有方法除了对象位置之外还依赖于这些场景的2D或3D外观，并假设对象之间的可能关系。相反，我们不使用任何外观信息，而是使用变压器的自注意机制来学习对象之间的关系。我们证明，与具有相同或更好水平真实感的现有方法相比，这可以更快地生成场景。我们仅根据变压器的交叉注意机制，建立基于房间形状和房间文字描述的简单有效的生成模型。我们进行了一项用户研究，结果显示生成的场景比DeepSynth场景在卧室场景中占57.7倍，在客厅场景中占63.3倍。此外，我们平均可以在1.48秒内生成一个场景，比最先进的快速灵活方法快20倍，从而可以生成交互式场景。

Neural Radiance Flow for 4D View Synthesis and Video Processing Authors Yilun Du, Yinan Zhang, Hong Xing Yu, Joshua B. Tenenbaum, Jiajun Wu我们提出了一种神经辐射流NeRFlow方法，以从一组RGB图像中学习动态场景的4D空间时间表示。我们方法的关键是使用神经隐式表示，该隐式表示学会捕获场景的3D占用率，辐射度和动态。通过在不同模式之间实现一致性，我们的表示可以在各种动态场景中实现多视图渲染，包括注水，机器人互动和真实图像，其性能优于用于空间时空视图合成的最新方法。即使仅使用一台摄像机捕获输入图像，我们的方法仍然有效。我们进一步证明，学习到的表示可以充当隐式场景的先验，无需任何额外的监督就可以实现视频处理任务，例如图像超分辨率和降噪。

End-to-end Deep Object Tracking with Circular Loss Function for Rotated Bounding Box Authors Vladislav Belyaev, Aleksandra Malysheva, Aleksei Shpilman任务对象跟踪在自动驾驶，智能监控，机器人技术等众多应用中至关重要。此任务需要为视频流中的对象分配边界框，仅在第一帧上为其指定边界框。 2015年，创建了一种新型的视频对象跟踪VOT数据集，该数据集引入了旋转边界框作为轴对齐边界框的扩展。在这项工作中，我们介绍了一种基于Transformer Multi Head Attention架构的新颖的端到端深度学习方法。我们还提出了一种新型的损失函数，该函数考虑了边界框的重叠和方向。

End-to-End Human Pose and Mesh Reconstruction with Transformers Authors Kevin Lin, Lijuan Wang, Zicheng Liu我们提出了一种称为MEsh TRansfOrmer METRO的新方法，可以从单个图像重建3D人类姿势和网格顶点。我们的方法使用变压器编码器对顶点顶点和顶点关节相互作用进行联合建模，并同时输出3D关节坐标和网格顶点。与回归姿态和形状参数的现有技术相比，METRO不依赖任何参数网格模型（例如SMPL），因此可以轻松扩展到其他对象（例如手）。我们进一步放松了网格拓扑，并允许变压器的自关注机制自由地参与任意两个顶点之间，从而有可能学习网格顶点和关节之间的非局部关系。借助提出的蒙版顶点建模，我们的方法在处理诸如局部遮挡等挑战性情况时更加健壮和有效。 METRO在公共Human3.6M和3DPW数据集上生成了用于人类网格重建的最新技术成果。此外，我们证明了METRO在野外进行3D手重建的通用性，优于FreiHAND数据集上现有的现有方法。

Interpretable Image Clustering via Diffeomorphism-Aware K-Means Authors Romain Cosentino, Randall Balestriero, Yanis Bahroun, Anirvan Sengupta, Richard Baraniuk, Behnaam Aazhang我们设计了一种可理解的聚类算法，该算法可了解图像流形的非线性结构。我们的方法利用了在图像空间中应用的K均值的可解释性，同时解决了其聚类性能问题。具体来说，我们开发了一种图像和形心之间的相似性度量，该度量包含变形微分形的一般类，从而使聚类对其不变。我们的工作利用薄板样条插值技术有效地学习了能最好地表征图像流形的衍射。大量的数值模拟表明，我们的方法可以与各种数据集上的最新方法相抗衡。

AutoCaption: Image Captioning with Neural Architecture Search Authors Xinxin Zhu, Weining Wang, Longteng Guo, Jing Liu图像字幕将复杂的视觉信息转换为抽象的自然语言来表示，可以帮助计算机快速理解世界。但是，由于实际环境的复杂性，它需要识别关键对象并实现它们的连接，并进一步生成自然语言。整个过程涉及视觉理解模块和语言生成模块，这给深度神经网络的设计带来了比其他任务更多的挑战。神经体系结构搜索NAS已显示出其在各种图像识别任务中的重要作用。此外，RNN在图像字幕任务中起着至关重要的作用。我们介绍了一种AutoCaption方法来更好地设计图像字幕的解码器模块，其中我们使用NAS自动设计称为AutoRNN的解码器模块。我们使用基于共享参数的强化学习方法来有效地自动设计AutoRNN。 AutoCaption的搜索空间包括各层之间的连接以及各层中的操作，这可以使AutoRNN表达更多的体系结构。特别是，RNN相当于我们搜索空间的一个子集。在MSCOCO数据集上进行的实验表明，与传统的手工设计方法相比，我们的AutoCaption模型可以实现更好的性能。我们的自动字幕在COCO Karpathy测试拆分中获得了135.8的最佳发布CIDEr性能。进一步使用集成技术时，CIDEr会提高到139.5。

Robust Image Captioning Authors Daniel Yarnell, Xian Wang自动为照片添加字幕是一项任务，其中包含了照片分析和文本生成的困难。字幕的一个基本特征是注意的概念，即如何确定要指定的内容和顺序。在这项研究中，我们利用对抗性鲁棒割算法来利用对象关系，该算法通过专门嵌入有关通过图形表示的输入数据之间的空间关联的知识，在这种方法的基础上发展起来。我们的实验研究代表了我们提出的图像字幕方法的有希望的性能。

Efficient CNN-LSTM based Image Captioning using Neural Network Compression Authors Harshit Rampal, Aman Mohanty现代神经网络在计算机视觉，自然语言处理和相关垂直领域下的任务中实现最先进的性能方面举世闻名。但是，它们以其巨大的内存和计算需求而臭名昭著，这进一步阻碍了它们在资源受限的边缘设备上的部署。为了实现边缘部署，研究人员开发了修剪和量化算法以压缩此类网络，而不会影响其效率。此类压缩算法在独立的CNN和RNN架构上进行了广泛的实验，而在这项工作中，我们提出了基于CNN LSTM的图像字幕模型的非常规端到端压缩流水线。使用VGG16或ResNet50作为flickr8k数据集上的编码器和LSTM解码器来训练模型。然后，我们检查了不同压缩体系结构对模型的影响，并设计了一种压缩体系结构，与未压缩的压缩体系结构相比，该模型实现了模型大小减少73.1，推理时间减少71.3和BLEU得分增加7.7。

RainNet: A Large-Scale Dataset for Spatial Precipitation Downscaling Authors Xuanhong Chen, Kairui Feng, Naiyuan Liu, Naiyuan Liu, Zhengyan Tong, Bingbing Ni, Ziang Liu, Ning Lin空间降水缩减是地球科学界最重要的问题之一。但是，它仍然是一个未解决的问题。深度学习是缩小规模的有希望的潜在解决方案。为了促进深度学习降水降尺度的研究，我们提出了第一个textbf REAL非模拟大型空间降水降尺度数据集textbf RainNet，其中包含textbf 62,424对低分辨率和高分辨率降水图，共17年。与模拟数据相反，该真实数据集涵盖了各种类型的真实气象现象，例如飓风，急风等，并显示了挑战降尺度算法的物理字符textbf时间未对准，textbf时间稀疏和textbf流体性质。为了充分探索潜在的降尺度解决方案，我们提出了一个隐式的物理估算框架来学习上述特征。提出了专门考虑数据集物理属性的八个指标，同时在提议的数据集上评估了十四个模型。最后，我们分析了这些模型对降水缩减任务的有效性和可行性。数据集和代码将在url上提供

PCT: Point Cloud Transformer Authors Meng Hao Guo, Jun Xiong Cai, Zheng Ning Liu, Tai Jiang Mu, Ralph R. Martin, Shi Min Hu规则域的不规则和缺乏顺序使设计用于点云处理的深度神经网络具有挑战性。本文提出了一种新颖的名为Point Cloud Transformer PCT的框架，用于点云学习。 PCT基于Transformer，在自然语言处理方面取得了巨大成功，并在图像处理方面显示出巨大潜力。它本质上是置换不变的，可以处理一系列点，使其非常适合点云学习。为了更好地捕获点云中的本地上下文，我们在最远点采样和最近邻居搜索的支持下增强了输入嵌入。大量实验表明，PCT在形状分类，零件分割和法线估算任务方面达到了最先进的性能。

Multi-Modal Depth Estimation Using Convolutional Neural Networks Authors Sadique Adnan Siddiqui, Axel Vierling, Karsten Berns本文解决了在恶劣天气条件下根据稀疏距离传感器数据和单个摄像机图像进行密集深度预测的问题。这项工作探索了不同的传感器模式（如相机，雷达和激光雷达）通过应用深度学习方法来估计深度的重要性。尽管Lidar具有比Radar更高的深度感测能力，并且在许多先前的工作中已与摄像头图像集成在一起，但对于将鲁棒的雷达距离数据与摄像头图像融合使用CNN进行深度估计的研究还很少。在这项工作中，提出了一种深度递归网络，该网络利用了一种转移学习方法，该方法包括一个编码器和一个解码器，其中编码器使用高性能的预训练模型对其进行初始化，以提取密集特征；解码器用于上采样和预测所需深度。结果显示在Nuscenes，KITTI和使用CARLA模拟器创建的Synthetic数据集上。同样，将从建筑工地上的起重机捕获的顶视图变焦摄像机图像进行评估，以估计从地面搬运重物的起重机吊臂的距离，以显示在安全关键型应用中的可用性。

A fully pipelined FPGA accelerator for scale invariant feature transform keypoint descriptor matching, Authors Luka Daoud, Muhammad Kamran Latif, H S. Jacinto, Nader Rafla尺度不变特征变换SIFT算法被认为是计算机视觉领域的经典特征提取算法。由于消耗的数据量，SIFT关键点描述符匹配是一个计算密集型过程。在这项工作中，我们为SIFT关键点描述符匹配设计了一种新颖的全流水线硬件加速器体系结构。加速器内核是在现场可编程门阵列FPGA上实现和测试的。所提出的硬件体系结构能够正确处理完全流水线实施所需的内存带宽，并且达到了屋顶性能模型，从而实现了潜在的最大吞吐量。基于余弦角距离法设计了全流水线匹配架构。我们的架构针对16位定点操作进行了优化，并使用基于Xilinx Zynq的FPGA开发板在硬件上实现。与文献中的对应结构相比，我们提出的体系结构显示出区域资源显着减少，同时通过减轻内存带宽限制来保持高吞吐量。结果表明，LUT和BRAM的消耗设备资源减少了多达91％。我们的硬件实现比同类软件方法快15.7倍。

Firearm Detection via Convolutional Neural Networks: Comparing a Semantic Segmentation Model Against End-to-End Solutions Authors Alexander Egiazarov, Fabio Massimo Zennaro, Vasileios Mavroeidis通过实时视频对武器和攻击行为进行威胁检测可用于快速检测和预防潜在的致命事件，例如恐怖主义，一般性刑事犯罪甚至家庭暴力。实现这一目标的一种方法是使用人工智能，尤其是使用机器学习进行图像分析。在本文中，我们将传统的整体式端到端深度学习模型与先前提出的模型进行了比较，该模型基于通过语义分割来检测火器的更简单神经网络的集成。我们从不同的角度评估了这两个模型，包括准确性，计算和数据复杂性，灵活性和可靠性。我们的结果表明，与传统的深度模型模型相比，语义分割模型在低数据环境中提供了大量的灵活性和弹性，尽管其配置和调整对实现与端到端模型相同的准确性水平提出了挑战。

Detection and Prediction of Nutrient Deficiency Stress using Longitudinal Aerial Imagery Authors Saba Dadsetan, Gisele Rose, Naira Hovakimyan, Jennifer Hobbs早期，精确地检测养分缺乏压力NDS具有关键的经济和环境影响，精确的化学物质代替覆盖物施用可以降低种植者的运营成本，同时减少不必要地进入环境的化学物质的量。此外，较早的处理减少了损失的数量，因此在给定季节内提高了作物产量。考虑到这一点，我们收集高分辨率航空影像序列，并构建语义分割模型以检测和预测整个领域的NDS。我们的工作位于农业，遥感与现代计算机视觉和深度学习的交汇处。首先，我们为NDS的全场检测建立基线，并量化预训练，骨干架构，输入表示和采样策略的影响。然后，通过基于UNet构建单个时间戳模型，我们可以量化季节不同时间点可用的信息量。接下来，我们构建建议的时空架构，该架构将UNet与卷积LSTM层相结合，以准确检测显示NDS的区域，这种方法的IOU得分为0.53。最后，我们证明了可以训练这种体系结构来预测预期在以后的飞行中显示NDS的区域，未来可能超过三周，其IOU得分将保持在0.47 0.51，这取决于预测的提前程度。制作。我们还将发布一个数据集，我们相信它将有助于计算机视觉，遥感以及农业领域。这项工作为遥感和农业深度学习的最新发展做出了贡献，同时解决了对经济和可持续性具有影响的关键社会挑战。

Trajectory saliency detection using consistency-oriented latent codes from a recurrent auto-encoder Authors L. Maczyta, P. Bouthemy, O. Le Meur在本文中，我们关注视频序列中渐进动态显着性的检测。更确切地说，我们对与运动有关的显着性感兴趣，并且随着时间的流逝会逐渐出现。它可能与触发警报，专用于其他处理或检测特定事件有关。轨迹代表了支持渐进式动态显着性检测的最佳方法。因此，我们将讨论轨迹显着性。如果一条轨迹偏离共享与给定上下文相关的公共运动模式的正常轨迹，则该轨迹将被视为显着轨迹。首先，我们需要一个紧凑而有区别的轨迹表示。我们采用一种几乎无监督的基于学习的方法。由循环自动编码器估算的潜码可提供所需的表示。此外，我们通过自动编码器损失功能对正常相似轨迹实施一致性。轨迹代码与考虑正态性的原型代码之间的距离是检测显着轨迹的手段。我们在合成和真实轨迹数据集上验证了轨迹显着性检测方法，并强调了其不同组成部分的贡献。我们显示，在从Alahi 2014火车站获取的行人轨迹的公开数据集中得出的几种情况下，我们的方法优于现有方法。

Incremental Learning from Low-labelled Stream Data in Open-Set Video Face Recognition Authors Eric Lopez Lopez, Carlos V. Regueiro, Xose M. Pardo深度学习方法为一般分类问题带来了令人印象深刻的解决方案，这些分类问题为训练提供了丰富的带注释数据。相反，主要在将非平稳类应用于流数据的无监督问题时，在持续学习一组非平稳类方面取得的进展较小。

Weakly-Supervised Action Localization and Action Recognition using Global-Local Attention of 3D CNN Authors Novanto Yudistira, Muthu Subash Kavitha, Takio Kurita3D卷积神经网络3D CNN捕获有关3D数据（例如视频序列）的时空信息。但是，由于卷积和池化机制，信息丢失似乎是不可避免的。为了改善3D CNN的视觉解释和分类，我们提出了两种方法：使用训练有素的3DResNext网络将逐层全局全局聚合到局部全局局部离散梯度，以及实施注意门控网络以提高动作识别的准确性。拟议的方法旨在通过视觉归因，弱监督的动作定位和动作识别来显示称为3D CNN的全球局部注意的每一层的有用性。首先，对3DResNext进行训练，并使用涉及最大预测类别的反向传播将其应用于动作分类。然后向上采样每层的梯度和激活。后来，聚合被用来引起更多细微的关注，指出了预测班级输入视频中最关键的部分。我们使用最终关注的轮廓阈值进行最终定位。我们通过3DCam使用精细的视觉解释来评估修剪后的视频中的空间和时间动作定位。实验结果表明，该方法产生了有益的视觉解释和辨别力。此外，通过注意门控对每一层的动作识别比基线模型产生更好的分类结果。

Embodied Visual Active Learning for Semantic Segmentation Authors David Nilsson, Aleksis Pirinen, Erik G rtner, Cristian Sminchisescu我们研究了体现式视觉主动学习的任务，其中设置了一个代理来探索3d环境，目标是通过主动选择请求注释的视图来获取视觉场景理解。尽管在某些基准上很准确，但当今的深层视觉识别管道在某些真实世界的场景中或对于不寻常的观点往往无法很好地概括。反过来，机器人感知需要具有针对移动系统运行条件（包括混乱的室内环境或照明不佳）的识别能力的能力。这激发了提出的任务，其中将代理放置在新颖的环境中，目的是提高其视觉识别能力。为了研究具体的视觉主动学习，我们开发了一系列的代理，既可以学习也可以预先指定，并且具有不同级别的环境知识。代理配备了语义分割网络，并试图获取信息视图，移动和探索以便在这些视图的邻域中传播注释，然后通过在线重新训练来完善基础的分割网络。这种可训练的方法使用具有强化功能的深度强化学习，该功能平衡了两个相互竞争的目标任务的表现，即表现为视觉识别的准确性，这需要探索环境，以及在主动探索期间需要的必要数量的带注释数据。我们使用逼真的Matterport3D模拟器对提议的模型进行了广泛的评估，结果表明，即使请求的注释较少，完全学习的方法也可以胜过类似的预先指定的对应方法。

A Hierarchical Feature Constraint to Camouflage Medical Adversarial Attacks Authors Qingsong Yao, Zecheng He, Yi Lin, Kai Ma, Yefeng Zheng, S. Kevin Zhou用于医学图像的深度神经网络DNN极易受到对抗性示例AE的攻击，这对临床决策提出了安全性问题。幸运的是，根据我们在本文中的研究，医学AE也很容易在分层特征空间中检测到。为了更好地理解这种现象，我们彻底调查了特征空间中医学AE的内在特征，为为什么医学对抗性攻击易于检测的问题提供了经验证据和理论解释，我们首先进行压力测试以揭示深层表征的脆弱性与自然图像形成对比的医学图像。然后，我们从理论上证明，对二进制疾病诊断网络的典型对抗攻击是通过在固定方向上连续优化易受攻击的表示来操纵预测的，从而导致异常特征使医疗AE易于检测。但是，也可以利用此漏洞在特征空间中隐藏AE。我们提出了一种新颖的分层特征约束HFC，作为对现有对抗攻击的补充，它鼓励在常规特征分布内隐藏对抗表示。我们在两个公共医学图像数据集，即Fundoscopy和Chest X Ray上评估了该方法。实验结果证明了我们的对抗性攻击方法的优越性，因为它比竞争性攻击方法更容易绕过最先进的对抗性检测器，支持医疗功能的巨大脆弱性使攻击者有更多空间来操纵对抗性表示形式。

Exploiting Learnable Joint Groups for Hand Pose Estimation Authors Moran Li, Yuan Gao, Nong Sang在本文中，我们建议通过以组方式恢复关节的3D坐标来估计3D手势，在这种情况下，较少相关的关节会自动归类为不同的组并表现出不同的特征。这与以前的方法不同，以前的方法是整体考虑所有关节并具有相同特征。通过多任务学习MTL的原理说明了我们方法的好处，即通过将较少相关的关节作为不同的任务分成不同的组，我们的方法为每个关节学习了不同的特征，因此有效地避免了较少相关的任务之间的负迁移组关节。我们方法的关键是新颖的二进制选择器，该选择器会自动将相关关节选择到同一组中。我们使用从Concrete分布中随机采样的二进制值来实现这样的选择器，它是使用Gumbel softmax构造可训练参数而构造的。这使我们能够保留整个网络的差异性。我们通过在它们之间执行附加的特征融合方案，进一步从那些关系不太密切的组中挖掘特征，以学习更多区分特征。这是通过在级联特征上执行多个1x1卷积来实现的，其中每个关节组包含一个用于特征融合的唯一1x1卷积。详细的消融分析和在几个基准数据集上的广泛实验证明了该方法在最先进的SOTA方法方面的前景广阔。此外，在提交日期最新发布的FreiHAND竞赛中，我们的方法在未利用密集3D形状标签的所有方法中均排名第一。源代码和模型在以下位置可用

CT Film Recovery via Disentangling Geometric Deformation and Illumination Variation: Simulated Datasets and Deep Models Authors Quan Quan, Qiyuan Wang, Liu Li, Yuanqi Du, S. Kevin Zhou尽管计算机断层扫描CT等医学图像以DICOM格式存储在医院PACS中，但在许多国家还是很常见的做法是将胶片作为可转移的介质进行打印，以进行自我存储和二次咨询。此外，由于手机相机的普及，拍摄CT胶片的照片非常普遍，而CT胶片却遭受几何变形和照明变化的困扰。在这项工作中，我们尽我们所能研究了恢复CT胶片的问题，这是文献中的首次尝试。我们首先使用广泛使用的计算机图形软件Blender建立大型的头部CT胶片数据库CTFilm20K，该数据库包含大约20,000张照片。我们还将记录与几何变形有关的所有附带信息，例如3D坐标，深度，法线和UV贴图以及照明变化（例如反照率贴图）。然后，我们提出了一个深层框架，使用从CT胶片中提取的多个贴图来解开几何变形和照明变化，从而共同指导恢复过程。在模拟和真实图像上进行的大量实验证明了我们的方法优于以前的方法。我们计划开源模拟图像和深层模型，以促进CT胶片恢复的研究https：//匿名。4open.science r e6b1f6e3 9b36 423f a225 55b7d0b55523。

Learning to Share: A Multitasking Genetic Programming Approach to Image Feature Learning Authors Ying Bi, Bing Xue, Mengjie Zhang进化多任务处理是一种有前途的方法，可以通过知识共享来同时解决多个任务。图像特征学习可以解决为多任务问题，因为不同的任务可能具有相似的特征空间。遗传编程GP已成功地应用于图像特征学习以进行分类。但是，大多数现有的GP方法都使用足够的训练数据来独立解决一项任务。尚未开发用于图像特征学习的多任务GP方法。因此，本文开发了一种用于图像特征学习的多任务GP方法，用于训练数据有限的分类。由于GP的灵活表示，因此开发了基于新的个人表示的新知识共享机制，以使GP可以自动学习要在两个任务之间共享的内容。共享知识被编码为公共树，它可以表示两个任务的共同一般特征。利用新的个体表示，可以使用从公共树和代表任务特定特征的任务特定树中提取的特征来解决每个任务。为了学习最佳的通用树和特定于任务的树，开发了新的进化过程和新的适应度函数。该方法的性能在训练数据有限的12个图像分类数据集中的6个多任务问题上进行了检验，并与3个基于GP和14个基于非GP的竞争方法进行了比较。实验结果表明，新方法几乎在所有比较中均优于这些比较方法。进一步的分析表明，该新方法可以学习简单而有效的常见树，并且具有很高的有效性和可移植性。

FG-Net: Fast Large-Scale LiDAR Point CloudsUnderstanding Network Leveraging CorrelatedFeature Mining and Geometric-Aware Modelling Authors Kangcheng Liu, Zhi Gao, Feng Lin, Ben M. Chen这项工作展示了FG Net，这是一个通用的深度学习框架，可用于无需像素化即可理解大规模点云，该框架可通过单个NVIDIA GTX 1080 GPU来实现准确和实时的性能。首先，设计了一种新颖的噪声和异常值滤波方法来促进后续的高级任务。为了有效理解，我们提出了一种深度卷积神经网络，利用相关特征挖掘和基于可变形卷积的几何感知建模，可以充分利用局部特征关系和几何图案。对于效率问题，我们提出了一种逆密度采样操作和一种基于特征金字塔的残差学习策略，以分别节省计算成本和内存消耗。在现实世界中具有挑战性的数据集上进行的大量实验表明，在准确性和效率方面，我们的方法优于最新方法。此外，还进行了弱监督的迁移学习来证明我们方法的泛化能力。

Multi-shot Temporal Event Localization: a Benchmark Authors Xiaolong Liu 1 , Yao Hu 2 , Song Bai 2,3 , Fei Ding 2 , Xiang Bai 1 , Philip H.S. Torr 3 1 Huazhong University of Science and Technology, 2 Alibaba Group, 3 University of Oxford 时间事件或动作本地化的当前发展通常以单个摄像机捕获的动作为目标。但是，野外发生的大量事件或动作可能会被不同位置的多个摄像机捕获为一系列镜头。

PanoNet3D: Combining Semantic and Geometric Understanding for LiDARPoint Cloud Detection Authors Xia Chen, Jianren Wang, David Held, Martial Hebert自主驾驶感知中的视觉数据（例如相机图像和LiDAR点云）可以解释为语义特征和几何结构这两个方面的混合。语义来自对象到传感器的外观和上下文，而几何结构是点云的实际3D形状。 LiDAR点云上的大多数检测器仅专注于分析真实3D空间中对象的几何结构。与以前的作品不同，我们建议通过统一的多视图框架学习语义特征和几何结构。我们的方法利用了LiDAR扫描2D距离图像的性质，并应用了经过深入研究的2D卷积来提取语义特征。通过融合语义和几何特征，我们的方法在所有类别上的性能均优于最新方法。结合语义和几何特征的方法为观察现实世界中3D点云检测中的问题提供了独特的视角。

Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup Authors Guodong Xu, Ziwei Liu, Chen Change Loy知识提炼涉及从教师网络中提取暗知识以指导学生网络的学习，它已成为模型压缩和转移学习的基本技术。与以前的工作着重于学生网络的准确性不同，我们在这里研究了一些探索但重要的问题，即知识提炼效率。我们的目标是在训练过程中以较低的计算成本实现与传统知识蒸馏相当的性能。我们证明不确定性的mIXup UNIX可以作为一种干净而有效的解决方案。不确定性抽样策略用于评估每个训练样本的信息量。自适应混合应用于不确定样本以压缩知识。我们进一步表明，传统知识蒸馏的冗余在于对简单样本的过度学习。通过结合不确定性和混淆，我们的方法减少了冗余，并更好地利用了对教师网络的每个查询。我们在CIFAR100和ImageNet上验证了我们的方法。值得注意的是，我们仅用79的计算成本就在CIFAR100上优于传统知识提炼，并在ImageNet上获得了可比的结果。

Temporal LiDAR Frame Prediction for Autonomous Driving Authors David Deng, Avideh Zakhor对于自动驾驶和机器人等许多领域而言，在动态场景中预见未来至关重要。在本文中，我们提出了一类新颖的神经网络架构，以根据先前的框架预测未来的LiDAR框架。由于此应用程序中的基本事实只是序列中的下一帧，因此我们可以以自我监督的方式训练模型。我们提出的架构基于FlowNet3D和动态图CNN。我们使用倒角距离CD和推土机的距离EMD作为损失函数和评估指标。我们使用新发布的nuScenes数据集训练和评估我们的模型，并使用几个基准来表征它们的性能和复杂性。与直接使用FlowNet3D相比，我们提出的体系结构实现的CD和EMD降低了近一个数量级。此外，我们证明了我们的预测无需使用任何标记的监督即可生成合理的场景流近似值。

LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal Networks for HOI in videos Authors Sai Praneeth Reddy Sunkesula, Rishabh Dabral, Ganesh Ramakrishnan分析视频中人与物体之间的交互包括识别人与视频中存在的物体之间的关系。可以将其视为视觉关系检测的专用版本，其中对象之一必须是人类。尽管传统方法将问题表达为对视频片段序列的推断，但我们提出了一种分层方法LIGHTEN，以学习视觉特征以有效地捕获视频中多个粒度的时空提示。与当前方法不同，LIGHTEN避免使用地面真实数据，例如深度图或3D人体姿态，因此也增加了跨非RGBD数据集的概括性。此外，我们仅使用视觉特征，而不是通常使用的手工制作的空间特征即可达到相同的效果。我们在人与物体的交互检测88.9和92.6以及CAD 120的预期任务以及V COCO数据集中基于图像的HOI检测方面的竞争结果中获得了最先进的结果，为基于视觉特征的方法设定了新的基准。 LIGHTEN的代码可在以下位置获得

Zoom-to-Inpaint: Image Inpainting with High Frequency Details Authors Soo Ye Kim, Kfir Aberman, Nori Kanazawa, Rahul Garg, Neal Wadhwa, Huiwen Chang, Nikhil Karnad, Munchurl Kim, Orly Liba尽管深度学习已使图像修补取得了巨大的飞跃，但当前的方法通常无法合成逼真的高频细节。在本文中，我们提议将超分辨率应用于粗略重构的输出，以高分辨率对其进行细化，然后将输出缩减为原始分辨率。通过将高分辨率图像引入细化网络，我们的框架能够重建更细小的细节，这些细节通常由于频谱偏差而平滑，因为神经网络比低频更好地重建低频。为了帮助在较大的高档孔上训练细化网络，我们提出了一种渐进式学习技术，其中随着训练的进行，缺失区域的大小会增加。我们的放大，细化和缩小策略，结合高分辨率的监督和渐进式学习，构成了一种框架不可知论的方法，用于增强可用于其他修复方法的高频细节。我们提供了定性和定量评估以及烧蚀分析，以显示我们方法的有效性，其性能优于最新的修补方法。

Invariant Teacher and Equivariant Student for Unsupervised 3D Human Pose Estimation Authors Chenxin Xu, Siheng Chen, Maosen Li, Ya Zhang我们提出了一种基于师生学习框架的新颖方法，无需任何3D注释或辅助信息即可进行3D人体姿势估计。为了解决这一无监督的学习问题，教师网络采用基于姿势字典的建模方法进行正则化，以估算物理上可行的3D姿势。为了处理教师网络中的分解歧义，我们提出了一种循环一致的体系结构，该体系结构可促进3D旋转不变性来训练教师网络。为了进一步提高估计精度，学生网络采用新颖的图卷积网络以灵活地直接估计3D坐标。采用另一种促进3D旋转等变特性的循环一致性架构，以利用几何一致性，并结合来自教师网络的知识提炼，以改善姿态估计性能。我们对Human3.6M和MPI INF 3DHP进行了广泛的实验。与最先进的无监督方法相比，我们的方法将3D联合预测误差降低了11.4，并且比在Human3.6M上使用辅助信息的许多弱监督方法要好。代码将在以下位置提供

Efficient Golf Ball Detection and Tracking Based on Convolutional Neural Networks and Kalman Filter Authors Tianxiao Zhang, Xiaohan Zhang, Yiju Yang, Zongbo Wang, Guanghui Wang本文着重研究在线高尔夫球从图像序列进行检测和跟踪的问题。通过利用基于卷积神经网络CNN的目标检测和基于Kalman滤波器的预测，提出了一种有效的实时方法。实现并评估了五个基于经典深度学习的对象检测网络以进行球检测，包括YOLO v3及其微型版本YOLO v4，Faster R CNN，SSD和RefineDet。该检测是在小图像小块而不是整个图像上执行的，以提高小球检测的性能。在跟踪阶段，采用离散卡尔曼滤波器来预测球的位置，并根据该预测裁剪一个小的图像块。然后，利用物体检测器来细化球的位置并更新卡尔曼滤波器的参数。为了训练检测模型并测试跟踪算法，创建并标注了高尔夫球数据集。进行了广泛的比较实验，以证明所提出方案的有效性和出色的跟踪性能。

Event Camera Calibration of Per-pixel Biased Contrast Threshold Authors Ziwei Wang, Yonhon Ng, Pieter van Goor, Robert Mahony即使在极端的照明条件下，事件摄像机也会输出异步事件来以高的时间分辨率表示强度变化。当前，大多数现有作品使用单个对比度阈值来估计所有像素的强度变化。但是，复杂的电路偏置和制造缺陷会导致像素偏置以及像素之间的对比度阈值不匹配，这可能会导致不良输出。在本文中，我们提出了一种新的事件摄像机模型和两种校准方法，它们涵盖了仅事件摄像机和混合图像事件摄像机。当同时提供强度图像和事件时，我们还提出了一种有效的在线方法来校准事件摄影机，以适应随时间变化的事件发生率。与几种不同的事件摄像机数据集上的最新技术相比，我们证明了我们提出的方法的优势。

Unlabeled Data Guided Semi-supervised Histopathology Image Segmentation Authors Hongxiao Wang, Hao Zheng, Jianxu Chen, Lin Yang, Yizhe Zhang, Danny Z. Chen自动组织病理学图像分割对疾病分析至关重要。有限的可用标签数据阻碍了在完全监督的环境下训练模型的推广。基于生成方法的半监督学习SSL已被证明可有效利用各种图像特征。但是，尚未很好地探索哪种类型的生成图像对于模型训练以及如何使用此类图像更有用。在本文中，我们提出了一种利用未标记的数据分布进行组织病理学图像分割的新的数据指导的生成方法。首先，我们设计一个图像生成模块。图像内容和样式被解开并嵌入在群集友好的空间中以利用它们的分布。通过采样并交叉组合内容和样式来合成新图像。其次，我们设计了一种有效的数据选择策略，以明智地对生成的图像进行采样1，以使生成的训练集更好地覆盖数据集，原始训练集中代表不足的聚类被覆盖2，以使训练过程更加有效，在可能缺少注释的训练数据的数据中，识别并重采样困难病例的图像。我们的方法在腺体和细胞核数据集上进行了评估。我们表明，在归纳和转导设置下，我们的SSL方法始终如一地提高了常见细分模型的性能，并获得了最先进的结果。

Semi-Global Shape-aware Network Authors Pengju Zhang, Yihong Wu, Jiagang Zhu非本地操作通常用于通过将全局上下文最近聚合到每个位置来捕获远程依赖关系。但是，大多数方法无法保留对象形状，因为它们仅关注特征相似性，却忽略了中心位置和其他位置之间的接近性以捕获远距离依赖关系，而形状意识对于许多计算机视觉任务很有帮助。在本文中，我们提出了一种半全局形状感知网络SGSNet，该模型同时考虑了特征相似性和邻近性，以便在对远程依赖性进行建模时保留对象形状。采用分层方式来聚合全局上下文。在第一级中，整个特征图中的每个位置仅根据相似度和邻近度在垂直和水平方向上聚合上下文信息。然后将结果输入到第二级以执行相同的操作。通过这种分层方式，每个中心位置获得来自所有其他位置的支持，而相似性和接近性的组合使得每个位置获得的支持大部分来自同一语义对象。此外，我们还提出了一种用于上下文信息聚合的线性时间算法，其中将特征图中的行和列中的每一行都视为二叉树，以减少相似度计算成本。语义分割和图像检索的实验表明，将SGSNet添加到现有网络中可以在准确性和效率上取得实质性的提高。

Learning to Recover 3D Scene Shape from a Single Image Authors Wei Yin, Jianming Zhang, Oliver Wang, Simon Niklaus, Long Mai, Simon Chen, Chunhua Shen尽管在野外单眼深度估计方面取得了重大进展，但由于混合数据深度预测训练中使用的平移不变重建损失引起的未知深度偏移以及可能的未知摄像头，因此无法使用最新的技术来恢复准确的3D场景形状焦距。我们将详细研究此问题，并提出一个两阶段框架，该框架首先预测到未知比例的深度并从单个单眼图像进行偏移，然后使用3D点云编码器预测丢失的深度偏移和焦距，从而使我们能够恢复逼真的3D场景形状。此外，我们提出了图像级归一化回归损失和基于法线的几何损失，以增强在混合数据集上训练的深度预测模型。我们在9个看不见的数据集上测试了深度模型，并在零镜头数据集泛化方面达到了最先进的性能。代码位于

Roof-GAN: Learning to Generate Roof Geometry and Relations for Residential Houses Authors Yiming Qian, Hao Zhang, Yasutaka Furukawa本文介绍了Roof GAN，这是一种新型的生成对抗网络，可生成住宅屋顶结构的结构化几何图形，作为一组屋顶图元及其关系。给定图元的数量，生成器将生成一个结构化的屋顶模型作为图形，该模型由1个图元几何作为每个节点上的光栅图像，对小平面分割和角度进行编码，在每个边上2个图元共线性共面关系和3个图元几何。每个节点的向量格式，由新型可微分向量器在执行关系时生成。鉴别器经过训练，可以评估完整端到端架构中的原始栅格几何，原始关系和原始矢量几何。定性和定量评估证明了我们的方法在竞争方法上生成多样化和逼真的屋顶模型的有效性，本文提出了针对结构化几何生成任务的新颖指标。我们将共享我们的代码和数据。

Unsupervised Learning of Local Discriminative Representation for Medical Images Authors Huai Chen, Jieyu Li, Renzhen Wang, Yijie Huang, Fanrui Meng, Deyu Meng, Qing Peng, Lisheng Wang在许多医学图像分析任务中，例如通过测量局部图像区域的相似性来识别病变的亚型或分割解剖结构的详细组成部分，都需要进行局部区分。但是，通常采用的监督式表示学习方法需要大量的注释数据，无监督的判别式表示学习通过学习全局特征来区分不同的图像。为了避免这两种方法的局限性并适合于局部医学图像分析任务，我们在这项工作中将局部区分引入无监督的表示学习中。该模型包含两个分支，一个是嵌入分支，其学习嵌入函数以在低维超球体上分散相异的像素，另一个是聚类分支，其学习聚类函数以将相似像素分类到同一聚类中。这两个分支以互利的模式同时进行训练，并且学习到的局部判别表示能够很好地测量局部图像区域的相似性。可以传输这些表示以增强各种下游任务。同时，它们也可以在模拟的拓扑先验或具有类似拓扑特征的其他结构的指导下，将未标记医学图像的解剖结构聚类。通过增强各种下游任务并在视网膜图像和胸部X射线图像中聚集解剖结构，证明了该方法的有效性和实用性。相应的代码位于

Polyblur: Removing mild blur by polynomial reblurring Authors Mauricio Delbracio, Ignacio Garcia Dorado, Sungjoon Choi, Damien Kelly, Peyman Milanfar我们提出了一种高效的盲目复原方法，以消除自然图像中的轻微模糊。与主流相反，我们专注于消除经常出现的轻微模糊，这会损害图像质量，并且通常由少量的失焦，镜头模糊或轻微的相机运动产生。所提出的算法首先估计图像模糊，然后以有原则的方式通过组合估计模糊的多种应用来对其进行补偿。为了估计模糊，我们基于经验观察引入了一种简单而鲁棒的算法，该经验是关于清晰自然图像中梯度的分布。我们的实验表明，在温和模糊的情况下，所提出的方法优于传统和现代的盲去模糊方法，并且运行时间仅占一小部分。我们的方法可用于在应用现成的超分辨率方法之前盲目校正模糊，从而获得比其他高度复杂且计算要求高的技术更好的结果。提出的方法可以在一秒钟内估算并消除现代手机上的12MP图像中的轻微模糊。

Learning to Recognize Patch-Wise Consistency for Deepfake Detection Authors Tianchen Zhao, Xiang Xu, Mingze Xu, Hui Ding, Yuanjun Xiong, Wei Xia我们建议基于面部表情的基本特征之一检测由人脸操作生成的Deepfake，这些图像被来自多个来源的补丁混合而成，并带有不同且持久的来源特征。特别是，我们针对此任务提出了一种新颖的表示学习方法，称为逐块明智一致性学习PCL。它通过测量图像源特征的一致性来学习，从而获得对多种伪造方法具有良好解释性和鲁棒性的表示形式。我们开发了一个不一致的图像生成器I2G，以生成PCL的训练数据并增强其鲁棒性。我们在七个流行的Deepfake检测数据集上评估了我们的方法。我们的模型实现了卓越的检测精度，并很好地推广到了看不见的生成方法。平均而言，在内部数据集和交叉数据集评估中，我们的模型在AUC方面的表现优于现有技术，分别为2和8。

Self-Supervised Sketch-to-Image Synthesis Authors Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed Elgammal从任意绘制的草图中想象出彩色逼真的图像是我们渴望机器模仿的人类能力之一。与以前的需要素描图像对或利用少量检测到的边缘作为素描的方法不同，我们以自我监督的学习方式研究了基于示例的素描到图像s2i合成任务，从而消除了配对素描数据的必要性。为此，我们首先提出了一种无监督方法，可以有效地合成仅适用于RGB的通用数据集的线草图。利用合成的配对数据，我们然后提供一个自我监督的自动编码器AE，以将内容样式特征与草图和RGB图像解耦，并合成内容忠实于草图和样式与RGB图像一致的图像。尽管先前的工作采用了循环一致性损失或专用的注意模块来增强内容样式的保真度，但我们通过纯自我监督展示了AE的卓越性能。为了进一步提高高分辨率的合成质量，我们还利用对抗网络来细化合成图像的细节。在1024 1024分辨率上的广泛实验证明了CelebA HQ和Wiki Art数据集上所提出模型的最新艺术表现。此外，通过提出的草图生成器，该模型在样式混合和样式转移方面显示出令人鼓舞的性能，这要求合成图像既具有样式一致性又具有语义上的意义。我们的代码可在

Projected Distribution Loss for Image Enhancement

标签：紫外线传感器10v4

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！