AI视野·今日CS.CV 计算机视觉论文速读 Wed, 23 Jun 2021 Totally 73 papers ???更精彩请移动主页
Daily Computer Vision Papers
Tracking Instances as Queries Authors Shusheng Yang, Yuxin Fang, Xinggang Wang, Yu Li, Ying Shan, Bin Feng, Wenyu Liu最近,基于查询的深网络在几个基本的计算机视觉任务中,如对象检测、语义分段和实例分割,因为它结束了管道和竞争结果。但是,如何建立基于查询的视频实例分段Vis框架,架构优雅,性能强,还有待解决。在本文中,我们呈现TextBF QueryTrack i.e.,以统一查询为基础的跟踪实例VIS充分利用框架QueryInst实例与查询之间的对应关系。该方法在YouTube VIS上获取52.7 52.3 AP 2019年2021年的数据集CVPR 2021 TextBF的YouTube VIS赢了两个挑战ND,在CVPR 2021 TextBF单级测试适度的培训数据量。我们还提供QueryTrack Reset50基线结果,YouTube Vis 2021 DataSet作为VIS参考社区。 |
Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation Authors Lei Ke, Xia Li, Martin Danelljan, Yu Wing Tai, Chi Keung Tang, Fisher Yu需要检测多个对象的跟踪和分割,跟踪和分割属于一组给定的对象。大多数方法只利用时间维度来解决相关问题,而依赖于分割掩码本身的单帧预测。我们提出了跨关注网络的原型PCAN,丰富的使用Spatio在线跟踪和分段时间信息。 PCAN首先将空间时间内存蒸馏成一组原型,然后用跨注意力从过去的框架中搜索丰富的信息。为了段,PCAN学习一组比较前景和背景原型的原型外观模块,然后随着时间的推移传播。广泛的实验表明,PCAN在YouTube VIS和BDD100K数据集中显示了当前的视频实例跟踪和分段竞争获胜者,并显示了一两个阶段分割框架的效果。代码将在HTTP VIS.XYZ PUB PCAN上获得。 |
Unsupervised Object-Level Representation Learning from Scene Images Authors Jiahao Xie, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen Change Loy与自我监督相比,学习在很大程度上缩小了预训练的差距。然而,它的成功高度依赖于想象中的对象中心,即同一图像的不同增强视图对应于同一对象。在更复杂的场景图像上,有许多物体的预训练变得不可行。为了克服这一限制,我们介绍了学习的对象级别ORL,这是一个面向场景图像的新的自我监督学习框架。我们的主要洞察力是利用图像级自我监督的预训练作为发现对象级语义的对应,从而实现场景图像学习的对象级表达。对Coco广泛的实验表明,ORL自我监督学习在场景图像上的表现显著提高,甚至超过了几个下游任务的监督Imagenet预训练。另外,当可以使用未标记的场景图像时,ORL提高下游性能,证明其在野外使用未标记数据的巨大潜力。我们希望我们的方法能激励未来的研究从场景数据学习中更常见的无监督代表。项目页面 |
MetaAvatar: Learning Animatable Clothed Human Models from Few Depth Images Authors Shaofei Wang, Marko Mihajlovic, Qianli Ma, Andreas Geiger, Siyu Tang本文的目标是创建一个可概括和可控的神经签名距离SDF,它代表着单眼深度观察的穿衣人。深度学习的最新进展,特别是神经隐式表示,产生了不同传感器输入的人类形状重建和可控化身。然而,为了产生新输入姿势的真实布变形,通常需要水密网格或密集的全身扫描作为输入。此外,由于有效的建模姿势依赖于布变形,用于各种身体形状和布,现有的方法从头开始,每个受试者的布优化,这是昂贵的计算。相比之下,我们提出了一种方法,可以快速生成穿着人体化身的现实,表示可控神经SDFS,只给出单眼深度图像。我们通过使用元学习来实现这一目标,以学习预测神经SDF的参数的HyperNetwork的初始化。 Hypernetwork根据输入姿势,调整人体姿势,代表着穿着的神经化身,使非刚性变形。同时,与从头开始的划痕训练模型相比,它是一个前锋,有效地融合了各种身体形状和面料,因此可以更快地融入微调。我们定性和定量地表明,我们的方法优于所需的现有方法,需要完整的网格作为输入,而我们的方法只需要深帧作为输入,并更快地运行百分比。另外,我们证明了我们的META学习的HyperNetWork它非常强大,是第一个生成逼真动态布变形的头像,给出不到8个单眼深度框架。 |
RootPainter3D: Interactive-machine-learning enables rapid and accurate contouring for radiotherapy Authors Abraham George Smith, Jens Petersen, Cynthia Terrones Campos, Anne Kiil Berthelsen, Nora Jarrett Forbes, Sune Darkner, Lena Specht, Ivan Richter Vogelius器官的风险轮廓仍然是放射治疗的瓶颈,许多深入的学习方法在评估临床数据时缺乏承诺。我们研究了交互式机器学习方法在风险轮廓任务中的准确性和节省时间。我们将这种方法与Eclipse比较轮廓软件,并与手动描述找到强有力的协议。骰子分为0.95。使用纠正符号创建的注释也需要更少的时间来创建,因为与手动方法相比,在平均描述2分钟和2秒的心中逐渐消除了大量的时间,在划定了923张图像后,手动划定时间为7分钟和1秒。我们的实验表明,具有校正符号的交互式机器学习为非计算机科学家提供了一种快速和接近的方法,可以培养深入的学习模型,并将其兴趣结构分为传统的临床工作过程。 |
Towards Reducing Labeling Cost in Deep Object Detection Authors Ismail Elezi, Zhiding Yu, Anima Anandkumar, Laura Leal Taixe, Jose M. Alvarez深度神经网络在对象检测中达到了很高的准确性,但它们的成功铰链大量标记数据。为了减少对标签的依赖,通常基于探测器的信心,提出了各种主动学习策略。然而,这些方法倾向于最佳性能类别,并且可以导致获得的数据集不代表测试集中数据。在这项工作中,考虑到探测器的不确定性和鲁棒性,我们提出了一个统一的主动学习框架,以确保网络在所有类别中的准确实施。此外,我们的方法可以伪标记自信的预测,抑制潜在的分布漂移,进一步提高模型的性能。实验表明,我们的方法全面优于Pascal VOC07 1和MS Coco的广泛主动学习方法,其具有高达7.7的相对改善,或标记成本的降低至高达82。 |
G-VAE, a Geometric Convolutional VAE for ProteinStructure Generation Authors Hao Huang, Boulbaba Ben Amor, Xichan Lin, Fan Zhu, Yi Fang分析蛋白质的结构是理解其功能的关键部分,从而成为它们在分子水平的生物学中的作用。此外,以有条不紊的方式设计新的蛋白质是一个主要的工程挑战。在这项工作中,我们介绍了一种用于比较,变形和产生3D蛋白质结构的联合几何神经网络方法。将蛋白质结构视为3D开放曲线,我们采用平方根速度函数SRVF表示,并利用其合适的几何特性以及深度剩余网络的复位,以进行联合注册和比较。我们的试剂处理更好的大蛋白质变形,同时更加计算效率。在数学框架之上,我们进一步设计了一种几何变分自动编码器G VAE,曾经培训,将原始,以前看不见的结构映射到低维潜伏超球中。通过预塑造空间的球形结构的动机,我们自然地采用了von Mises Fisher VMF分布来模拟隐藏变量。我们通过产生新型蛋白质结构和预测损坏的蛋白质结构的完成来测试模型的有效性。实验结果表明,我们的方法能够产生合理的结构,与训练数据中的结构不同。 |
Enhanced Separable Disentanglement for Unsupervised Domain Adaptation Authors Youshan Zhang, Brian D. Davison域适应旨在在将现有标记域传输到新域时减轻域间隙。但是,基于现有的脱谕式的方法没有完全考虑域不变和域特定功能之间的分离,这意味着域不变的功能不是歧视的。在训练期间,重建的特征也不充分使用。在本文中,我们提出了一种新颖的增强可分离解剖学ESD模型。我们首先使用Disentangler来蒸发域不变和域特定功能。然后,我们应用功能分离增强过程,以最大限度地减少域不变和域特定功能之间的污染。最后,我们的模型重建了完整的特征向量,在训练阶段期间用于进一步解剖。来自三个基准数据集的广泛实验,最优于现有技术的状态,尤其是在挑战跨域任务上。 |
Residual Networks as Flows of Velocity Fields for Diffeomorphic Time Series Alignment Authors Hao Huang, Boulbaba Ben Amor, Xichan Lin, Fan Zhu, Yi Fang非线性大型时间翘曲是时间序列分析中有挑战性的滋扰来源。在本文中,我们提出了一种新的散丝颞变压器网络,用于两者和关节时间序列对齐。我们的ResetT TW Deep Reseutal Network用于时间扭曲通过合成增量漫射映射的流动来解决对准问题。通过流量方程来控制,我们的残余网络resnet构建光滑,流体和常规速度场的流动,因此产生了光滑且可逆的变换,即扩散翘曲功能。灵感来自优雅的大变形扩散度量映射LDDMM框架,最终变换由时间依赖的矢量字段的流量构建,这些传感器字段除了我们的剩余网络的构建块。后者自然被视为流程方程的欧拉离散化模式。曾经接受过培训,我们的RESET TW通过单个廉价的前进通行证对齐看不见的数据。正如我们在UCR存档和多变量时间序列MSR动作3D,佛罗伦萨3D和MSR日常活动中所示的单变量84个数据集的实验中所示,Resnet TW在联合对准和分类中实现了竞争性能。 |
PALMAR: Towards Adaptive Multi-inhabitant Activity Recognition in Point-Cloud Technology Authors Mohammad Arif Ul Alam, Md Mahmudur Rahman, Jared Q Widberg随着深度神经网络和基于计算机视觉的人类活动认可的进步,Point Cloud Data Technologies Lidar的就业,MMWAVE由于其隐私保护性而受到了很多兴趣。鉴于准确的PCD技术的高度承诺,我们通过采用高效的信号处理和新颖的机器学习技术来跟踪各个人来开发自适应多居民跟踪和HAR系统来开发.Palla,一种多居民活动识别系统。更具体地说,我们提出了基于IA Voxized特征表示的实时PCD精细调谐方法,II有效聚类DBSCAN和桦木,自适应顺序隐藏马尔可夫模型的基于多人跟踪和交叉模型的跨性能减少技术和III新颖自适应深度学习的域适应技术的改进RAR在存在数据稀缺和多样性设备,位置和人口多样性的情况下的准确性。我们通过6个参与者,IA实时PCD进行实验评估我们的框架和系统,使用三台设备3D LIDAR和79 GHz MMWAVE,II一个公开可用的3D LIDAR活动数据28参与者和III一种嵌入式硬件原型系统,该系统提供了有前途的Har表演居民96场景,多人跟踪的63种改善而不是艺术框架的状态,而不会在边缘计算设备中失去显着的系统性能。 |
A Latent Transformer for Disentangled and Identity-Preserving Face Editing Authors Xu Yao, Alasdair Newson, Yann Gousseau, Pierre Hellier高质量的面部图像编辑是电影后生产行业的一个具有挑战性的问题,需要高度的控制和身份保存。以前的作品试图解决这个问题可能遭受面部属性的纠缠和人的身份丧失。此外,许多算法仅限于某个任务。为了解决这些限制,我们建议通过样式生成器的潜在空间来编辑面部属性,通过培训专用的潜在变换网络并在丢失函数中包含显式解剖和标识保存术语。我们进一步介绍了一条管道,以概括我们的脸部编辑到视频。我们的模型实现了脱屑,可控和身份保存的面部属性编辑,即使在真实的挑战性情况下,也是如此。,非合成图像和视频。我们对图像和视频数据集进行了广泛的实验,并显示了我们的模型在视觉质量和定量评估中表明了现有技术的其他状态。 |
MEAL: Manifold Embedding-based Active Learning Authors Deepthi Sreenivasaiah, Thomas Wollmann图像分割是自主驾驶中的一个共同且具有挑战性的任务。培训数据的足够像素级别注释的可用性是障碍。主动学习通过表明最有前途的标签样本有助于学习少量数据。在这项工作中,我们提出了一种基于新的基于池的主动学习方法,该方法在每个获取步骤中提出有前途的图像区域。通过基于统一歧管近似与熵的模型表示,通过组合嵌入作为模型信息的不确定性度量来构建问题,以探索开发框架中的探索开发框架。我们将所提出的方法应用于具有挑战性的自主行驶数据集Camvid和City展示,并与现有技术进行了定量比较。我们发现,与其他方法相比,我们的主动学习方法在Camvid上实现了更好的性能,而在城市景观上,性能升降措施可以忽略不计。 |
HybVIO: Pushing the Limits of Real-time Visual-inertial Odometry Authors Otto Seiskari, Pekka Rantalankila, Juho Kannala, Jerry Ylilammi, Esa Rahtu, Arno Solin我们呈现Hybvio,一种新型混合方法,用于基于优化的基于优化的基于过滤的视觉惯性内径vio。我们的方法的核心是强大的,独立的VIO,具有改进的IMU偏置建模,异常值抑制,实体性检测和特征轨道选择,可调节到嵌入式硬件上运行。通过松散耦合的SLAM模块实现长期一致性。在学术基准测试中,我们的解决方案在所有类别中产生了出色的性能,特别是在实时使用情况,我们优于现有技术的现实状态。我们还展示了使用自定义数据集对消费级硬件对消费类硬件的车辆跟踪的可行性,并与当前的商业诉讼替代品相比,表现出良好的性能。 |
Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval Authors Zhipeng Wang, Hao Wang, Jiexi Yan, Aming Wu, Cheng Deng基于零拍摄的图例的图像检索ZS SBIR是一种新型跨模型检索任务,其中抽象草图用作检索零拍场面下的自然图像的查询。大多数现有方法将ZS SBIR视为传统的分类问题,并采用跨熵或基于三重子的损失来实现检索,这忽略了草图和自然图像之间的域间隙问题以及草图中的大型课堂多样性。为此,我们提出了一种用于ZS SBIR的新型域平滑网络DSN。具体地,提出了一种跨模型对比方法,以学习广义表示通过与额外的增强样本进行采矿关系来平滑域间差距。此外,探讨了具有草图特征的特定特定存储库,以减少草图域中的帧内多样性。广泛的实验表明,我们的方法尤其优于粗略和柏林数据集中的现有技术的状态。我们的源代码公开提供 |
Proposal Relation Network for Temporal Action Detection Authors Xiang Wang, Zhiwu Qing, Ziyuan Huang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Changxin Gao, Nong Sang本技术报告提出了我们在AcitiatiyNet挑战中的时间作用检测任务的解决方案2021.本任务的目的是定位和识别Long Untrimmed视频中感兴趣的行为。任务的关键挑战来自于,时间的行动持续时间急剧变化,并且目标动作通常嵌入无关的活动的背景中。我们的解决方案在BMN上构建,主要包含三个步骤1动作分类和通过速度,CSN和Vivit 2提案的特征编码。我们通过嵌入拟议的提案关系网络PRN来改善BMN,我们可以通过其中产生高质量的3动作检测的建议。我们通过分配具有相应分类结果的提案来计算检测结果。最后,我们在不同设置下的结果集合并在测试集上实现44.7,这在平均地图方面将冠军队伍提高了1.9的冠军。 |
Weakly-Supervised Temporal Action Localization Through Local-Global Background Modeling Authors Xiang Wang, Zhiwu Qing, Ziyuan Huang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Yuanjie Shao, Nong Sang弱监督的时间行动定位WS TAL任务旨在识别和本地化未经监控视频中的行动实例的时间开始和结束,只有视频级标签监控。由于缺乏背景类别的消极样本,网络难以将前景和背景分开,导致检测性能差。在本报告中,我们展示了我们的2021 HACS挑战基于Basnet的弱监督学习轨道解决方案,以解决上述问题。具体而言,我们首先采用预训练的CSN,速度,TDN和Vivit作为特征提取器来获取特征序列。然后,我们提出的本地全局背景建模网络LGBM Net通过仅基于多实例学习MIL仅使用视频级标签培训到本地化实例。最后,我们集合了多种模型来获得最终的检测结果并在测试集上达到22.45张图 |
nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles Authors Holger Caesar, Juraj Kabzan, Kok Seang Tan, Whye Kit Fong, Eric Wolff, Alex Lang, Luke Fletcher, Oscar Beijbom, Sammy Omari在这项工作中,我们提出了基于世界的第一个闭环ML的自主驾驶计划基准。虽然有一个基于ML的ML的议员持有人,但缺乏建立的数据集和指标在这一领域有限。自主车辆运动预测的现有基准专注于短期运动预测,而不是长期规划。这引用了以前的作品来使用基于L2的度量标准的开放循环评估,这不适合公平地评估长期规划。我们的基准通过引入大规模驾驶数据集,轻质闭环模拟器和运动规划特定度量来克服这些限制。我们提供高质量的数据集,拥有来自美国和亚洲的4个城市的人类驾驶数据1500h,具有广泛不同的交通模式波士顿,匹兹堡,拉斯维加斯和新加坡。我们将提供具有无功代理的闭环仿真框架,并提供一系列一般和方案特定的规划指标。我们计划在Neurips 2021发布数据集,并在2022年初开始组织基准挑战。 |
Evaluation of a Region Proposal Architecture for Multi-task Document Layout Analysis Authors Lorenzo Quir s, Enrique Vidal自动识别手写文档的布局是迈向这些文件中的信息提取的重要一步。最常见的应用程序是馈送下游应用程序,例如自动文本识别和关键字发现,但是,对布局的识别还有助于建立文档中的元素之间的关系,其允许丰富可以提取的信息。大多数现代文档布局分析系统旨在仅解决文档布局问题的一部分,即基线检测或区域分割。相比之下,我们评估掩模RCNN架构以综合方式解决基线检测和区域分割问题的有效性。我们在两个手写文本数据集和一个手写音乐数据集上呈现实验结果。分析的架构产生了有希望的结果,在所有三个数据集中优于现有技术的表现优于现有技术。 |
DeepMesh: Differentiable Iso-Surface Extraction Authors Benoit Guillard, Edoardo Remelli, Artem Lukoianov, Stephan Richter, Timur Bagautdinov, Pierre Baque, Pascal Fua几何深度学习最近在持续深度隐式领域的出现时取得了惊人的进展。它们允许详细建模任意拓扑的水密曲面,同时不依赖于3D欧几里德网格,从而导致学习参数化,这些参数化在分辨率中是无限的。遗憾的是,这些方法通常不适合需要基于显式网格的表面表示的应用程序,因为将隐式字段转换为这种表示依赖于行进的立方体算法,其不能相对于底层隐式区域区分。在这项工作中,我们删除了此限制,并引入了一种可分别的方法来生成深度隐式字段的显式表面网格表示。我们的主要识别是,通过推理隐式场扰动如何影响局部表面几何形状,可以最终将表面样本的3D位置与基础深度隐式区域区分开来。我们利用这一点来定义DeepMesh End以结束可分变的网格表示,可以改变其拓扑。我们使用两个不同的应用来通过可微分渲染和物理驱动的形状优化来验证我们的理论洞察单视图3D重建。在两种情况下,我们结束到最终可分辨率参数化,给我们了解最先进的算法。 |
A Review of the Vision-based Approaches for Dietary Assessment Authors Ghalib Tahir, Chu Kiong Loo肥胖等饮食相关问题在今天的现代世界中是一个日益令人担忧的问题。如果目前的趋势持续,很可能是生活质量,通常受到显着影响,因为肥胖与其他慢性疾病如高血压,不规则血糖水平和心脏病风险的增加。这些问题的主要原因是生活方式差和不健康的饮食习惯,重点是选择少数食物群,如糖,脂肪和碳水化合物。在这方面,基于计算机的食物识别提供了自动视觉视觉的方法来评估饮食摄入并帮助人们进行更健康的选择。因此,以下论文介绍了对食品认可的视觉识别方法的简要介绍,包括他们的准确性,性能和流行食品数据库的使用来评估现有模型。该工作进一步旨在突出该领域的未来挑战。建议使用新的高质量研究,用于开发标准基准以及利用持续学习的食品认可方法。 |
RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB Video Authors Jiayi Wang, Franziska Mueller, Florian Bernard, Suzanne Sorli, Oleksandr Sotnychenko, Neng Qian, Miguel A. Otaduy, Dan Casas, Christian Theobalt跟踪和重建两只手中的3D姿势和几何形状是一个具有挑战性的问题,对几个人类计算机交互应用具有高相关性,包括AR VR,机器人或手语识别。现有的工作要么限制为更简单的跟踪设置,但只考虑单个手或两个空间分离的手,或依靠更少的无处不在的传感器,例如深度摄像机。相比之下,在这项工作中,我们向手中的骨骼姿势和3D表面几何形状的第一个实时方法从单个RGB相机显式考虑关闭交互。为了解决RGB数据中的固有深度歧义,我们提出了一种新的多任务CNN,其回归多个互补信息,包括分段,密集匹配到3D手模型,以及2D关键位置,以及新提出的手中的相对深度和手部间距地图。随后在生成模型拟合框架中使用这些预测,以便为双手估计3D手模型的姿势和形状参数。我们通过广泛的消融研究通过广泛的消融研究来通过实验验证我们的RGB两只手跟踪和3D重建管道的各个组成部分。此外,我们证明我们的方法先前提供了从RGB的两只手跟踪性能,并定量和定性优于现有的基于RGB的方法,这些方法没有明确设计用于两只手交互。此外,我们的方法甚至与基于深度的实时方法进行了同步。 |
The Hitchhiker's Guide to Prior-Shift Adaptation Authors Tomas Sipka, Milan Sulc, Jiri Matas在许多计算机视觉分类任务中,测试时间的类前沿通常与培训集上的前沿不同。在这种先前换档的情况下,必须相应地调整分类器以保持接近最佳性能。本文分析了对新前锋的概率分类器改编的方法,并在未标记的测试集中估算新前锋。我们提出了一种解决基于混淆矩阵的现有估计方法的已知问题的新方法,其中判定概率和混淆矩阵的不一致估计导致估计的前沿中的负值。细粒度图像分类数据集的实验提供了对先前换档估计和分类器适应的最佳实践的洞察,并且表明所提出的方法实现了现有技术的结果。将最佳做法应用于具有自然不平衡的前沿的两个任务,从网络爬网和工厂种类的分类中学习,分别增加了1.1和3.4的识别准确性。 |
Give Me Your Trained Model: Domain Adaptive Semantic Segmentation without Source Data Authors Yuxi Wang, Jian Liang, Zhaoxiang Zhang受益于从特定情况源收集的相当大的像素级别注释,训练有素的语义分段模型表现得很好,但由于大域移位而在新的情况目标中失败。为了缓解域间隙,先前的横域语义分割方法始终假设在分布对齐期间源数据和目标数据的CO存在。但是,在真实方案中访问源数据可能会引发隐私问题并违反知识产权。为了解决这个问题,我们专注于一个有趣且具有挑战性的跨域语义分割任务,其中仅向目标域提供训练的源模型,并进一步提出了一个统一的框架,称为域自适应语义分段,没有源数据DAS 3。具体地,DAS 3由三种方案组成,即特征对准,自训练和信息传播。首先,我们主要在网络输出上发出焦点熵损失,以通过提供的源模型隐式对准目标功能。其次,除了Vanilla自我训练中的正伪标签外,我们首先向场引入负面伪标签,并开发双向自我训练策略,以增强目标域中的表示学习。最后,信息传播方案通过伪半监督学习进一步减少了目标域内的域内差异。对真实和跨城市驾驶数据集的综合的广泛结果验证了DAS 3产生了最新性能的状态,即使是需要访问源数据的方法。 |
Self-Supervised Iterative Contextual Smoothing for Efficient Adversarial Defense against Gray- and Black-Box Attack Authors Sungmin Cha, Naeun Ko, Youngjoon Yoo, Taesup Moon我们提出了一种新颖且有效的输入转化基于对灰色和黑色盒子攻击的对抗性防御方法,这是计算效率,并且不需要对分类模型的任何对抗训练或再培训。首先表明,非常简单的迭代高斯平滑可以有效地洗掉对抗性噪音并实现大大高的鲁棒精度。基于观察,我们提出了自我监督的迭代语境平滑SSIC,其旨在以语境自适应方式重建从高斯平滑图像的原始辨别特征,同时仍然平滑对抗噪声。从想象中的实验,我们表明我们的SSIC为灰色和黑盒攻击达到了高标准精度和非常竞争力的鲁棒精度,例如,基于PGD攻击和基于得分的攻击。值得强调的一份值是我们的防御是没有计算昂贵的对抗性训练,但可以通过输入转换来接近其强大的准确性。 |
Confidence-Aware Learning for Camouflaged Object Detection Authors Jiawei Liu, Jing Zhang, Nick Barnes被证明的信心意识学习是一种有效的解决方案,以防止网络过度自信。我们展示了一种使用动态监控的信心识的伪装对象检测框架,以产生准确的伪装地图和有意义的信心,代表了对当前预测的模型认识。伪装的物体检测网络旨在产生我们的伪装预测。然后,我们将其与输入图像连接并馈送到置信估计网络以产生一个频道置信度图。我们为置信度估计网络产生动态监控,代表伪装预测与地面真相伪装地图的协议。通过生产的置信度图,我们将信心意识到学习与置信度图作为指导,以便更加关注损失功能中的硬低置信像素。我们声称,一旦训练,我们的置信度估计网络就可以评估预测的像素明显的准确性,而不依赖于地面真理伪装地图。四个伪装对象检测测试数据集的广泛结果说明了所提出的模型在解释伪装预测方面的优越性。 |
Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition Authors Jingye Chen, Bin Li, Xiangyang Xue由于其广泛的应用,汉字识别引起了很多研究兴趣。虽然已经研究了多年,但这条领域的一些问题尚未完全解决,例如,零射击问题。以前的基于字符和基于激进的方法没有从根本上解决零射击问题,因为测试集中的某些角色或激进术可能不会出现在饥饿状态下的数据下的训练集中。灵感来自于人类可以概括地知道如何在学习某些角色的中风命令之前知道如何编写字符,我们通过将每个字符分解为一系列笔画来提出基于行程的方法,这是中文最基本的单位人物。然而,我们观察到中风序列和汉字之间存在一个到许多关系。为了解决这一挑战,我们使用基于匹配的策略来将预测的笔划序列转换为特定字符。我们在手写字符,印刷艺术字符和场景字符上评估所提出的方法。实验结果验证了所提出的方法优于两个字符零射击和激进零拍摄任务的现有方法。此外,所提出的方法可以很容易地推广到其特征可以分解为笔触的其他语言。 |
Multi-layered Semantic Representation Network for Multi-label Image Classification Authors Xiwen Qu, Hao Che, Jun Huang, Linchuan Xu, Xiao Zheng多标签图像分类MLIC是一个基本实用的任务,旨在为图像分配多个可能的标签。近年来,已经提出了许多深度卷积神经网络CNN基于CNN的方法,其模型标签相关性以发现标签的语义并学习图像的语义表示。本文通过改善标签相关性和语义表示的学习来实现这一研究方向。一方面,除了每个标签的本地语义外,我们建议进一步探索由多个标签共享的全局语义。另一方面,现有方法主要学习CNN的最后一个卷积层的语义表示。但已经注意到,CNN不同层的图像表示捕获不同的特征或具有不同的鉴别能力。因此,我们建议在多个卷积层中学习语义表示。为此,本文设计了一种多层语义表示网络MSRN,通过建模标签相关性并利用标签语义来指导通过注意机制在多层学习的语义表示来发现标签的本地和全局语义。在包括VOC 2007,Coco,Nus宽的四个基准数据集的广泛实验表明,拟议的MSRN竞争性表现为艺术模型的竞争性能。 |
Part-Aware Measurement for Robust Multi-View Multi-Human 3D Pose Estimation and Tracking Authors Hau Chu, Jia Hong Lee, Yao Chih Lee, Ching Hsien Hsu, Jia Da Li, Chu Song Chen本文介绍了一种基于校准多视图的多人3D姿态估计和跟踪方法。即使若干人类姿势估算嘈杂,主要挑战就在于确定越野和时间对应。与以前的解决方案与来自多种视图构建3D的先前解决方案,我们的方法利用时间一致性来匹配在每个视图中使用先前构造的3D骨架估计的2D姿势。因此,同时完成横视和时间关联。由于误认为误认为和嘈杂的预测,我们设计了两个旨在更好的对应和3D重建的策略。具体地,我们提出了对2D 3D关联的部分感知测量和在重建期间可以应对2D异常值的滤波器。我们的方法与现有技术的状态有效且有效地比较它在校园内的两个基准96.8上实现了竞争结果。此外,我们扩展了校园评估帧的长度,以更具挑战性,我们的提案也达到了良好的结果。 |
A Comparison for Patch-level Classification of Deep Learning Methods on Transparent Images: from Convolutional Neural Networks to Visual Transformers Authors Hechen Yang, Chen Li, Peng Zhao, Ao Chen, Xin Zhao, Marcin Grzegorzek如今,计算机视野领域透明图像的分析逐渐成为一个热点。在本文中,我们比较不同深度学习的分类性能,以解决透明图像难以分析的问题。我们以相同的比例将透明图像裁剪为8 8和224 224像素块,然后根据地上的基于地面,将两个不同的像素贴片分成前景和背景。我们还使用4种类型的卷积神经网络和新的Vit网络模型来比较前景和背景分类实验。我们得出结论,VIT在分类8 8像素贴片中的最差可能性,但它在分类224 224中的大多数卷积神经网络中表现优于大多数卷积神经网络。 |
Universal Domain Adaptation in Ordinal Regression Authors Chidlovskii Boris, Assem Sadek, Christian Wolf我们解决了序数回归的通用领域适应UDA的问题,或者试图解决标签不独立的分类问题,而是遵循自然秩序。我们表明,在执行IN或设置的情况下,开发了用于分类和群集假设的UDA技术。我们提出了一种用辅助学习辅助任务的辅助任务的方法,该方法涉及识别公共和私有实例之间的双重作用,并通过排名将类标签扩展到私有目标图像之间。结合对抗域歧视,我们的模型能够解决封闭式集,部分和打开的集配置。我们在三个面年龄估计数据集中评估我们的方法,并表明它优于基线方法。 |
Creating A New Color Space utilizing PSO and FCM to Perform Skin Detection by using Neural Network and ANFIS Authors Kobra Nazaria, Samaneh Mazaheri, Bahram Sadeghi Bigham肤色检测是与计算机视觉相关的各种应用中的必需步骤。这些应用程序将包括面部检测,在电影和照片中寻找色情图像,寻找种族,年龄,诊断等。因此,提出适当的皮肤检测方法可以提供解决问题的解决方案。在本研究中,首先使用FCM和PSO算法创建新的色彩空间。然后,利用线性和非线性模式,在新的色彩空间中进行了皮肤分类。此外,它已经在RGB和Lab颜色空间中完成了ANFIS和神经网络。 RBG颜色空间中的皮肤检测已经使用Mahalanobis距离和欧几里德距离算法进行。相比之下,这种方法比同一数据库上最准确的方法具有18.38个更高的准确性。此外,该方法在测试Compaq数据集中的相同误差率1 eer中实现了90.05,测试了PratheeAn数据集中的92.93精度,与上一个方法在Compaq数据库上相比,1 eer增加了0.87。 |
SSUL: Semantic Segmentation with Unknown Label for Exemplar-based Class-Incremental Learning Authors Sungmin Cha. Beomyoung Kim, Youngjoon Yoo, Taesup Moon我们考虑一个类增量语义分割ciss问题。虽然一些最近提出的算法利用知识蒸馏kd技术的变体来解决这个问题,但它们仅部分地解决了CISS中的关键额外挑战,导致灾难性的遗忘I.,背景类别和多标签预测问题的语义漂移。为了更好地解决这些挑战,我们提出了一种新方法,通过仔细组合针对语义分割量身定制的多种技术,将作为SSUL M语义分段与内存未知标签称为SSUL M语义分割。更具体地说,我们在后台上课中制作了三个主要贡献1,以帮助学习未来的课程帮助可塑性,2次冻结骨干网以及二进制交叉熵损失和伪标签的分类器,以克服灾难性的遗忘帮助稳定,3利用微小示例存储器在CISS中首次提高可塑性和稳定性。因此,我们显示了我们的方法比标准基准数据集上最近的最近最近的最近最近的最新状态的性能更好。此外,与彻底和广泛的消融分析,我们为我们的贡献提供了良好的,并与分类的标准类增量学习相比,讨论了CISS问题的不同自然。 |
Hand-Drawn Electrical Circuit Recognition using Object Detection and Node Recognition Authors Rachala Rohith Reddy, Mahesh Raveendranatha Panicker随着神经网络的最新进展,在手拉电路中自动产生模拟就绪电子电路的算法中存在复兴。然而,文献中的大多数方法被局限于分类不同类型的电气组件,并且只有少数这些方法已经示出了从扫描图像重建电路示意图的方法,这对于进一步的网表生成自动化非常重要。本文提出了一种基于对象检测和电路节点识别自动识别手绘电路的实时算法。该拟议的方法采用您只看一次版本5 YOLOV5,用于检测电路组件和基于新的Hough基于Hough变换的节点识别方法。使用YOLOV5对象检测算法,在检测组件时实现了98.2的平均平均精度MAP0.5。所提出的方法还能够以80精度重建电路示意图。 |
Winning the CVPR'2021 Kinetics-GEBD Challenge: Contrastive Learning Approach Authors Hyolim Kang, Jinwoo Kim, Kyungmin Kim, Taehyun Kim, Seon Joo Kim通用事件边界检测GEBD是一种新介绍的任务,旨在检测与自然人感知相对应的一般事件边界。在本文中,我们介绍了一种新的基于对比的学习方法来处理Gebd。我们的直觉是视频片段的特征相似性在事件边界附近会显着变化,同时在视频的剩余部分中保持相对相同。在我们的模型中,时间自相似矩阵TSM用作中间表示,该中间表示是作为信息瓶颈的角色。通过我们的模型,与给定的基线相比,我们实现了显着的性能提升。我们的代码可供选择 |
DocFormer: End-to-End Transformer for Document Understanding Authors Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha我们为Docomfer提供了一种基于多模态变压器的基于模式,用于了解VDU的视觉文档的任务。 VDU是一个具有挑战性的问题,旨在以其不同的格式,收据等和布局来理解文档。此外,Docomformer使用精心设计的任务以无监督的方式预先培训,这促进了多模态交互。 Docomformer使用文本,视觉和空间功能,并使用新型多模态自我注意层结合它们。 Docomformer还共享跨多种方式的学习空间嵌入式,这使得模型可以轻松地将文本与Visual Tokens相关联,反之亦然。 Docomformer在4个不同的数据集中评估,每个数据集都有强基线。 Docomformer在所有这些中实现了最新的结果,有时会跳动模型4X其尺寸。参数。 |
Deep3DPose: Realtime Reconstruction of Arbitrarily Posed Human Bodies from Single RGB Images Authors Liguo Jiang, Miaopeng Li, Jianjie Zhang, Congyi Wang, Juntao Ye, Xinguo Liu, Jinxiang Chai我们介绍一种方法,即在实时从单个图像中准确地重建3D人类姿势和详细的3D全身几何模型。我们的方法的关键思想是一个新的结束到结束多任务深度学习框架,它使用单个图像来预测五个输出同时前景分割掩模,2D关节位置,语义身体分区,3D部分方向和UV坐标UV地图。多任务网络架构不仅为重建产生了更多的视觉提示,而且还使每个单独的预测更准确。 CNN回归通量进一步与基于优化的精确运动姿势重建和全身形状建模的算法相结合。我们表明实时重建达到了之前未看到的准确拟合,特别是对于野生图像。我们展示了我们实时3D姿势和人体重建系统在野外视频中的各种具有挑战性的结果。我们显示系统通过定量评估和与现有方法的定量评估和比较来推进3D人体的前沿和从单幅图像的姿态重建。 |
Unsupervised Embedding Adaptation via Early-Stage Feature Reconstruction for Few-Shot Classification Authors Dong Hoon Lee, Sae Young Chung我们向下游提出了无人监督的嵌入适应性。基于调查结果,深神经网络在记忆之前学会概括,我们开发早期特征重建ESFR一种具有特征重建的新型适应方案,并且重度驱动的早期停止,从而寻找更广泛的特征。结合ESFR一致地提高了基线方法对所有标准设置的性能,包括最近提出的转换方法。 ESFR与转换方法结合使用,进一步实现了迷你成像,分层的Imagenet和Cub上的最新性能,特别是在1次拍摄设置上以先前的最佳执行方法提高了1.2 2.0的准确性。 |
Spatial-Temporal Super-Resolution of Satellite Imagery via Conditional Pixel Synthesis Authors Yutong He, Dingjie Wang, Nicholas Lai, William Zhang, Chenlin Meng, Marshall Burke, David B. Lobell, Stefano Ermon高分辨率卫星图像已证明可用于广泛的任务,包括衡量全球人口,当地经济生计和生物多样性,其中许多其他任务。不幸的是,高分辨率图像既不经常收集,购买昂贵,难以高效,有效地缩放这些下游任务在两次和空间。我们提出了一种新的条件像素综合模型,使用丰富,低成本,低分辨率图像,在位置和时间内产生准确的高分辨率图像。我们表明我们的模型达到了照片现实样本质量和优于竞争基线的竞争对手的基线,特别是在地面上的条件迅速变化的地理位置中。 |
Wallpaper Texture Generation and Style Transfer Based on Multi-label Semantics Authors Ying Gao, Xiaohan Feng, Tiange Zhang, Eric Rigall, Huiyu Zhou, Lin Qi, Junyu Dong纹理包含丰富的图像信息,广泛用于计算机图形和计算机视觉等各种领域。随着机器学习的发展,纹理综合和一代得到了大大提高。作为日常生活中的一个非常共同的元素,壁纸包含丰富的纹理信息,使得难以用简单的单一标签注释。此外,壁纸设计人员花了很多时间来创造不同风格的壁纸。为此目的,本文通过使用多标签语义来描述壁纸纹理图像。基于这些标签和生成的对抗性网络,我们为感知驱动的壁纸纹理生成和风格转移提供了一个框架。在该框架中,训练了感知模型,以识别由发电机网络产生的壁纸是否是足够逼真的并且具有给定感知的属性描述这些多标签语义属性被视为生成壁纸图像的条件变量。生成的壁纸图像可以转换为使用Corpergan具有众所周知的艺术家风格的壁纸图像。最后,使用美学评估方法,定量测量所生成的壁纸图像。实验结果表明,所提出的方法可以产生符合人类美学的壁纸纹理,具有艺术特征。 |
SeqNetVLAD vs PointNetVLAD: Image Sequence vs 3D Point Clouds for Day-Night Place Recognition Authors Sourav Garg, Michael Milford地点识别是移动机器人本地化和导航的关键能力。基于图像或视觉地位识别VPR是一个具有挑战性的问题,因为场景外观和摄像机观点可以在重新求地的地方显着变化。与传统序列分数聚集或单图像基础技术相比,基于顺序表示的最近的VPR方法已经显示了有希望的结果。与这些努力平行,在基于深度学习的点云处理的进步之后,基于3D点云的地方识别也正在探讨。然而,一个关键问题仍然是基于显式的3D结构的位置表示总是优于基于RGB图像序列的隐式空间表示,其可以固有地学习场景结构。在这种扩展的摘要中,我们尝试通过考虑类似的公制范围来比较这两种类型的方法来表示位置。我们将3D点云的方法PointVlad与基于图像序列的方法SEQNET等,并展示了基于图像序列的技术方法,甚至可以超越通过基于点云的方法来实现给定度量标准的方法。这些性能变化可以归因于输入传感器的数据丰富度的差异以及移动机器人的数据累积策略。虽然对苹果对比的完美苹果可能不可行,但对于这两个不同的方式可能是可行的,而所呈现的比较朝着回答空间表示的更深层次问题的方向迈出了阶段,与自动驾驶和增强虚拟现实等若干应用相关。源代码可公开可用 |
VoxelEmbed: 3D Instance Segmentation and Tracking with Voxel Embedding based Deep Learning Authors Mengyang Zhao, Quan Liu, Aadarsh Jha, Ruining Deng, Tianyuan Yao, Anita Mahadevan Jansen, Matthew J.Tyska, Bryan A. Millis, Yuankai Huo生物成像的最新进展为科学家提供了优异的高空间时间分辨率,以观察活细胞的动态作为3D体积视频。不幸的是,3D生物医学视频分析滞后,通过废弃架3D分析工具通过资源不敏感人类策施来阻碍。这里,生物学家通常需要通过通过最大强度投影损害2D分析来丢弃相当多的富3D空间信息。最近,基于像素的单元实例分段和跟踪为理解蜂窝动态提供了一种简洁和最概括的计算范例。在这项工作中,我们提出了一种新的基于VoxeLembed的学习方法的新型空间颞型体素,以执行3D容量视频序列的同时细胞实例分段和跟踪。我们的贡献是四倍折叠1,所提出的体素嵌入呈现与3D上下文信息2的像素嵌入呈现一个简单的多流学习方法,其允许有效的空间时间嵌入3完成一个阶段3D小区实例分段的结束到结束框架,而无需重型参数调谐4所提出的3D量化是通过具有12 GB内存的单个GPU的存储器高效。我们在具有来自ISBI单元跟踪挑战的不同小区类型的四个3D数据集中评估我们的VoxeLembed方法。所提出的VoxeLembed方法在两个密集的注释数据集中实现了一致的优势整体性能OP。性能在两个稀疏的注释队列中也具有竞争力,其中有20.6和2个具有分段注释的数据集。结果表明,VOXELEMBED方法是更广泛和记忆有效的解决方案。 |
An Alternative Auxiliary Task for Enhancing Image Classification Authors Chen Liu图像重建可能是图像分类最主要的辅助任务。在本文中,我们调查估计输入图像的傅里叶变换作为潜在的替代辅助任务,希望它可以进一步提高主要任务上的性能,或者在图像重建中引入新的约束不适合覆盖的新颖限制。我们在CIFAR 10数据集上尝试了五个流行的分类架构,并且经验结果表明我们所提出的辅助任务通常会提高分类准确性。更值得注意的是,结果表明,在某些情况下,我们所提出的辅助任务可以增强使用快速梯度符号方法产生的对抗对抗攻击的抗性。 |
Multimodal trajectory forecasting based on discrete heat map Authors Jingni Yuan, Jianyun Xu, Yushi Zhu在协会运动预测竞争中,任务是预测交通场景中感兴趣目标的概率未来轨迹分布。我们使用Vectorized Lane Map和2 S目标历史轨迹作为输入。然后,模型输出6个预测轨迹,每个目标概率。 |
Gait analysis with curvature maps: A simulation study Authors Khac Chinh Tran, Marc Daniel, Jean Meunier步态分析是检测神经系统和肌肉骨骼疾病并评估患者全球健康的临床调查的一个重要方面。在本文中,我们建议将我们的注意力集中在从深度相机提供的体表中提取相关的曲率信息。我们假设3D网格在前一步中可用,并证明了曲率图谱有用,以评估具有两个简单模拟异常Gaits的非对称异常,与正常的曲线相比。这项研究设定了对医疗专业人士的基于曲率的步态分析系统的未来发展的理由。 |
Normalized Avatar Synthesis Using StyleGAN and Perceptual Refinement Authors Huiwen Luo, Koki Nagano, Han Wei Kung, Mclean Goldwhite, Qingguo Xu, Zejian Wang, Lingyu Wei, Liwen Hu, Hao Li我们介绍了一种基于GAN的高度强大的GaN框架,用于从单个无约束照片数字化一个人的标准化3D头像。虽然输入图像可以是微笑的人或在极端照明条件下拍摄,但我们的方法可以可靠地在漫反射条件下在中性表达和皮肤纹理中可靠地产生一个人脸的高质量纹理模型。切削刃3D面部重建方法使用非线性可线性面部模型与GaN基解码器相结合捕获一个人的相似性和细节,但未能产生中性的头部模型,没有含有未幻想的反照纹理,这对于创造可致力于和动画友好的头像来说至关重要虚拟环境。现有工作方法的关键挑战是缺乏包含标准化3D面的培训和地面真理数据。我们提出了一种解决这个问题的两级方法来解决这个问题。首先,我们通过将非线性可线性面部模型嵌入样式创器2网络来采用高强度稳定的标准化3D面部发生器。这使我们能够生成详细但规范化的面部资产。然后,此推断后跟一个感知的细化步骤,该步骤使用所生成的资产作为正规化,以应对标准化面的有限可用培训样本。我们进一步引入了一个标准化的面部数据集,它包括组合摄影测量扫描,精心挑选的照片,并在漫射照明条件下产生中性表达的假人。虽然我们准备的数据集包含了比基于切削刃GaN的3D面部重建方法更少的次数,但我们表明可以为非常具有挑战性的无约束输入图像产生高质量的标准化面部模型,并对当前状态展示出色的性能艺术。 |
MODETR: Moving Object Detection with Transformers Authors Eslam Mohamed, Ahmad El Sallab移动物体检测MOD是自动驾驶管道的重要任务。 MOD通常通过2个流卷积架构处理,该架构包含外观和运动提示,而不考虑空间或运动功能之间的帧间关系。在本文中,我们通过在空间和运动流跨越多头注意机制来解决这个问题。我们提出了模块,包括用于空间和运动模态的多流变换器编码器的移动对象检测变压器网络,以及使用设定预测产生移动物体边界框的对象变压器解码器。整个架构训练结束结束,使用BI段丢失结束。探索用变压器模型结合运动提示的几种方法,包括两个流RGB和方法的光学流量,以及利用序列信息的多流架构。为了结合时间信息,我们提出了一种新的时间位置编码TPE方法来扩展DETR中的空间位置编码SPE。我们探索了两个建筑选择,平衡了速度和时间之间。为了评估我们的网络,我们在Kitti Mod 6数据集上执行Mod任务。结果显示了最重要的5张用于MOD的变压器网络的MOD技术。此外,所提出的TPE编码提供了通过SPE基线提供10个地图改进。 |
Spatio-Temporal Multi-Task Learning Transformer for Joint Moving Object Detection and Segmentation Authors Eslam Mohamed, Ahmed El Sallab移动物体对自动驾驶任务具有特别重要性。通过为移动目标产生边界框来分割对象像素或移动对象检测,检测移动对象可以作为移动对象分割。在本文中,我们介绍了一种基于变压器的多任务学习体系结构,通过一个网络共同执行两个任务。由于动作功能对任务的重要性,整个设置基于时空时间聚合。我们评估各个任务架构与MTL设置的性能,都使用早期共享编码器和迟到的共享编码器解码器变压器。对于后者,我们介绍了一个新颖的联合任务查询解码器变压器,使我们能够从共享模型中专用题头进行任务。为了评估我们的方法,我们使用Kitti Mod 29数据集。结果Show1.5移动物体检测的地图改进,以及各个任务网络的移动对象分割的IOU改进。 |
Mapping Slums with Medium Resolution Satellite Imagery: a Comparative Analysis of Multi-Spectral Data and Grey-level Co-occurrence Matrix Techniques Authors Agatha C. H. de Mattos, Gavin McArdle, Michela Bertolotto联合国人居署估计,超过10亿人生活在全球贫民窟。然而,用于检测贫民窟区域的位置的最先进的技术采用高分辨率卫星图像,其昂贵地获得和处理。因此,研究人员已经开始使用自由和开放的访问媒体分辨率图像。然而,没有明确的共识,其中数据准备和机器学习方法是与此类图像数据一起使用的最合适的。在本文中,我们评估了由标记的Sentinel 2图像组成的开放式访问数据集上的两种技术多谱数据和灰度Co发生矩阵特征提取,其空间分辨率为10米。这两种技术都与规范相关森林分类器配对。结果表明,灰度级CO发生矩阵比所有四个城市的多频谱数据更好。它为97的贫民窟等级的平均精度和94的联盟的平均交叉点,而多光谱数据具有75和64的各个度量。这些结果表明,具有至少10米的分辨率的开放式卫星图像可以适合于跟踪发展目标,例如在城市中检测贫民窟。 |
BEyond observation: an approach for ObjectNav Authors Daniel V. Ruiz, Eduardo Todt随着自动化的兴起,无人驾驶车辆成为商业产品的热门话题,作为科学研究主题。它构成了一个多学科领域的机器人,包括嵌入式系统,控制理论,路径规划,同时定位和映射SLAM,场景重建和模式识别。在这项工作中,我们展示了对传感器数据融合和最先进的机器学习算法的探索性研究可以执行称为视觉语义导航的体现人工智能E AI任务。此任务,A.K.A对象目标导航objectNav由自主导航使用自主视觉观察,在没有事先知识的情况下,使用Enocentric的视觉观测到达属于目标语义类的对象。我们的方法达到了栖息地挑战2021 Objectnav的第四位,在牧场相和试验标准阶段。 |
Photozilla: A Large-Scale Photography Dataset and Visual Embedding for 20 Photography Styles Authors Trisha Singhal, Junhua Liu, Lucienne T. M. Blessing, Kwan Hui Lim社交媒体平台的出现是一种开发数字摄影的催化剂,可以在视觉应用中发出繁荣。通过这种动机,我们介绍了一个被称为photozilla的大规模数据集,其中包括超过10个不同的摄影风格的990k图像。然后,数据集用于培训3个分类模型,以自动将图像分类为相关的样式,从而精确为96。随着数码摄影的快速演变,我们已经看到了以指数率的速度出现的新型摄影风格。在该帐户上,我们介绍了一种基于暹罗的新型网络,该网络使用训练有素的分类模型作为基础架构,以便仅用25个训练样本进行调整和分类看不见的样式。我们报告了68多种以确定其他10种不同类型的摄影风格的准确性。可以找到此数据集 |
FDeblur-GAN: Fingerprint Deblurring using Generative Adversarial Network Authors Amol S. Joshi, Ali Dabouei, Jeremy Dawson, Nasser M. Nasrabadi在使用从犯罪场景中获取的指纹图像,移动摄像机或低质量传感器时,自动识别系统变得困难,以验证由于图像模糊和失真引起的身份。我们提出了一种指纹去孔模型Fdeblur GaN,基于条件生成的对抗网络CGANS和堆GAN的多阶段框架。此外,我们将两个辅助子网络集成到模型中,以获取去掩盖任务。第一子网络是脊柱提取器模型。添加以生成脊地图,以确保在去孔过程中保留指纹信息和细节并防止模型产生错误的细节。第二子网络是验证者,其可帮助发电机在生成过程中保留ID信息。使用模糊指纹和相应的脊地图的数据库,深网络学会从输入模糊样品中去布勒。我们与两种不同的指纹匹配算法组合评估所提出的方法。我们在指纹数据库上实现了95.18的准确性,以便为匹配去误坏和地面真相指纹的任务。 |
GAIA: A Transfer Learning System of Object Detection that Fits Your Needs Authors Xingyuan Bu, Junran Peng, Junjie Yan, Tieniu Tan, Zhaoxiang Zhang通过对大规模数据集进行预培训的转移学习在最近在计算机视觉和自然语言处理中发挥了越来越重要的作用。然而,由于存在具有特殊需求的许多应用方案,例如某些延迟约束和专业数据分布,因此对 |