今日CS.CV 计算机视觉论文速读 Tue, 2 Apr 2019 (showing first 100 of 114 entries) Totally 100 papers
Interesting:
?COCO-GAN, 完整的面部图像是基于条件坐标生成的。研究人员还使用类似的条件坐标方法,通过图像和空间坐标生成图像,判断组合后脸的真实性和连续性。超过边界限制,可以生成比训练图像大的图像。并采用分治法在计算中实现更高效率。(from 国立清华大学 Google) 训练架构: 使用的测试结构: 训练中使用的几种不同的坐标系统包括micro片层和macro片层。
?The RGB-D Triathlon, 机器人中各种视觉任务的工具包benchmark(from 都灵理工) 三种RGB数据集: code:https://github.com/fcdl94/RobotChallenge
?SE2Net, 基于Siamese显著的边缘提升检测方法。(from 西安交大) 首先,通过基础网络学习底层和高层特征,然后将底层特征发送到边缘学习网络。将高层特征发送到mask学习网络,最后将信息整合到时序中,得到最终结果。 mask融合方法与边缘引导mask精炼conditional random fieldCRF方法 : 一些结果: 数据集:ESSCD dataset,DUTS [37], ECSSD [45], SOD [28], DUT-OMRON [46],THUR 15K [4] and HKU-IS [17] 评价指标:e F-measure score (Fβ) and Mean Absolute Error (MAE) , a better salient object detection model should have a larger Fβ and a smaller MAE.
?基于Topoogram三维重建图像器官, 基于计算断层扫描CT二维投影直接重建肝脏的三维形状,减少辐照测量。使用单图3Dshape实现肝脏形状重建的预测任务。(from 普林斯顿) 方法一合成了mask方法二只使用了2个编码信息D topogram 三维编码的映射。 一些结果:
?Dance Dance Generation, 它提出了一可以将视频中的一个动作转移到另一个人身上,通过角色生成网络合成新动作下目标对象的前景,并将背景与目标集成到集成网络中,有效地处理阴影、反射和光。(from 北卡罗来纳大学) 网络架构分为两部分: 一些结果:
Daily Computer Vision Papers
Equivariant Multi-View NetworksAuthors Carlos Esteves, Yinshuang Xu, Christine Allen Blanchette, Kostas Daniilidis 三种3D视觉任务方法通过在自然图像上预训练的深度神经网络独立处理输入的多个视图,通过在所有视图上的单轮收集实现视图置换不变性。我们认为这个操作会丢弃重要信息,导致描述符低于全局。在本文中,我们提出了一种用于多视图聚合的组卷积方法,其中在旋转组的离散子组上执行卷积,以等待变化而不是不变的方式将所有视图联合推理到最后一层。我们进一步发展了这一理念,在旋转组较小的离散均匀空间中操作,其中极坐标视图表示只等于输入视图数量的一小部分。我们在几个大3D在形状检索任务中设置了新的技术水平,并展示了全景场景分类的其它应用。 |
Automatic Nonrigid Histological Image Registration with Adaptive Multistep AlgorithmAuthors Marek Wodzinski, Andrzej Skalski 在本文中,我们简要介绍了它IEEE ISBI 2019年会议共同组织ANHIR挑战提出的方法。我们提出了一种方法,包括预处理、初始对齐、非刚性配准算法和自动选择最佳结果。该方法结果稳定99.792稳定性和准确性0.38平均中值rTRE。该方法的主要缺点是计算时间较长。但是,通过清理代码并提出它GPU这方面很容易改进。 |
Regional Homogeneity: Towards Learning Transferable Universal Adversarial Perturbations Against DefensesAuthors Yingwei Li, Song Bai, Cihang Xie, Zhenyu Liao, Xiaohui Shen, Alan L. Yuille 本文侧重于学习防御模型和防御对抗攻击的可转移对抗示例。特别是,我们表明,简单的普遍干扰可以欺骗一系列最先进的防御。 |
Early Diagnosis of Pneumonia with Deep LearningAuthors Can Jozef Saul, Deniz Yagmur Urey, Can Doruk Taktakoglu 肺炎是致命疾病之一,由于肺部液体流动导致溺水,可能在短时间内造成严重后果。若在适当的时候没有药物作用,肺炎可能会导致个体死亡。因此,早期诊断是疾病进展的关键因素。本文重点介绍了肺炎的生物学进展及其X射线成像检测,总结了提高诊断水平的研究,并提出了基于各种参数自动化X射线图像检测疾病的方法和结果。早期阶段。在本研究中,通过多个预处理步骤,提出了分类任务的深度学习结构,并使用修改后的图像进行训练。利用卷积神经网络和残余网络架构对图像进行分类。我们研究结果的准确率为78.73超过了之前最高得分准确率的76.8。 |
Robustness of 3D Deep Learning in an Adversarial SettingAuthors Matthew Wicker, Marta Kwiatkowska 了解现实世界中物体的空间布局和性质对许多复杂的工程任务(包括独立导航)至关重要。深度学习已经彻底改变了3D然而,这些方法对环境的稳定性知之甚少。由于缺乏全面的分析,很难证明安全关键应用程序部署在现实世界中D深度学习模型是合理的。在这项工作中,我们开发了一种分析3的算法D神经网络在数据上的逐点鲁棒性。我们表明,目前理解最先进模型弹性的方法大大高估了它们的鲁棒性。然后,我们用算法来评估一系列最先进的模型,以证明它们对屏蔽攻击的脆弱性。我们表明,在最坏的情况下,最多6.这些网络占用输入空间后,这些网络可以降低到0分类度。 |
Spherical U-Net on Cortical Surfaces: Methods and ApplicationsAuthors Fenqiang Zhao, Shunren Xia, Zhengwang Wu, Dingna Duan, Li Wang, Weili Lin, John H Gilmore, Dinggang Shen, Gang Li 卷积神经网络CNN已经为欧几里得空间中涉及2D 3D图像的学习相关问题提供了最先进的性能。然而,与欧几里德空间不同,医学成像中的许多结构的形状在流形空间中具有球形拓扑,例如,由三角形网格表示的大脑皮质或皮质下表面,具有大的主体间和顶部数量内的主体间变化和局部连通性。因此,没有一致的邻域定义,因此对于皮层皮质下表面数据没有直接的卷积转置卷积运算。在本文中,通过利用映射到球面空间的重采样皮层表面的规则和一致的几何结构,我们提出了一种新的卷积滤波器,类似于图像网格上的标准卷积。因此,我们开发了用于球面数据的卷积,汇集和转置卷积的相应操作,从而构造了球形CNN。具体来说,我们提出了球形U网架构,将标准U Net中的所有操作替换为其球形操作对应物。然后,我们将球形U网应用于婴儿大脑皮质表面分割和皮质属性图发展预测中的两项具有挑战性和神经科学重要性的任务。与现有技术方法相比,这两种应用都证明了我们提出的球形U网的准确性,计算效率和有效性的竞争性能。 |
Key.Net: Keypoint Detection by Handcrafted and Learned CNN FiltersAuthors Axel Barroso Laguna, Edgar Riba, Daniel Ponsa, Krystian Mikolajczyk 我们介绍了一种新的关键点检测任务方法,该方法将手工和学习CNN滤波器结合在一个浅层多尺度架构中。手工过滤器为学习过滤器提供锚定结构,可对可重复的功能进行本地化,评分和排序。在网络中使用缩放空间表示来提取不同级别的关键点。我们设计了一种损失函数来检测一系列尺度上存在的稳健特征,并最大化重复性评分。我们的Key.Net模型是根据ImageNet综合创建的数据进行培训,并在HPatches基准测试中进行评估。结果表明,我们的方法在可重复性,匹配性能和复杂性方面优于最先进的检测器。 |
Adversarial Defense by Restricting the Hidden Space of Deep Neural NetworksAuthors Aamir Mustafa, Salman Khan, Munawar Hayat, Roland Goecke, Jianging Shen, Ling Shao 深度神经网络容易受到对抗性攻击,这可能通过在输入图像中添加微小的扰动来欺骗它们。在白盒攻击设置下,现有防御的强大性受到很大影响,其中对手完全了解网络并且可以多次迭代以发现强烈的扰动。我们观察到存在这种扰动的主要原因是在学习的特征空间中不同类别样本的紧密接近。这允许通过在输入中添加难以察觉的扰动来完全改变模型决策。为了解决这个问题,我们建议明智地解开深层网络的中间特征表示。具体来说,我们强制每个类的特征位于一个凸多边形内,该多边形最大程度地与其他类的多边形分开。以这种方式,网络被迫为每个班级学习不同的和遥远的决策区域。我们观察到,这些对特征的简单约束极大地增强了学习模型的稳健性,甚至可以抵抗最强的白盒攻击,而不会降低干净图像的分类性能。我们报告在文本黑匣子和白盒攻击情景中进行了广泛的评估,并且与最先进的防御相比显示出显着的增益。 |
Significance-aware Information Bottleneck for Domain Adaptive Semantic SegmentationAuthors Yawei Luo, Ping Liu, Tao Guan, Junqing Yu, Yi Yang 对于无监督域适应问题,通过对抗性学习在潜在特征空间中对齐两个域的策略在图像分类方面取得了很大进展,但通常在潜在表示过于复杂的语义分割任务中失败。在这项工作中,我们为对抗性网络配备了重要意识信息瓶颈SIB,以解决上述问题。新的网络结构称为SIBAN,可在对抗性适应之前实现显着性特征净化,从而简化特征对齐并稳定对抗性训练过程。在两个领域适应任务中,即GTA5 Cityscapes和SYNTHIA Cityscapes,我们验证了与其他特征空间替代方案相比,所提出的方法可以产生领先的结果。此外,SIBAN甚至可以在分割精度上匹配最先进的输出空间方法,而后者通常被认为是域自适应分割任务的更好选择。 |
DefectNET: multi-class fault detection on highly-imbalanced datasetsAuthors N. Anantrasirichai, David Bull 作为一种数据驱动方法,深度卷积神经网络CNN的性能在很大程度上依赖于训练数据。传统网络的预测结果偏向于较大的类,这往往是语义分割任务的背景。这成为故障检测的主要问题,其中目标在图像上看起来非常小并且在类型和大小上都不同。在本文中,我们提出了一种新的网络架构DefectNet,它提供了多类,包括但不限于高度不平衡数据集上的缺陷检测。 DefectNet由两个并行路径组成,它们是完全卷积网络和扩张卷积网络,分别用于检测大小物体。我们提出混合损失最大化骰子损失和交叉熵损失的有用性,并且我们还使用泄漏整流线性单元ReLU来处理训练批次中的一些目标的罕见发生。预测结果表明,我们的DefectNet在检测多级缺陷方面优于先进的网络,风力涡轮机的平均精度提高了大约10。 |
Precise Detection in Densely Packed ScenesAuthors Eran Goldman , Roei Herzig , Aviv Eisenschtat , Jacob Goldberger, Tal Hassner 人造场景可以密集包装,包含许多物体,通常是相同的,位置非常接近。我们表明,即使对于现有技术的物体检测器,在这样的场景中的精确物体检测仍然是具有挑战性的前沿。我们提出了一种新颖的,基于深度学习的精确物体检测方法,专为此类挑战性设置而设计。我们的贡献包括1层用于估计Jaccard指数作为检测质量得分2的新型EM合并单元,它使用我们的质量得分最终解决检测重叠模糊度,3广泛的注释数据集,数据集,代表包装零售环境,在如此极端的环境下发布用于培训和测试。对CARPK和PUCPR的数据集和计数测试的检测测试显示我们的方法优于现有技术水平,具有相当大的利润。代码和数据将在www.github.com上提供,例如,4000 SKU110K CVPR19。 |
Deep, spatially coherent Inverse Sensor Models with Uncertainty Incorporation using the evidential FrameworkAuthors Daniel Bauer, Lars Kuhnert, Lutz Eckstein 为了执行高速任务,自动驾驶汽车的传感器必须在尽可能少的时间步骤中提供尽可能多的信息。然而,雷达是自主汽车严重依赖的传感器模式之一,通常只能提供稀疏,嘈杂的探测。这些必须随着时间积累,以达到对环境静态部分足够高的信心。对于雷达,通常通过累积反向检测模型IDM来估计状态。我们采用最近提出的证据卷积神经网络,与IDM相比,它计算环境状态的密集,空间相干推断。此外,这些网络能够以原理方式结合传感器噪声,我们进一步扩展到也包含模型不确定性。我们提出的实验结果表明,这可以在更少的时间步骤中获得更密集的环境感知。 |
Thyroid Cancer Malignancy Prediction From Whole Slide Cytopathology ImagesAuthors David Dov, Shahar Kovalsky, Jonathan Cohen, Danielle Range, Ricardo Henao, Lawrence Carin 我们考虑基于超高分辨率全幻灯片细胞病理学图像的术前甲状腺癌预测。受人类专家如何进行诊断的启发,我们的方法首先识别并分类包含信息性甲状腺细胞的诊断图像区域,其仅占整个图像的一小部分。然后将这些局部估计汇总成甲状腺恶性肿瘤的单一预测。甲状腺细胞病理学的几个独特特征指导我们基于深度学习的方法。虽然我们的方法与多实例学习密切相关,但它通过使用监督程序来提取诊断相关区域而偏离这些方法。此外,我们建议同时预测甲状腺恶性肿瘤,以及人类专家指定的诊断评分,这进一步使我们能够设计出改进的培训策略。实验结果表明,该算法实现了与人类专家相媲美的性能,并证明了该算法用于筛选的潜力,并作为改进不确定病例诊断的辅助工具。 |
Learning More with Less: GAN-based Medical Image AugmentationAuthors Changhee Han, Kohei Murao, Shin ichi Satoh, Hideki Nakayama 使用卷积神经网络进行准确的计算机辅助诊断CNN需要大规模注释的训练数据,与专家医生相关的耗时劳动因此,使用生成性对抗网络GAN的数据增强DA在医学成像中是必不可少的,因为它们可以合成额外的注释训练数据来处理小的来自各种扫描仪的碎片化医学图像这些图像是真实的但与原始图像完全不同,填补了真实图像分布中缺乏的数据。作为教程,本文基于我们的实证经验和相关工作,介绍了基于GAN的医学图像增强的背景,以及使用它们实现高分类对象检测分割性能的技巧。此外,我们使用自动边界框注释显示我们的第一个基于GAN的DA工作,用于在256 x 256 MR图像上进行基于CNN的强大脑转移检测基于GAN的DA可以在诊断中提高10个敏感度,临床上可接受的额外假阳性,即使是高度粗糙和不一致的边界框。 |
Depth-Aware Video Frame InterpolationAuthors Wenbo Bao, Wei Sheng Lai, Chao Ma, Xiaoyun Zhang, Zhiyong Gao, Ming Hsuan Yang 视频帧插值旨在合成原始帧之间不存在的帧。虽然最近的深度卷积神经网络已经取得了显着进步,但是由于大的物体运动或遮挡,插值的质量通常会降低。在这项工作中,我们提出了一种视频帧插值方法,通过探索深度信息明确地检测遮挡。具体来说,我们开发了一种深度感知流动投影层来合成中间流,这些中间流优选地采样比更远的物体更近的物体。此外,我们学习分层功能以从相邻像素收集上下文信息。然后,所提出的模型基于用于合成输出帧的光流和局部插值核来扭曲输入帧,深度图和上下文特征。我们的模型紧凑,高效,完全可分。定量和定性结果表明,所提出的模型对于各种数据集上的现有技术帧插值方法表现良好。 |
Training Object Detectors on Synthetic Images Containing Reflecting MaterialsAuthors Sebastian Hartwig, Timo Ropinski 深度学习的一大挑战是需要获得大型标记的训练数据集。虽然可以使用合成数据集来克服这一挑战,但重要的是这些数据集关闭实际间隙,即,在合成图像数据上训练的模型能够推广到真实图像。然而,在几个应用场景中可以考虑将现实差距联系起来,对包含反射材料的合成图像进行培训需要进一步研究。由于具有反射材料的物体的出现受到周围环境的支配,因此在训练数据生成期间需要考虑这种相互作用。因此,在本文中,我们研究了在用于训练物体探测器的合成图像生成的背景下反射材料的效果。我们研究了用于图像合成的渲染方法的影响,域随机化的影响,以及使用的训练数据量。为了能够将我们的结果与现有技术进行比较,我们将重点放在室内场景上,因为它们已被广泛研究。在这种情况下,浴室家具是具有反射材料的物体的自然选择,我们在其中报告我们对真实和合成测试数据的发现。 |
COCO\_TS Dataset: Pixel--level Annotations Based on Weak Supervision for Scene Text SegmentationAuthors Simone Bonechi, Paolo Andreini, Monica Bianchini, Franco Scarselli 缺少具有像素级监督的大规模数据集是用于训练用于场景文本分割的深度卷积网络的重要障碍。因此,通常采用合成数据生成来扩大训练数据集。尽管如此,合成数据无法再现自然图像的复杂性和可变性。在本文中,弱监督学习方法用于减少实际和合成数据培训之间的转换。用于文本检测数据集的像素级别监督,即仅有边界框注释可用的地方被生成。特别地,创建并发布COCO文本分段COCO TS数据集,其为COCO文本数据集提供像素级监督。生成的注释用于训练深度卷积神经网络以进行语义分割。实验表明,可以使用所提出的数据集代替合成数据,这使我们只能使用一小部分训练样本并显着提高性能。 |
DeepPoint3D: Learning Discriminative Local Descriptors using Deep Metric Learning on 3D Point CloudsAuthors Siddharth Srivastava, Brejesh Lall 学习局部描述符是计算机视觉中的一个重要问题。虽然有许多技术用于学习2D图像的局部补丁描述符,但是最近已经努力学习3D点的局部描述符。最近在3D中解决该问题的进展利用了基于图像的卷积神经网络的强特征表示能力,利用RGB D或多视图表示。然而,在本文中,我们建议通过直接处理非结构化3D点云来学习3D局部描述符,而无需任何中间表示。该方法构成用于学习3D点的排列不变表示的深度网络。为了学习局部描述符,我们使用多边缘对比损失来区分表面上的相似点和不相似点,同时还利用训练时负样本之间的不相似程度。通过对强基线的综合评估,我们证明了所提出的方法优于3D点云中匹配点的最先进方法。此外,我们证明了所提出的方法对实现最新结果的各种应用的有效性。 |
k-Same-Siamese-GAN: k-Same Algorithm with Generative Adversarial Network for Facial Image De-identification with Hyperparameter Tuning and Mixed Precision TrainingAuthors Yi Lun Pan, Min Jhih Haung, Kuo Teng Ding, Ja Ling Wu, Jyh Shing Jang 近年来,相机和计算硬件的进步使得捕获和存储大量图像和视频数据变得容易。考虑拥有私人收集的个人数据的数据持有者,例如医院或政府实体。然后,我们如何确保数据持有者确实隐藏了个人数据图像中每个人的身份,同时在识别后仍然保留了数据的某些有用方面在这项工作中,我们提出了一种新的高分辨率面部图像方法de识别,称为k相同的Siamese GAN kSS GAN,它利用k相同匿名机制,生成性对抗网络GAN和超参数调整。为了加速训练和减少内存消耗,混合精确训练MPT技术也被应用于使kSS GAN提供关于密切形式身份的隐私保护的保证并且也被更有效地训练。最后,我们将系统专用于实际数据集RafD数据集以进行性能测试。除了保护高分辨率面部图像的隐私之外,所提出的系统还因其自动化参数调整和突破可调参数数量的限制的能力而被证明是合理的。 |
Understanding Unconventional Preprocessors in Deep Convolutional Neural Networks for Face IdentificationAuthors Chollette C. Olisah, Lyndon Smith 深度网络在对象和人脸识别等应用领域取得了巨大成功。性能增益归因于网络架构的不同方面,例如卷积层的深度,激活功能,池化,批量归一化,前向和后向传播等等。但是,很少强调预处理器。因此,在本文中,网络的预处理模块在不同的预处理方法中变化,同时保持网络体系结构的其他方面不变,以研究预处理对网络的贡献。常用的预处理器是数据增强和标准化,被称为传统预处理器。其他被称为非常规预处理器,它们是颜色空间转换器HSV,CIE L ab和YCBCR,灰度分辨率预处理器全基于和基于平面的图像量化,照明归一化和使用直方图均衡HE的不敏感特征预处理,局部对比度归一化LN和完整面结构模式CFSP。为了实现固定网络参数,采用具有转移学习的CNN。来自Inception V3网络的高级特征向量的知识被传送到离线预处理的LFW目标数据和使用SoftMax分类器训练的用于面部识别的特征。实验表明,在将数据馈送到CNN之前,通过HE,基于全基和基于平面的量化,rgbGELog和YCBCR预处理器预处理RGB数据,可以提高深度网络的判别能力。但是,为了获得最佳性能,需要使用扩充和/或标准化来正确设置预处理数据。发现基于平面的图像量化增加邻域像素的均匀性并利用减小的比特深度以获得更好的存储效率。 |
Tightness-aware Evaluation Protocol for Scene Text DetectionAuthors Yuliang Liu, Lianwen Jin, Zecheng Xie, Canjie Luo, Shuaitao Zhang, Lele Xie 评估协议在文本检测方法的发展过程中起着关键作用。有严格的要求,以确保评估方法公平,客观和合理。然而,现有的指标显示出一些明显的缺点1它们不是面向目标2它们无法识别检测方法的紧密性3现有的一对多和多对一解决方案涉及固有的漏洞和缺陷。因此,本文提出了一种新的评估协议,称为Tightness aware Intersect over Union TIoU metric,可以量化地面实况的完整性,检测的紧凑性和匹配度的紧密性。具体而言,不是仅仅使用IoU值,而是同时适当地考虑两种常见的检测行为,直接使用TIoU的得分来识别紧密度。此外,我们进一步提出了一种简单的方法来解决注释粒度问题,它可以同时公平地评估单词和文本行检测。通过采用已发布方法和一般目标检测框架的检测结果,对ICDAR 2013和ICDAR 2015数据集进行了全面实验,以比较最近的指标和建议的TIoU指标。该比较展示了一些有希望的新前景,例如,确定检测更严格且更有益于识别的方法和框架。我们的方法非常简单,但新颖之处莫过于提议的度量标准可以利用最简单但合理的改进来产生许多有趣且富有洞察力的前景并解决以前指标的大部分问题。该代码可在以下网站公开获取 |
Cursive Overlapped Character Segmentation: An Enhanced ApproachAuthors Amjad Rehman 高度倾斜和水平重叠字符的分割是一个具有挑战性的研究领域,仍然是新鲜的。在现有技术中报道了几种技术,但是对于高度倾斜的字符分割产生低精度并且导致整体低的手写识别精度。因此,本文提出了一种简单而有效的方法,用于在不使用任何倾斜校正技术的情况下对这种难以倾斜的草书单词进行字符分割。相反,引入了核心区域的新概念来分割这种难以倾斜的手写单词。然而,由于草书词的固有性质,很少有字符过度分割,因此,启发式地选择阈值来克服该问题。为了公平比较,从IAM基准数据库中提取难以理解的单词。由此进行的实验表现出有希望的结果和高速。 |
Retinal OCT disease classification with variational autoencoder regularizationAuthors Max Heinrich Laves, Sontje Ihler, L der A. Kahrs, Tobias Ortmaier 据世界卫生组织统计,全球有2.85亿人患有视力障碍。眼科诊断中最常用的成像技术是光学相干断层扫描OCT。然而,视网膜OCT的分析需要经过培训的眼科医生和时间,不太可能进行全面的早期诊断。最近的一项研究建立了一种基于卷积神经网络CNN的诊断工具,该工具在大型视网膜OCT图像数据库上进行了训练。该工具在视网膜状况分类中的表现与训练有素的医学专家相当。然而,这些网络的训练基于大量标记数据,这是昂贵且难以获得的。因此,本文描述了一种基于变分自编码器正则化的方法,该方法在使用有限数量的标记数据时提高了分类性能。这项工作使用双路径CNN模型,将分类网络与自动编码器AE相结合,进行正则化。这背后的关键思想是在使用有限的训练数据集大小和少数患者时防止过度拟合。结果表明,与预训练和完全微调的基线ResNet 34相比,分类性能更优越。潜在空间与疾病类别的聚类是截然不同的。用于在OCT上进行疾病分类的神经网络可以在使用有限量的患者数据训练时使用变分自动编码器进行正则化。特别是在医学成像领域,由专家注释的数据获得的成本很高。 |
CUSUM Filter for Brain Segmentation on DSC Perfusion MR Head Scans with Abnormal Brain AnatomyAuthors Svitlana Alkhimova 本文提出了一种新的方法,用于相对准确的大脑感兴趣区域ROI检测动态磁敏度对比DSC灌注磁共振MR图像的人头部异常脑解剖。这样的图像产生自动脑分割算法的问题,结果,不良的灌注ROI检测影响定量测量和灌注数据的视觉评估。在所提出的方法中,图像分割基于CUSUM滤波器使用,其适于适用于处理DSC灌注MR图像。分割的结果是通过使用脑边界位置产生的脑ROI的二元掩模。通过CUSUM滤波器检测脑和周围组织之间的边界的每个点作为变化点。建议采用的CUSUM滤波器通过累积在轨迹上移动时观察到的和预期的图像点强度之间的偏差来操作。通过背景区域内的运动方向的迭代变化来创建运动轨迹以便到达脑区域,并且在边界交叉之后反之亦然。使用Dice指数评估所提出的分割方法,将获得的结果与参考标准进行比较。手动标记的脑区像素参考标准,以及用CUSUM过滤器使用脑ROI检测的视觉检查,由经验丰富的放射科医师提供。结果表明,所提出的方法适用于脑部解剖结构异常的人头部DSC灌注MR图像的脑ROI检测,因此可应用于DSC灌注数据分析。 |
Improved Dynamic Time Warping (DTW) Approach for Online Signature VerificationAuthors Azhar Ahmad Jaini, Ghazali Sulong, Amjad Rehman 在线签名验证是验证通常从基于平板电脑的设备获得的时间序列签名数据的过程。与离线签名图像不同,在线签名图像数据由按时间顺序排列的点组成。这项研究的目的是开发一种改进的方法来映射测试和参考签名中的笔画。当前的方法利用动态时间扭曲DTW算法及其变体在比较它们的每个数据维度之前对它们进行分段。本文提出了一种改进的DTW算法,其中提出的Lost Box恢复算法旨在提高在线签名验证的映射性能 |
Implementation of Fruits Recognition Classifier using Convolutional Neural Network Algorithm for Observation of Accuracies for Various Hidden LayersAuthors Shadman Sakib, Zahidun Ashrafi, Md. Abu Bakr Siddique 使用深度卷积神经网络进行水果识别CNN是计算机视觉中最有前途的应用之一。最近,基于深度学习的分类使得从图像中识别成果成为可能。然而,由于复杂性和相似性,水果识别对于称重秤上堆积的水果仍然是一个问题。本文提出了一种利用CNN的水果识别系统。所提出的方法使用深度学习技术进行分类。我们使用Fruits 360数据集进行评估。从数据集中,我们建立了一个数据集,其中包含来自25个不同类别的17,823个图像。图像分为训练和测试数据集。此外,对于分类精度,我们对不同的情况使用了隐藏层和时期的各种组合,并对它们进行了比较。还观察到针对不同情况的网络的整体性能损失。最后,我们获得了100的最佳测试精度和99.79的训练精度。 |
Efficient Incremental Learning for Mobile Object DetectionAuthors Dawei Li, Serafettin Tasci, Shalini Ghosh, Jingwen Zhu, Junting Zhang, Larry Heck 配备相机的移动设备附带的物体检测模型无法覆盖每个用户感兴趣的物体。因此,增量学习能力是许多应用程序所依赖的健壮且个性化的移动物体检测系统的关键特征。在本文中,我们提出了一个有效但实用的系统IMOD,用于逐步训练现有的对象检测模型,使其能够检测新的对象类而不会失去检测旧类的能力。 IMOD的关键组成部分是一种新颖的增量学习算法,该算法仅使用新对象类的训练数据来训练一阶段对象检测深度模型的端到端。具体来说,为了避免灾难性遗忘,该算法从旧模型中提取出三种类型的知识,以模仿旧模型在对象分类,边界框回归和特征提取上的行为。此外,由于新类别的训练数据可能不可用,因此设计实时数据集构建管道以在运行中收集训练图像并使用类别和边界框注释自动标记图像。我们在移动云和仅移动设备下实施了IMOD。实验结果表明,所提出的系统可以在短短几分钟内学会检测新的对象类,包括数据集构建和模型训练。相比之下,传统的基于微调的方法可能需要几个小时进行培训,并且在大多数情况下还需要繁琐且昂贵的手动数据集标记步骤。 |
Cross-modal subspace learning with Kernel correlation maximization and Discriminative structure preservingAuthors Jun Yu, Xiao Jun Wu 异构数据之间的度量仍然是一个悬而未决的问题。已经开发了许多研究工作来学习可以计算不同模态之间的相似性的共同子空间。然而,现有的大部分工作都集中在学习低维子空间,忽略了在减小维度过程中判别信息的丢失。因此,这些方法无法获得预期的结果。基于希尔伯特空间理论,其中不同的希尔伯特空间但具有相同的维度是同构的,我们提出了一种新的框架,其中标签信息的多次使用可以促进更多的判别子空间表示,以学习每个模态的同构希尔伯特空间。我们的模型不仅通过最大化核相关来考虑模态间相关性,而且还根据构建的图模型保留每个模态内的结构信息。进行了大量实验以评估所提出的框架,在三个公共数据集上评估具有核相关最大化的交叉模态子空间学习和保留CKD的判别结构。实验结果证明了与经典子空间学习方法相比,所提出的CKD的竞争性能。 |
Deep Demosaicing for Edge ImplementationAuthors Ramchalam Kinattinkara Ramakrishnan, Jui Shangling, Vahid Patrovi Nia 大多数数码相机使用涂有彩色滤光片阵列CFA的传感器来捕捉每个像素位置的通道分量,从而产生不包含所有通道中像素值的马赛克图像。目前关于重建这些缺失通道的研究,也称为去马赛克,引入了许多伪像,例如拉链效应和假色。许多深度学习去马赛克技术在减少伪影的影响方面优于其他经典技术。但是,大多数这些模型往往过度参数化。因此,在低端边缘设备上基于深度学习的基于深度学习的去马赛克算法的边缘实现是主要挑战。我们提供了对深度神经网络架构的详尽搜索,并获得了颜色峰值信噪比CPSNR的帕累托前沿作为性能标准,而不是作为模型复杂性的参数数量,超越了现有技术水平。然后可以使用帕累托前沿的架构为各种资源约束选择最佳架构。简单的体系结构搜索方法,例如穷举搜索和网格搜索,需要一些损失函数的条件收敛到最优。我们在简短的理论研究中阐明了这些条件。 |
Concatenated Feature Pyramid Network for Instance SegmentationAuthors Yongqing Sun, Pranav Shenoy K P, Jun Shimamura, Atsushi Sagata 边缘和纹理等低级特征在精确定位神经网络中的实例方面发挥着重要作用。在本文中,我们提出了一种体系结构,该体系结构通过在金字塔的所有层中以最佳和有效的方式结合低级特征来改进通常使用的实例分割网络的特征金字塔网络。具体来说,我们引入了一个新的层,它从整体上从多个特征金字塔等级的特征图中学习新的相关性,并增强特征金字塔的语义信息以提高准确性。我们的架构很容易在实例分段或对象检测框架中实现,以提高准确性。在Mask RCNN中使用此方法,与原始特征金字塔网络相比,我们的模型在COCO数据集上实现了精确度的一致性提高和计算开销。 |
Boosted Attention: Leveraging Human Attention for Image CaptioningAuthors Shi Chen, Qi Zhao 视觉注意已经在图像字幕中显示出有用性,其目的是使字幕模型能够选择性地关注感兴趣的区域。现有模型通常依赖自上而下的语言信息,并通过优化字幕目标来隐含地学习注意力。虽然有些有效,但学习到的自上而下的注意力可能无法在没有直接监督注意力的情况下关注正确的感兴趣区域受人类视觉系统启发,不仅由任务特定的自上而下信号而且还有视觉刺激驱动,我们在这项工作中建议使用两种类型的注意力来进行图像字幕。特别是,我们强调两种类型的关注的互补性,并开发一个模型Boosted Attention,将它们整合到图像字幕中。我们使用各种评估指标的最新性能来验证所提出的方法。 |
A Weighted Multi-Criteria Decision Making Approach for Image CaptioningAuthors Hassan Maleki Galandouz, Mohsen Ebrahimi Moghaddam, Mehrnoush Shamsfard 图像字幕旨在以自然语言自动生成图像的描述。这是人工智能领域中的一个具有挑战性的问题,最近在计算机视觉和自然语言处理中受到了极大的关注。在现有方法中,基于视觉检索的方法已被证明是非常有效的。这些方法搜索相似的图像,然后基于检索到的图像的标题为查询图像构建标题。在本研究中,我们提出了一种基于图像字幕的视觉检索方法,其中我们使用多标准决策算法有效地将几个标准与比例影响权重相结合,以检索查询图像的最相关标题。所提出的方法的主要思想是设计一种机制,用查询图像检索更多语义相关的标题,然后通过基于加权多标准决策算法模仿人类行为来选择最合适的标题。在MS COCO基准数据集上进行的实验表明,与现有技术模型相比,通过使用具有比例冲击权重的标准,所提出的方法提供了更有效的结果。 |
Non-rigid 3D shape retrieval based on multi-view metric learningAuthors Haohao Li, Shengfa Wang, Nannan Li, Zhixun Su, Ximin Liu 本研究提出了一种新颖的多视图度量学习算法,旨在改善三维非刚性形状检索。随着非刚性三维形状分析的发展,存在许多形状描述符。可以探索内在描述符来构造非刚性3D形状检索任务的各种内在表示。不同的内在表征特征集中在不同的几何属性上以描述相同的3D形状,这使得表示是相关的。因此,有可能并且有必要共同学习不同表示的多个度量。我们提出了一种有效的多视图度量学习算法,将边际Fisher分析MFA扩展到多视图域,并将Hilbert Schmidt独立准则HSCI作为一个多样性项来共同学习新的度量。我们的方法可以通过MFA分隔不同的类。同时,HSCI被利用来使多种表示达成共识。学习的度量可以减少多个表示之间的冗余,并提高检索结果的准确性。在SHREC 10基准测试中进行了实验,结果表明该方法优于现有技术的非刚性3D形状检索方法。 |
3D human action analysis and recognition through GLAC descriptor on 2D motion and static posture imagesAuthors Mohammad Farhad Bulbul, Saiful Islam, Hazrat Ali 在本文中,我们提出了一种识别深度动作视频中的动作的方法。首先,我们处理视频以基于3D运动轨迹模型3DMTM的使用获得对应于动作视频的运动历史图像MHI和静态历史图像SHI。然后,我们通过从SHI和MHI中提取梯度局部自动关联GLAC特征来表征动作视频。将来自SHI的两组特征(即来自MHI的GLAC特征和来自SHI的GLAC特征)连接起来以获得用于动作的表示向量。最后,我们通过使用l2正则化的协同表示分类器12 CRC来对所有动作样本进行分类,以有效地识别不同的人类行为。我们对三个动作数据集MSR Action3D,DHA和UTD MHAD进行了所提方法的评估。通过实验结果,我们观察到所提出的方法优于其他方法。 |
Part-based approximations for morphological operators using asymmetric auto-encodersAuthors Bastien Ponchon CMM, LTCI , Santiago Velasco Forero CMM , Samy Blusseau CMM , Jesus Angulo CMM , Isabelle Bloch LTCI 本文讨论了构建基于部件的图像数据集表示的问题。更确切地说,我们寻找在减少的原子集上的图像的非负的,稀疏的分解,以便揭示数据的形态学和可解释的结构。此外,我们希望在线计算任何不属于初始数据集的新样本的分解。因此,我们的解决方案依赖于稀疏的非负自动编码器,其中编码器的精度很高,而解码器的解释性很浅。该方法与两个数据集MNIST和Fashion MNIST的现有技术在线方法相比,根据经典度量和我们引入的新方法,基于表现形态扩张的不变性,有利地进行了比较。 |
Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNetAuthors Wieland Brendel, Matthias Bethge 深度神经网络DNN在许多复杂的感知任务方面表现出色,但众所周知,很难理解他们如何做出决策。我们在此介绍ImageNet上的高性能DNN架构,其决策更容易解释。我们的模型是ResNet 50架构的简单变体,称为BagNet,它基于小局部图像特征的出现对图像进行分类,而不考虑它们的空间排序。这种策略与在深度学习开始之前流行的特征BoF模型密切相关,并且在ImageNet 87.6前5中获得了令人惊讶的高精度,33 x 33 px功能和Alexnet性能为17 x 17 px功能。对局部特征的约束使得可以直接分析图像的每个部分如何影响分类。此外,BagNets在特征灵敏度,误差分布和图像部分之间的相互作用方面表现类似于现有技术的深度神经网络,例如VGG 16,ResNet 152或DenseNet 169。这表明DNN在过去几年中对先前的特征分类器的改进主要通过更好的微调而不是通过质量上不同的决策策略来实现。 |
Adversarial camera stickers: A Physical Camera Attack on Deep Learning ClassifierAuthors Juncheng B. Li, Frank R. Schmidt, J. Zico Kolter 最近的工作已经彻底记录了深度学习系统对对抗性示例的敏感性,但大多数此类实例直接操纵数字输入到分类器。尽管较小的工作系列考虑了物理对抗性攻击,但在所有情况下,这些涉及操纵感兴趣的对象,例如,在物体上放置物理标签以对其进行错误分类,或者制造专门用于错误分类的物体。在这项工作中,我们考虑另一个问题是,可以通过物理操纵相机本身来欺骗深度分类器,超过所有感知到的某种类型的物体。我们表明这确实是可行的,通过精心制作且主要是半透明的贴纸在相机的镜头上,人们可以创建观察到的图像的普遍扰动,这些扰动是不显眼的,但是可靠地将目标物体错误分类为不同的目标类别。为了实现这一点,我们提出了一个迭代过程,用于更新攻击扰动以使其对于给定分类器具有对抗性,以及威胁模型本身以确保其在物理上可实现。例如,我们展示了我们可以实现物理上可实现的攻击,这些攻击在49.6的时间内以有针对性的方式欺骗ImageNet分类器。这提供了一种新的可物理实现的威胁模型,可以在对抗性强大的机器学习环境中考虑。链接到我们的演示视频 |
Value of Temporal Dynamics Information in Driving Scene SegmentationAuthors Li Ding, Jack Terwilliger, Rini Sherony, Bryan Reimer, Lex Fridman 语义场景分割主要通过用监督和非监督方法形成单个图像的表示来解决。动态场景中的语义分割问题最近开始受到视频对象分割方法的关注。未知的是视觉场景的时间动态携带多少额外信息,这些信息与视频的各个帧中可用的信息互补。有证据表明,人类视觉系统可以从场景的时间动态信息中有效地感知场景,改变视觉特征,而不依赖于各个快照本身的视觉特征。我们的工作采取步骤,通过在联合学习问题中结合基于外观的表示和时间动态表示来探索机器感知是否可以表现出相似的属性,该问题揭示了每个对成功的动态场景分割的贡献。此外,我们还提供MIT驾驶场景分割数据集,这是一个大型全驱动场景分割数据集,为每个像素和5,000个视频帧中的每一个密集注释。该数据集旨在帮助进一步探索视频中语义分割的时间动态信息的价值。 |
A Novel Pixel-Averaging Technique for Extracting Training Data from a Single Image, Used in ML-Based Image EnlargementAuthors Amir Rastar 训练数据集的大小是机器学习算法性能的重要因素,医学图像处理中使用的工具也不例外。机器学习工具通常需要大量的训练数据才能有效预测目标。对于图像处理和计算机视觉,图像的数量决定了训练集的有效性和可靠性。在某些情况下,医学图像会受到质量差和适当训练集所需数量不足的影响。本研究中提出的算法通过从单个图像中提取所需数据,消除了对基于机器学习的图像放大技术中使用的大或甚至小图像数据集的需要。然后将提取的数据引入决策树回归器,用于以不同的缩放级别放大灰度医学图像。与第三方应用相比,该算法的结果相对可接受,并且有望用于未来的研究。该技术可以根据其他机器学习工具的要求进行定制,并且可以通过进一步调整工具超参数来改进结果。 |
Mutual Linear Regression-based Discrete HashingAuthors Xingbo Liu, Xiushan Nie, Yilong Yin 标签信息因其提高精度的有效性而广泛用于散列方法。现有的散列方法总是使用两个不同的投影来表示散列码和类标签之间的相互回归。与现有方法相比,我们提出了一种新的基于学习的散列方法,在本研究中称为稳定监督离散散列和互线性回归S2DHMLR,其中只有一个稳定投影用于描述哈希码与相应标签之间的线性相关性。据我们所知,此策略以前没有用于散列。此外,我们进一步使用提升策略来提高所提方法的最终性能,而不会增加额外的约束,并且在时间和空间方面几乎没有额外的支出。在三个图像基准上进行的大量实验证明了所提出方法的优越性能。 |
A smartphone application to detection and classification of coffee leaf miner and coffee leaf rustAuthors Giuliano L. Manso, Helder Knidel, Renato A. Krohling, Jose A. Ventura 通常,植物疾病和/或害虫的鉴定和分类由专家进行。巴西咖啡农面临的问题之一是作物侵染,尤其是叶锈病Hemileia vastatrix和叶子矿工Leucoptera coffeella。疾病和/或害虫的进展在空间和暂时发生。因此,自动识别严重程度非常重要。本文的主要目标是开发一种方法及其作为应用程序的实现,允许检测使用智能手机捕获的咖啡叶图像的叶面损害,并确定它是生锈还是叶子采矿者,反过来计算其严重程度。该方法包括从图像中识别叶子并使用分割算法将其与背景分离。在分割过程中,测试使用HSV和YCbCr颜色空间的图像的各种类型的背景。在叶面损伤的分割中,使用了YCgCr颜色空间中的Otsu算法和迭代阈值算法,并与k均值进行了比较。接下来,计算分段叶面损伤的特征。对于分类,已经使用了用极端学习机训练的人工神经网络。获得的结果显示了该方法的可行性和有效性,以确定和分类叶面损伤,并自动计算严重程度。据专家介绍,所取得的成果非常有希望。 |
Fashion Outfit Generation for E-commerceAuthors Elaine M. Bettaney, Stephen R. Hardwick, Odysseas Zisimopoulos, Benjamin Paul Chamberlain 将服装组合成服装是时装零售的主要任务。推荐与特定种子项目兼容的项目集合对于向用户提供指导和灵感是有用的,但是目前是需要专业造型师的手动过程,因此不具有可扩展性或易于个性化。我们使用由视觉和文本特征馈送的多层神经网络来学习潜在风格空间中的项目嵌入,使得不同类型的兼容项目彼此紧密地嵌入。我们使用ASOS服装数据集训练我们的模型,该数据集由专业造型师创建的大量服装组成,并且我们将其发布给研究社区。我们的模型在离线装备兼容性预测任务中表现出强大的性能。我们使用我们的模型来生成服装,并且在该领域中第一次执行AB测试,将我们生成的服装与基线模型生成的服装进行比较,该模型匹配适当的产品类型但不使用样式信息。我们的模型21和34产生的服装批准的用户分别比女装和男装的基线模型生成的服装更频繁。 |
Projectron -- A Shallow and Interpretable Network for Classifying Medical ImagesAuthors Aditya Sriram, Shivam Kalra, H.R. Tizhoosh 本文介绍了Projectron作为一种新的神经网络结构,它使用Radon投影来分类和表示医学图像。动机是建立在医学成像领域更易解释的浅网络。 Radon变换是一种既定技术,可以从平行投影重建图像。 Projectron首先使用等距角对每个图像应用全局Radon变换,然后将这些变换馈送到单层神经元,然后是一层合适的内核,以促进投影的线性分离。最后,Projectron将编码输出作为输入提供给另外两层进行最终分类。我们在五个公开可用的数据集上验证了Projectron,一般数据集即MNIST和四个医疗数据集,即肺气肿,IDC,IRMA和肺炎。结果令人鼓舞,因为我们将投影仪的性能与原始图像和氡投影分别作为输入进行了比较。实验清楚地证明了所提出的Projectron用于表示医学图像分类的潜力。 |
The Sixth Sense with Artificial Intelligence: An Innovative Solution for Real-Time Retrieval of the Human Figure Behind Visual ObstructionAuthors Kevin Meng, Yu Meng 克服视觉障碍,发展视野,是人类长期以来的梦想之一。然而,可见光不能穿过不透明的障碍物,例如墙壁。然而,与可见光不同,射频RF信号穿透许多常见的建筑物并且高度反射人类。该项目创造了一种突破性的人工智能方法,通过该方法,即使通过视觉遮挡,也可以利用RF重建人的骨骼结构。在新颖的程序流程中,首先使用包含RGB相机和RF天线阵列收发器的共同设置同时收集视频和RF数据。接下来,使用Part Affinity Field计算机视觉模型处理RGB视频,以生成人体骨骼中每个关键点的地面实况标签位置。然后,由残余卷积神经网络,区域提议网络和递归神经网络1组成的集体深度学习模型从RF图像中提取空间特征,2检测并裁剪出场景中的所有人,并且3个聚合信息。时间步骤拼凑在不同时间将信号反射回接收器的各种肢体。创建模拟器以演示系统。该项目在医学,军事,搜索救援和机器人技术方面具有重要的应用。特别是在火灾紧急情况下,可见光和红外热成像都不能穿透烟雾或火灾,但RF可以。美国每年报告的火灾超过100万次,这项技术可以挽救数千人的生命和成千上万的伤害。 |
Semantic Nearest Neighbor Fields Monocular Edge Visual-OdometryAuthors Xiaolong Wu, Assia Benbihi, Antoine Richard, Cedric Pradalier 边缘检测和分割的深度学习的最新进展为基于语义边缘的自我运动估计开辟了新的途径。在这项工作中,我们提出了一个强大的单眼视觉测距VO框架使用类别感知语义边缘。它可以在具有挑战性的室外环境中重建大规模语义地图。我们的方法的核心是语义最近邻域,其使用语义促进跨帧的边缘的鲁棒数据关联。这在跟踪阶段期间显着地扩大了会聚半径。所提出的边缘配准方法可以容易地集成到直接VO框架中,以估计光度,几何和语义上一致的相机运动。评估不同类型的边缘,并且广泛的实验证明我们提出的系统优于现有技术的间接,直接和语义单眼VO系统。 |
Unsupervised Concatenation Hashing with Sparse Constraint for Cross-Modal RetrievalAuthors Jun Yu, Xiao Jun Wu 哈希学习具有存储成本低,效率高的优点,在检索领域备受关注。由于在语义上表示共同对象的多个模态数据是互补的,因此许多工作集中于学习统一二进制代码。然而,这些工作忽略了数据之间多种结构的重要性。实际上,直接保留汉明空间中样本之间的局部流形结构仍然是一个有趣的问题。由于不同的模态是异构的,我们采用多模态特征的级联特征来表示原始对象。在我们的框架中,引入了局部线性嵌入和局部保持投影来重建汉明空间中原始空间的流形结构。此外,L21范数正则化被强加于投影矩阵,以进一步同时利用不同模态的判别特征。在三个公开可用的数据集上进行了广泛的实验以评估所提出的方法,称为无监督级联散列UCH,并且实验结果表明UCH的优越性能优于大多数现有技术的无监督散列模型。 |
GAN You Do the GAN GAN?Authors Joseph Suarez 生成性对抗网络GAN已成为生成模型的主导类。近年来,GAN变体在合成各种形式的数据方面取得了特别令人印象深刻的结果。示例包括引人注目的自然和艺术图像,纹理,音乐序列和3D对象文件。然而,缺少一个明显的合成候选者。在这项工作中,我们回答了一个深度学习最紧迫的问题GAN你做GAN GAN那就是,是否可以训练GAN来模拟GAN的分布我们在MIT许可下发布该项目的完整源代码。 |
JSIS3D: Joint Semantic-Instance Segmentation of 3D Point Clouds with Multi-Task Pointwise Networks and Multi-Value Conditional Random FieldsAuthors Quang Hieu Pham, Duc Thanh Nguyen, Binh Son Hua, Gemma Roig, Sai Kit Yeung 深度学习技术已成为2D图像上大多数视觉相关任务的模型。然而,它们的功率尚未完全实现在3D空间中的若干任务上,例如3D场景理解。在这项工作中,我们共同解决了3D点云的语义和实例分割问题。具体来说,我们开发了一个多任务逐点网络,它同时执行两个任务,预测3D点的语义类,并将这些点嵌入高维向量中,以便相同对象实例的点由类似的嵌入表示。然后,我们提出一种多值条件随机场模型,以结合语义和实例标签,并将语义和实例分割的问题制定为联合优化场模型中的标签。对所提出的方法进行了全面评估,并与包括S3DIS和SceneNN在内的不同室内场景数据集的现有方法进行了比较。实验结果表明,所提出的联合语义实例分割方案在其单个组件上具有鲁棒性。我们的方法也在语义分割上实现了最先进的性能。 |
Dance with Flow: Two-in-One Stream Action DetectionAuthors Jiaojiao Zhao, Cees G.M. Snoek 本文的目的是检测动作的时空范围。基于RGB和流的两个流检测网络以大型模型和大量计算为代价提供了现有技术的精确度。我们建议将RGB和光流嵌入到具有新层的单个二合一流网络中。运动条件层从流图像中提取运动信息,其由运动调制层利用以生成用于调制低级RGB特征的变换参数。该方法易于嵌入现有的外观或两个流动作检测网络中,并进行端到端的训练。实验表明,利用运动条件调制RGB特征可提高检测精度。由于只有一半的计算和参数采用最先进的两种流方法,我们的二合一流仍然在UCF101 24,UCFSports和J HMDB上取得了令人印象深刻的结果。 |
Standardized Assessment of Automatic Segmentation of White Matter Hyperintensities and Results of the WMH Segmentation ChallengeAuthors Hugo J. Kuijf, J. Matthijs Biesbroek, Jeroen de Bresser, Rutger Heinen, Simon Andermatt, Mariana Bento, Matt Berseth, Mikhail Belyaev, M. Jorge Cardoso, Adri Casamitjana, D. Louis Collins, Mahsa Dadar, Achilleas Georgiou, Mohsen Ghafoorian, Dakai Jin, April Khademi, Jesse Knight, Hongwei Li, Xavier Llad , Miguel Luna, Qaiser Mahmood, Richard McKinley, Alireza Mehrtash, S bastien Ourselin, Bo yong Park, Hyunjin Park, Sang Hyun Park, Simon Pezold, Elodie Puybareau, Leticia Rittner, Carole H. Sudre, Sergi Valverde, Ver nica Vilaplana, Roland Wiest, Yongchao Xu, Ziyue Xu, Guodong Zeng, Jianguo Zhang, Guoyan Zheng, Christopher Chen, Wiesje van der Flier, Frederik Barkhof, Max A. Viergever, Geert Jan Biessels 脑白质高信号量的定量推测血管来源的WMH在许多神经学研究中至关重要。目前,通常仍然从脑MR图像的手动分割获得测量,这是一个费力的 |