资讯详情

CVPR2021提出的一些新数据集汇总

点击上面的计算机视觉车间,选择星标

第一时间送达干货

72962583d8918ccc93d50febf28048aa.png

作者:Shwetank Panwar

编译:CV技术指南

一些新发布的数据集可以提供一个窗口,以了解试图解决的问题的复杂性。公共领域新发布的数据集可以代表理解计算机视觉的发展和需要解决的新方法。

本文简要总结了一些CVPR 2021 上面发表的数据集论文,通读论文,提取一些重要细节。


数据集论文:https://paperswithcode.com/paper/the-multi-temporal-urban-development-spacenet

下载地址:https://registry.opendata.aws/spacenet/

新的 SpaceNet 数据集包括每月拍摄的建筑区域的卫星图像。目标是在空间时间序列的帮助下跟踪世界各地的建筑活动。

这是一种解决整体问题非常困难的方法 CVPR 最有趣的数据集论文。数据集试图利用卫星图像分析来解决区域城市化问题,这对没有基础设施和财政资源建立有效的民事登记制度的国家有很大的帮助。

A.) 与 COCO 与数据集对象相比,注释对象的大小非常小 B.) 在这个数据集中,每个图像的标签数量太高。C.) 像云这样的遮挡(这里)会使跟踪检测变得困难。D.) Spacenet 单个图像中的注释对象数据集中。

所有这些都可能使它听起来像一个更具挑战性的对象分割和跟踪问题。为了清楚起见,每帧大约有 30 多个对象。此外,与普通视频数据不同,由于天气、光致,因为天气、光线和地面的季节性影响。这使得它比视频分类数据集(如 MOT17 斯坦福无人机数据集更难。

虽然这可能是一个难题,但解决它对全球福利是值得的。


数据集论文:https://arxiv.org/abs/2009.03137

下载地址:

https://github.com/QingyongHu/SensatUrban

Sensat Urban 包括英国约克市,包括英国约克市的连续区域,扩展到 3 平方公里。

今年的会议重点讨论 3D 图像处理及其相应的方法。所以,这个名字叫数据集也就不足为奇了,只是这个

该数据集可以促进自动化区域测量、智能城市和大型基础设施规划和管理等许多有前途的研究。

Sensat Urban 不同的数据集分类。

在论文中,他们还测试了点云中的颜色信息,并证明了在彩色点云上训练的神经网络可以更好地泛化测试集。这实际上为该领域未来应用的发展提供了重要的方向。


数据集论文:https://arxiv.org/abs/2105.04489

来自 MIT 音频字幕数据集的一些样本 [左] 结合视听信息在数据集中的提议架构 [右]

。通常,我们有这样的任务 COCO 这样的数据集包括图像和附加的文本标题。虽然这种方法已经被证明是有前途的,但我们经常忘记,我们对口语中的视觉体验做了很多丰富的总结。

然而,他们并没有停止展示一个伟大的数据集,他们还提供了一个使用自适应平均边距的优雅解决方案(AMM)解决视频/字幕检索问题的方法。


数据集论文:https://arxiv.org/abs/2102.08981

来自Conceptual 12M 数有些图像标题是对的。 alt-text 信息量不大,但对学习视觉概念更广义的文本很有帮助。

最近,由于预训练transformer和 CNN 随着架构性能的提高,模型预训练非常受欢迎。通常,我们希望在类似的数据集上训练模型。然后使用迁移学习在下游任务中使用模型。

更有趣的是生成数据集的方法。在数据集管理期间使用 Google Cloud Natural Language API 和 Google Cloud Vision API 过滤任务是任何未来数据集管理任务的好教训。

使用 12M 数据集、图像字幕模型可以学习长尾概念,即数据集中非常具体和罕见的概念。训练方法令人印象深刻,并在下面可视化。

在概念 12M 预训练的神经图像标题模型的预测示例很少。


数据集论文:

https://openaccess.thecvf.com/content/CVPR2021/supplemental/Bhattacharyya_Euro-PVI_Pedestrian_Vehicle_CVPR_2021_supplemental.pdf

实时车辆-行人行为示例。预测行人将采取什么样的轨迹来响应接近的车辆,于建造自动驾驶汽车至关重要。

虽然关于完全独立的自动驾驶系统有很多讨论,但事实仍然是一个非常困难的问题,需要同时实时解决多个问题。关键部分之一是让这些独立的系统了解行人对其存在的反应,并在密集的环境中预测行人轨迹。

因此,。斯坦福无人机早些时候,nuScenes 和 Lyft L5 数据集专注于附近车辆的轨迹,但这只是独立系统完整画面的一部分。

Euro-PVI 数据集包含丰富的行人和车辆交互信息,如场景中所有参与者的视觉场景、速度和加速度。

所有这些信息必须通过训练模型映射到相关的潜在空间。为了解决轨迹和视觉信息在潜在空间中的联合表达问题,同一篇论文还提出 Joint--VAE 的生成架构,这是一种经过训练的变分自动编码器,用于对参与者的轨迹进行编码并将其解码为未来的合成轨迹。

ground truth,Trajectron++ 预测的轨迹和联合 B-VAE 的预测轨迹(在同一数据集论文中提出)

原文链接:

https://medium.com/@shwetank.ml/datasets-cvpr-2021-problems-that-shouldnt-be-missed-6128d07c59c3

----版权声明----

仅用于学术分享,若侵权请联系删除

作者也是我们特邀嘉宾:

本文仅做学术分享,如有侵权,请联系删文。

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在

也可申请加入我们的细分方向交流群,目前主要有等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

标签: 35100d07no光电传感器35100d07pc光电传感器2565d07nc光电传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台