机器学习的最佳数据集是什么?本文整理了高质量、多样化的机器学习数据集列表。
: Stacy Stanford, Machine Learning Memoirs Inc. Roberto Iriondo, Machine Learning Department, Carnegie Mellon University.
: October 2, 2018 : May 15, 2019 (需翻墙): https://medium.com/towards-artificial-intelligence/the-50-best-public-datasets-for-machine-learning-d80e9f030279
文章目录
- Dataset Finders(去哪里找数据集)
- General Datasets
-
- - Public Government Datasets (政府公开数据集)
- - Housing Datasets(住房数据集)
- - Geographic Datasets(地理数据集)
- - Finance & Economics Datasets(金融与经济数据集)
- Machine Learning Datasets:
-
- - Imaging Datasets(图像数据集)
- - Sentiment Analysis Datasets(情绪分析数据集)
- - Natural Language Processing Datasets(自然语言处理数据集)
- - Self-driving (Autonomous Driving) Datasets (自动驾驶数据集)
- - Clinical Datasets(临床数据集)
- Source
- Citation:
在搜索 high-quality datasets 记住以下几点:
- 不混乱(messy),否则,清理数据需要很多时间(cleaning data);
- 不要有太多的行和列,否则很难使用;
- 数据越干净越好。清理大型数据集将非常、非常耗时;
- 有一个目标,比如回答问题或做决定,这个目标可以通过数据来回答。
Dataset Finders(去哪里找数据集)
- :与Google Scholar 类似地,无论是出版商的网站、数字图书馆还是作者的个人网页,都可以找到托管在任何位置的数据集。
- :从拉面评级到篮球数据,甚至西雅图宠物许可证,一个数据科学网站包含了各种外部贡献的有趣数据集。
- :UCI机器学习库,Web最古老的数据集源之一,也是寻找有趣数据集的第一站。 虽然数据集是由用户贡献的,但它可能有不同的清洁度(cleanliness),但绝大多数都是干净的。 无需注册即可直接下载数据。
- :Discover Computer Vision Datasets,计算机视觉(CV)支持搜索查询
- :感谢Huajin Wang, CMU 高质量高质量数据集
General Datasets
- Public Government Datasets (政府公开数据集)
- :该网站可以下载美国多个政府机构的数据。 从政府预算到学校绩效评估的数据范围。 但请注意:大部分数据需要进一步研究。
- :数据包括当地食物的选择如何影响美国的饮食结构。
- :调查美国学校系统的财务状况。
- Chronic disease data:有关美国各地区慢性病指标的数据。
- :来自美国和世界各地的国家教育统计中心的教育机构和教育人口统计数据。
- :英国最大的社会、经济和人口数据集。
- :全面可视化美国公共数据。
- Housing Datasets(住房数据集)
- :波士顿住房数据集,包含美国人口普查局(the U.S Census Service)波士顿马萨诸塞州(Boston Mass)住房信息。它来自 StatLib archive,基准广泛应用于整个文献中(benchmark)算法。
- Geographic Datasets(地理数据集)
- :用于地标识别和检索(landmark recognition and retrieval.)数据集(改进版)。 该数据集包含来自世界各地的200k 地标的5M 图像,由Wiki Commons社区提供和注释。
- Finance & Economics Datasets(金融与经济数据集)
- :良好的经济和金融数据来源 - 有助于建立预测经济指标或股价的模型。
- :世界银行开放数据涵盖全球人口统计(population demographics),大量的经济和发展指标数据集。
- :国际货币基金组织(The International Monetary Fund)国际金融、债务利率、外汇储备、商品价格和投资数据公布。
- :来自世界各地的金融市场的最新信息,包括股价指数、商品和外汇。
- :谷歌趋势数据,分析世界各地的互联网搜索活动和热门新闻报道数据。
- :美国经济协会(AEA),寻找美国宏观经济数据的良好来源。
Machine Learning Datasets:
- Imaging Datasets(图像数据集)
- :最大的overhead imagery公开可用数据集之一。 使用边界框注释来自世界各地复杂场景的图像。
- :大型数据集带注释图像。
- :根据WordNet层次结构组织新算法的真实图像数据集,其中成千上万的图像描绘了层次结构的每个节点。
- :场景理解和许多辅助任务(房间布局估计、显著预测等)
- :通用图像理解和字幕。
- :每个角度360度旋转拍摄100个不同物体。
- :视觉基因组,非详细的视觉知识库,带有~100K带注释的图像。
- :在知识共享下的900万个图像网站的集合,“已经注释了超过6,000个类别的标签”。
- :13,000张人脸标记图像,用于开发涉及面部识别(facial recognition)的应用程序。
- :包含20,580张图像和120种不同的犬种。
- :室内场景识别,一个非常特别的数据集,非常有用,因为大多数场景识别模型都是“在室外”场景下工作的。 包含67个室内类别和15620个图像。
- Sentiment Analysis Datasets(情绪分析数据集)
- :多域情绪分析数据集,一个稍微较旧的数据集,其中包含来自亚马逊的产品评论。
- :一个较旧的,相对较小的数据集,用于二元情绪分类的,包含25,000个电影评论。
- :具有情感注释的标准情绪数据集。
- :一个流行的数据集,包含了160,000条已经删除了表情符号的 tweets 。
- :美国航空公司( US airlines)自2015年2月起的Twitter数据,tweets分类为正面,负面和中性。
- Natural Language Processing Datasets(自然语言处理数据集)
- :问答数据集,多跳转问题,有助于实现更易于解释的问答系统。由卡内基梅隆大学,斯坦福大学和蒙特利尔大学的NLP研究人员团队收集。
- :来自Enron高级管理层的电子邮件数据,组织成文件夹。
- :包含来自亚马逊的大约3500万条评论,跨度18年。 数据包括产品和用户信息,评级和明文审核。
- :来自Google图书的一系列文字。
- :从blogger.com收集的681,288篇博客文章的集合。 每个博客至少包含200个常用英语单词。
- :维基百科的全文。 该数据集包含来自400多万篇文章的近19亿个单词。 可以按段落,短语或段落本身的一部分进行搜索。
- :Project Gutenberg的电子书注释列表。
- : 来自第36届加拿大议会(Canadian Parliament)记录的130万对文本。
- :来自问答节目Jeopardy的超过200,000个问题的归档。
- :存档超过480,000番茄评论(新鲜或腐烂)。
- :由5,574条英文短信垃圾邮件组成的数据集。
- :Yelp发布的一个开放数据集,包含超过500万条评论。
- :一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。
- Self-driving (Autonomous Driving) Datasets (自动驾驶数据集)
- :是目前AI自动驾驶最大的数据集。包含超过100,000个视频,包括一天中不同时段和天气条件下超过1,100小时的驾驶体验。带注释的图像来自纽约和旧金山地区。
- :大型数据集,定义了26种不同的语义项目,如汽车,自行车,行人,建筑物,路灯等。
- :超过7小时的高速公路驾驶。细节包括汽车的速度,加速度,转向角和GPS坐标。
- :牛津的机器人汽车,在一年的时间内,在英国牛津的相同路线重复超过100次。该数据集捕获天气,交通和行人的不同组合,以及建筑和道路工程等长期变化。
- :城市景观数据,一个大型数据集,记录50个不同城市的城市街景。
- :此数据集可用于自动驾驶车辆的感知和导航。数据集严重偏向发达国家的道路。
- :比利时(Belgium)法兰德斯地区数千个物理上不同的交通标志,有超过10000多个交通标志注释(traffic sign annotations)。
- :麻省理工实验室,在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。
- :智能和安全汽车实验室,加州大学圣地亚哥分校,该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。
- :用于深度学习的小型交通灯的数据集。
- :交通信号灯的另一个数据集。 在巴黎拍摄。
- :交通信号灯,行人和车道检测的数据集。
- Clinical Datasets(临床数据集)
- :麻省理工学院计算生理学实验室(MIT Lab for Computational Physiology)开发的公开数据集,包括与约40,000名重症监护病人相关的去识别健康数据。 它包括人口统计学,生命体征,实验室测试,药物等。
Source
[1] https://cloud.google.com/public-datasets/
[2] https://guides.library.cmu.edu/c.php?g=844845&p=6191907
[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec
[4] https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets
[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2
[6] https://www.dataquest.io/blog/free-datasets-for-projects/
[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/
[8] https://github.com/awesomedata/awesome-public-datasets#machinelearning
[9] http://lib.stat.cmu.edu/datasets/
[10] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/index.html
[11] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html
[12] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/
[13] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets
[14] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/
[15] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/
[16] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab
[17] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley.edu/open-data-sets/
[18] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/
Citation:
原文引用方式:
Stanford, et al., “The Best Public Datasets for Machine Learning and Data Science”, Towards AI, 2018
BibTex citation:
@misc{stanford_2018,
title={The Best Public Datasets for Machine Learning and Data Science},
url={https://towardsai.net/datasets},
note={https://towardsai.net/datasets},
journal={Medium},
publisher={Towards AI},
author={Stanford, Stacy and Iriondo, Roberto},
year={2018},
month={Oct}
}
最后感谢谷歌翻译, 另外还可参考:https://zhuanlan.zhihu.com/p/48691462 最强数据集集合:50个最佳机器学习公共数据集丨资源
Happy machine learning!