亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法
1、Kaggle数据集
Kaggle数据集包含不同任务和规模的真实数据集,并有许多不同的格式。此外,您还可以在这里找到与每个数据集相关的交互式笔记本Kernels,这些笔记本电脑可以在浏览器中运行。
在这里,每个数据集都是一个小的交流社区,可以讨论数据,找到一些公共代码,或者在Kernels创建自己的项目。
许多数据科学家从不同的角度分析数据集。有时,您还可以找到解决特定问题的算法代码。
传送门: https://www.kaggle.com/datasets
亚马逊数据集
有许多不同领域的数据集,如公共交通、生态资源、卫星图像等。
还提供了一个搜索框来帮助您找到数据集。有了数据集,还有相关的描述和用法示例。
存储数据集AWS假如你在用AWS训练机器学习模型,会很方便,数据集传输速度很快。
传送门: https://registry.opendata.aws/
3、UCI机器学习数据库
这个数据库有100个数据集。来自加州大学信息与计算机科学学院。
数据集已经按照机器学习问题进行了分类,你可以在这里找到单变量和多变量时间序列数据集;分类、回归或推荐系统的数据集。
而且有些数据集已经清理干净,拿走就可以用了。
传送门: https://archive.ics.uci.edu/ml/datasets.html
4.谷歌数据集搜索引擎
谷歌于2018年9月推出了这项服务,可以根据其名称搜索数据集。目标是收集数千个不同的数据集存储库。
相关报道:
Google在线搜索集搜索神器和搜索论文一样简单
传送门: https://toolbox.google.com/datasetsearch
5.微软数据集
2018年7月,微软推出了微软研究开放数据。涵盖计算机科学、社会科学、物理学、天文学、生物学、经济学等学科
云中存储数据集,以促进全球研究小组之间的合作。在已发表的研究中收集了一系列精确的数据集。
传送门: https://msropendata.com/
6.收集公共数据资源
近600个数据集根据不同的主题进行分类,共涉及生物学、经济学、教育学等29个主题。大多数数据集都是免费的,但最好在使用前检查许可要求。
传送门: https://github.com/awesomedata/awesome-public-datasets
7.政府数据集
很多国家都会公开各种数据,以促进政府事务的透明化。
欧盟开放数据集:欧洲政府的数据集
https://data.europa.eu/euodp/data/dataset
美国政府数据集:(暂时不能使用) https://www.data.gov/
国家统计局: http://www.stats.gov.cn/
8.计算机视觉数据
有各种各样的计算机视觉研究数据集,可以通过语义分割、图像字幕、图像生成等特定主题找到。数据集也可以通过应用场景找到,如自动驾驶汽车数据集。
传送门: https://www.visualdata.io/
One More Thing:其它数据集资源
量子位还报道了很多数据集资源,附在这里,希望能帮到你。(点击文本传输)
自然语言处理
计算机视觉
其他
最后的最后
这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但需要注意的是,许多数据需要进一步研究。
https://www.data.gov/
如何影响美国饮食的数据。
https://catalog.data.gov/dataset/food-environment-atlas-f4a22
这里有对美国学校系统财务状况的调查。
https://catalog.data.gov/dataset/annual-survey-of-school-system-finances
美国各地慢性病指标数据。
https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9
来自美国和世界各地的教育机构和教育人口统计数据。
https://nces.ed.gov/
英国最大的社会、经济和人口数据收集机构。
https://www.ukdataservice.ac.uk/
美国公共数据全面可视化。
http://datausa.io/
有许多经济和金融数据,你可以使用这些数据来建立预测经济指标或股价的模型。
https://www.quandl.com/
数据集涵盖世界各地人口统计、大量经济和发展指标。
https://data.worldbank.org/
国际货币基金组织公布了国际金融、债务率、外汇储备、商品价格和投资数据。
https://www.imf.org/en/Data
来自世界各地的最新金融市场信息包括股价指数、商品和外汇。
https://markets.ft.com/data/
观察和分析世界各地互联网搜索活动和新闻故事趋势的数据。
http://www.google.com/trends?=google&ctab=0&geo=all&date=all&sort=0
这里你可以找到美国宏观经济的相关数据。
https://www.aeaweb.org/resources/data/us-macro-regional
数据集中包含大量有标注的图像数据。
http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释。根据 WordNet 层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。
http://image-net.org/
场景理解与许多辅助任务(房间布局估计,显着性预测等)
http://lsun.cs.princeton.edu/2016/
通用图像的理解和文字描述。
http://mscoco.org/
在 360 度旋转中以各个角度成像的 100 个不同的物体。
http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
非常详细的视觉知识库,配以0 万张带有文字描述的图像。
http://visualgenome.org/
“知识共享”(Creative Commons)下的900万个图像网址集合,已标注超过6,000个类别的标签。
https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
13,000个人脸标记图像,用于开发涉及面部识别的应用程序。
http://vis-www.cs.umass.edu/lfw/
包含20580张图片和120个不同的狗品种类别。
http://vision.stanford.edu/aditya86/ImageNetDogs/
这是一个非常细化的数据集,由于大多数在“户外”场景中表现良好的场景识别模型在室内表现不佳,因而这个数据集非常有用。内有 67 个室内类别,共 15,620 张图像。
http://web.mit.edu/torralba/www/indoor.html
一个比较有历史的数据集,里面还有一些来自亚马逊的产品评论。
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
影评,也是比较有历史的二元情绪分类数据集、数据规模相对较小,里面有 25,000 条电影评论。
http://ai.stanford.edu/~amaas/data/sentiment/
带有情感注释的标准情绪数据集。
http://nlp.stanford.edu/sentiment/code.html
一个流行的数据集,它使用16万条推文,并把表情等等符号剔除了。
http://help.sentiment140.com/for-students/
自 2015 年 2 月以来美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。
https://www.kaggle.com/crowdflower/twitter-airline-sentiment
里面有安然集团高级管理层的电子邮件数据。
https://www.cs.cmu.edu/~./enron/
里面有3500万条来自亚马逊的评论,时间长度为18年。数据包括产品和用户信息、评级等。
https://snap.stanford.edu/data/web-Amazon.html
来自Google书籍的词汇集合。
https://aws.amazon.com/datasets/google-books-ngrams/
从blogger.com收集的681,288篇博客文章。每个博客至少包含200个常用的英语单词。
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
维基百科全文。该数据集包含来自400多万篇文章,近19亿字。你可以对字、短语或段落本身的一部分进行搜索。
https://code.google.com/p/wiki-links/downloads/list
Project Gutenberg的附加注释的电子书列表。
http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
来自第36届加拿大议会记录的130万对文本。
http://www.isi.edu/natural-language/download/hansard/
来自问答游戏节目《危险边缘》(Jeopardy) 的超过 20 万个问题的存档。
http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
包含5,574条英文垃圾邮件的数据集。
http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
Yelp发布的一个开放数据集,包含超过500万次评论。
https://www.yelp.com/dataset
一个大型垃圾邮件数据集,用于垃圾邮件过滤。
https://archive.ics.uci.edu/ml/datasets/Spambase
这是目前最大的自动驾驶 数据集。里面有超过 1,100 多个小时驾驶体验的视频,包含10 万个在一天中不同时段以及在不同天气条件下的数据。
http://bdd-data.berkeley.edu/
大型数据集,定义了26种不同的语义项,如汽车,自行车,行人,建筑物,路灯等。
http://apolloscape.auto/
超过7个小时的高速公路驾驶视频。里面的数据包括汽车的速度、加速度、转向角和GPS坐标。
https://archive.org/details/comma-dataset
记录50个不同城市的城市街道场景的大型数据集。
https://www.cityscapes-dataset.com/
包含自动车辆的感知和导航等数据,但着重于发达国家的道路。
http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset
在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。
http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/
智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。
http://cvrr.ucsd.edu/LISA/datasets.html
用于深入学习的小交通灯数据集。
https://hci.iwr.uni-heidelberg.de/node/6132
巴黎交通灯的数据集。
http://www.lara.prd.fr/benchmarks/trafficlightsrecognition
交通灯、行人和车道检测的数据集。
http://computing.wpi.edu/dataset.html
http://dataju.cn/Dataju/web/datasetInstanceDetail/139
http://dataju.cn/Dataju/web/datasetInstanceDetail/344
http://dataju.cn/Dataju/web/datasetInstanceDetail/340
http://dataju.cn/Dataju/web/datasetInstanceDetail/341
http://dataju.cn/Dataju/web/datasetInstanceDetail/342
http://dataju.cn/Dataju/web/datasetInstanceDetail/343
http://dataju.cn/Dataju/web/datasetInstanceDetail/37
http://dataju.cn/Dataju/web/datasetInstanceDetail/38
http://dataju.cn/Dataju/web/datasetInstanceDetail/39
http://dataju.cn/Dataju/web/datasetInstanceDetail/43
http://dataju.cn/Dataju/web/datasetInstanceDetail/67
http://dataju.cn/Dataju/web/datasetInstanceDetail/44
http://dataju.cn/Dataju/web/datasetInstanceDetail/220
http://dataju.cn/Dataju/web/datasetInstanceDetail/225
http://dataju.cn/Dataju/web/datasetInstanceDetail/229
http://dataju.cn/Dataju/web/datasetInstanceDetail/206
http://dataju.cn/Dataju/web/datasetInstanceDetail/206
http://dataju.cn/Dataju/web/datasetInstanceDetail/214
http://dataju.cn/Dataju/web/datasetInstanceDetail/214
http://dataju.cn/Dataju/web/datasetInstanceDetail/249
http://dataju.cn/Dataju/web/datasetInstanceDetail/249
http://dataju.cn/Dataju/web/datasetInstanceDetail/266
http://dataju.cn/Dataju/web/datasetInstanceDetail/336
http://dataju.cn/Dataju/web/datasetInstanceDetail/347
2
http://dataju.cn/Dataju/web/datasetInstanceDetail/348
http://dataju.cn/Dataju/web/datasetInstanceDetail/355
http://dataju.cn/Dataju/web/datasetInstanceDetail/356
http://dataju.cn/Dataju/web/datasetInstanceDetail/76
http://dataju.cn/Dataju/web/datasetInstanceDetail/323
http://dataju.cn/Dataju/web/datasetInstanceDetail/86
http://dataju.cn/Dataju/web/datasetInstanceDetail/210
http://dataju.cn/Dataju/web/datasetInstanceDetail/210
http://dataju.cn/Dataju/web/datasetInstanceDetail/232
http://dataju.cn/Dataju/web/datasetInstanceDetail/228
http://dataju.cn/Dataju/web/datasetInstanceDetail/228
http://dataju.cn/Dataju/web/datasetInstanceDetail/270
https://zhuanlan.zhihu.com/
http://dataju.cn/Dataju/web/datasetInstanceDetail/338
http://dataju.cn/Dataju/web/datasetInstanceDetail/339
据 http://dataju.cn/Dataju/web/datasetInstanceDetail/325
http://dataju.cn/Dataju/web/datasetInstanceDetail/358
http://dataju.cn/Dataju/web/datasetInstanceDetail/359
3
http://dataju.cn/Dataju/web/datasetInstanceDetail/360
http://dataju.cn/Dataju/web/datasetInstanceDetail/361
http://dataju.cn/Dataju/web/datasetInstanceDetail/324
http://dataju.cn/Dataju/web/datasetInstanceDetail/349
http://dataju.cn/Dataju/web/datasetInstanceDetail/364
http://dataju.cn/Dataju/web/datasetInstanceDetail/309
http://dataju.cn/Dataju/web/datasetInstanceDetail/207
http://dataju.cn/Dataju/web/datasetInstanceDetail/207
http://dataju.cn/Dataju/web/datasetInstanceDetail/208
http://dataju.cn/Dataju/web/datasetInstanceDetail/208
http://dataju.cn/Dataju/web/datasetInstanceDetail/230
http://dataju.cn/Dataju/web/datasetInstanceDetail/230
http://dataju.cn/Dataju/web/datasetInstanceDetail/213
http://dataju.cn/Dataju/web/datasetInstanceDetail/319
http://dataju.cn/Dataju/web/datasetInstanceDetail/337
http://dataju.cn/Dataju/web/datasetInstanceDetail/335
http://dataju.cn/Dataju/web/datasetInstanceDetail/333
http://dataju.cn/Dataju/web/datasetInstanceDetail/330
http://dataju.cn/Dataju/web/datasetInstanceDetail/329
http://dataju.cn/Dataju/web/datasetInstanceDetail/227
http://dataju.cn/Dataju/web/datasetInstanceDetail/350
http://dataju.cn/Dataju/web/datasetInstanceDetail/354
http://dataju.cn/Dataju/web/datasetInstanceDetail/32
http://dataju.cn/Dataju/web/datasetInstanceDetail/116
http://dataju.cn/Dataju/web/datasetInstanceDetail/97
4
http://dataju.cn/Dataju/web/datasetInstanceDetail/99
http://dataju.cn/Dataju/web/datasetInstanceDetail/101
http://dataju.cn/Dataju/web/datasetInstanceDetail/100
http://dataju.cn/Dataju/web/datasetInstanceDetail/98
http://dataju.cn/Dataju/web/datasetInstanceDetail/290
http://dataju.cn/Dataju/web/datasetInstanceDetail/80
http://dataju.cn/Dataju/web/datasetInstanceDetail/79
http://dataju.cn/Dataju/web/datasetInstanceDetail/121
http://dataju.cn/Dataju/web/datasetInstanceDetail/242
http://dataju.cn/Dataju/web/datasetInstanceDetail/124
http://dataju.cn/Dataju/web/datasetInstanceDetail/250
http://dataju.cn/Dataju/web/datasetInstanceDetail/258
http://dataju.cn/Dataju/web/datasetInstanceDetail/261
http://dataju.cn/Dataju/web/datasetInstanceDetail/275
http://dataju.cn/Dataju/web/datasetInstanceDetail/284
http://dataju.cn/Dataju/web/datasetInstanceDetail/283
http://dataju.cn/Dataju/web/datasetInstanceDetail/287
http://dataju.cn/Dataju/web/datasetInstanceDetail/291
5
http://dataju.cn/Dataju/web/datasetInstanceDetail/311
http://dataju.cn/Dataju/web/datasetInstanceDetail/315
http://dataju.cn/Dataju/web/datasetInstanceDetail/316
http://dataju.cn/Dataju/web/datasetInstanceDetail/317
http://dataju.cn/Dataju/web/datasetInstanceDetail/369
http://dataju.cn/Dataju/web/datasetInstanceDetail/85
http://dataju.cn/Dataju/web/datasetInstanceDetail/107
http://dataju.cn/Dataju/web/datasetInstanceDetail/51
http://dataju.cn/Dataju/web/datasetInstanceDetail/240
http://dataju.cn/Dataju/web/datasetInstanceDetail/55
http://dataju.cn/Dataju/web/datasetInstanceDetail/40
http://dataju.cn/Dataju/web/datasetInstanceDetail/45
http://dataju.cn/Dataju/web/datasetInstanceDetail/48
http://dataju.cn/Dataju/web/datasetInstanceDetail/138
http://dataju.cn/Dataju/web/datasetInstanceDetail/138
http://dataju.cn/Dataju/web/datasetInstanceDetail/83
http://dataju.cn/Dataju/web/datasetInstanceDetail/183
http://dataju.cn/Dataju/web/datasetInstanceDetail/74
http://dataju.cn/Dataju/web/datasetInstanceDetail/112
http://dataju.cn/Dataju/web/datasetInstanceDetail/160
http://dataju.cn/Dataju/web/datasetInstanceDetail/234
http://dataju.cn/Dataju/web/datasetInstanceDetail/173
http://dataju.cn/Dataju/web/datasetInstanceDetail/52
http://dataju.cn/Dataju/web/datasetInstanceDetail/52
http://dataju.cn/Dataju/web/datasetInstanceDetail/235
http://dataju.cn/Dataju/web/datasetInstanceDetail/236
http://dataju.cn/Dataju/web/datasetInstanceDetail/253
http://dataju.cn/Dataju/web/datasetInstanceDetail/129
http://dataju.cn/Dataju/web/datasetInstanceDetail/129
http://dataju.cn/Dataju/web/datasetInstanceDetail/110
http://dataju.cn/Dataju/web/datasetInstanceDetail/49
http://dataju.cn/Dataju/web/datasetInstanceDetail/73
http://dataju.cn/Dataju/web/datasetInstanceDetail/47
http://dataju.cn/Dataju/web/datasetInstanceDetail/23
http://dataju.cn/Dataju/web/datasetInstanceDetail/203
http://dataju.cn/Dataju/web/datasetInstanceDetail/128
http://dataju.cn/Dataju/web/datasetInstanceDetail/176
http://dataju.cn/Dataju/web/datasetInstanceDetail/278
http://dataju.cn/Dataju/web/datasetInstanceDetail/294
http://dataju.cn/Dataju/web/datasetInstanceDetail/295
http://dataju.cn/Dataju/web/datasetInstanceDetail/41
http://dataju.cn/Dataju/web/datasetInstanceDetail/105
http://dataju.cn/Dataju/web/datasetInstanceDetail/106
http://dataju.cn/Dataju/web/datasetInstanceDetail/106
http://dataju.cn/Dataju/web/datasetInstanceDetail/254
http://dataju.cn/Dataju/web/datasetInstanceDetail/255
http://dataju.cn/Dataju/web/datasetInstanceDetail/109
http://dataju.cn/Dataju/web/datasetInstanceDetail/114
http://dataju.cn/Dataju/web/datasetInstanceDetail/115
http://dataju.cn/Dataju/web/datasetInstanceDetail/60
http://dataju.cn/Dataju/web/datasetInstanceDetail/61
http://dataju.cn/Dataju/web/datasetInstanceDetail/63
http://dataju.cn/Dataju/web/datasetInstanceDetail/174
http://dataju.cn/Dataju/web/datasetInstanceDetail/256
http://dataju.cn/Dataju/web/datasetInstanceDetail/301
http://dataju.cn/Dataju/web/datasetInstanceDetail/118
http://dataju.cn/Dataju/web/datasetInstanceDetail/111
http://dataju.cn/Dataju/web/datasetInstanceDetail/127
http://dataju.cn/Dataju/web/datasetInstanceDetail/172
http://dataju.cn/Dataju/web/datasetInstanceDetail/71
http://dataju.cn/Dataju/web/datasetInstanceDetail/62
http://dataju.cn/Dataju/web/datasetInstanceDetail/70
http://dataju.cn/Dataju/web/datasetInstanceDetail/54
http://dataju.cn/Dataju/web/datasetInstanceDetail/46
http://dataju.cn/Dataju/web/datasetInstanceDetail/42
http://dataju.cn/Dataju/web/datasetInstanceDetail/53
http://dataju.cn/Dataju/web/datasetInstanceDetail/72
http://dataju.cn/Dataju/web/datasetInstanceDetail/72
http://dataju.cn/Dataju/web/datasetInstanceDetail/69
http://dataju.cn/Dataju/web/datasetInstanceDetail/117
http://dataju.cn/Dataju/web/datasetInstanceDetail/237
http://dataju.cn/Dataju/web/datasetInstanceDetail/238
http://dataju.cn/Dataju/web/datasetInstanceDetail/239
http://dataju.cn/Dataju/web/datasetInstanceDetail/108
http://dataju.cn/Dataju/web/datasetInstanceDetail/68
http://dataju.cn/Dataju/web/datasetInstanceDetail/50
http://dataju.cn/Dataju/web/datasetInstanceDetail/131
http://dataju.cn/Dataju/web/datasetInstanceDetail/87
http://dataju.cn/Dataju/web/datasetInstanceDetail/119
http://dataju.cn/Dataju/web/datasetInstanceDetail/120
http://dataju.cn/Dataju/web/datasetInstanceDetail/122
http://dataju.cn/Dataju/web/datasetInstanceDetail/123
http://dataju.cn/Dataju/web/datasetInstanceDetail/130
http://dataju.cn/Dataju/web/datasetInstanceDetail/140
http://dataju.cn/Dataju/web/datasetInstanceDetail/170
http://dataju.cn/Dataju/web/datasetInstanceDetail/175
http://dataju.cn/Dataju/web/datasetInstanceDetail/189
http://dataju.cn/Dataju/web/datasetInstanceDetail/125
http://dataju.cn/Dataju/web/datasetInstanceDetail/126
http://dataju.cn/Dataju/web/datasetInstanceDetail/177
http://dataju.cn/Dataju/web/datasetInstanceDetail/178
http://dataju.cn/Dataju/web/datasetInstanceDetail/179
http://dataju.cn/Dataju/web/datasetInstanceDetail/181
http://dataju.cn/Dataju/web/datasetInstanceDetail/197
http://dataju.cn/Dataju/web/datasetInstanceDetail/281
http://dataju.cn/Dataju/web/datasetInstanceDetail/280
http://dataju.cn/Dataju/web/datasetInstanceDetail/279
http://dataju.cn/Dataju/web/datasetInstanceDetail/77
http://dataju.cn/Dataju/web/datasetInstanceDetail/289
http://dataju.cn/Dataju/web/datasetInstanceDetail/132
http://dataju.cn/Dataju/web/datasetInstanceDetail/84
http://dataju.cn/Dataju/web/datasetInstanceDetail/241
6
http://dataju.cn/Dataju/web/datasetInstanceDetail/147
http://dataju.cn/Dataju/web/datasetInstanceDetail/133
http://dataju.cn/Dataju/web/datasetInstanceDetail/134
http://dataju.cn/Dataju/web/datasetInstanceDetail/144
http://dataju.cn/Dataju/web/datasetInstanceDetail/135
http://dataju.cn/Dataju/web/datasetInstanceDetail/136
http://dataju.cn/Dataju/web/datasetInstanceDetail/137
http://dataju.cn/Dataju/web/datasetInstanceDetail/148
http://dataju.cn/Dataju/web/datasetInstanceDetail/125
http://dataju.cn/Dataju/web/datasetInstanceDetail/126
http://dataju.cn/Dataju/web/datasetInstanceDetail/141
http://dataju.cn/Dataju/web/datasetInstanceDetail/157
http://dataju.cn/Dataju/web/datasetInstanceDetail/146
http://dataju.cn/Dataju/web/datasetInstanceDetail/244
http://dataju.cn/Dataju/web/datasetInstanceDetail/245
http://dataju.cn/Dataju/web/datasetInstanceDetail/246
http://dataju.cn/Dataju/web/datasetInstanceDetail/247
http://dataju.cn/Dataju/web/datasetInstanceDetail/248
http://dataju.cn/Dataju/web/datasetInstanceDetail/223
http://dataju.cn/Dataju/web/datasetInstanceDetail/159
http://dataju.cn/Dataju/web/datasetInstanceDetail/151
http://dataju.cn/Dataju/web/datasetInstanceDetail/150
http://dataju.cn/Dataju/web/datasetInstanceDetail/152
http://dataju.cn/Dataju/web/datasetInstanceDetail/156
http://dataju.cn/Dataju/web/datasetInstanceDetail/243
http://dataju.cn/Dataju/web/datasetInstanceDetail/200
http://dataju.cn/Dataju/web/datasetInstanceDetail/186
7
http://dataju.cn/Dataju/web/datasetInstanceDetail/164
http://dataju.cn/Dataju/web/datasetInstanceDetail/251
http://dataju.cn/Dataju/web/datasetInstanceDetail/252
http://dataju.cn/Dataju/web/datasetInstanceDetail/194
http://dataju.cn/Dataju/web/datasetInstanceDetail/191
http://dataju.cn/Dataju/web/datasetInstanceDetail/96
http://dataju.cn/Dataju/web/datasetInstanceDetail/96
http://dataju.cn/Dataju/web/datasetInstanceDetail/96
8
http://dataju.cn/Dataju/web/datasetInstanceDetail/93
http://dataju.cn/Dataju/web/datasetInstanceDetail/90
http://dataju.cn/Dataju/web/datasetInstanceDetail/78
http://dataju.cn/Dataju/web/datasetInstanceDetail/78
http://dataju.cn/Dataju/web/datasetInstanceDetail/94
http://dataju.cn/Dataju/web/datasetInstanceDetail/92
http://dataju.cn/Dataju/web/datasetInstanceDetail/89
Multi-Domain Sentiment V2.0 http://dataju.cn/Dataju/web/datasetInstanceDetail/205
http://dataju.cn/Dataju/web/datasetInstanceDetail/205
Yale Youtube Vedio Text http://dataju.cn/Dataju/web/datasetInstanceDetail/221
http://dataju.cn/Dataju/web/datasetInstanceDetail/221
http://dataju.cn/Dataju/web/datasetInstanceDetail/212
http://dataju.cn/Dataju/web/datasetInstanceDetail/268
http://dataju.cn/Dataju/web/datasetInstanceDetail/269
http://dataju.cn/Dataju/web/datasetInstanceDetail/277
http://dataju.cn/Dataju/web/datasetInstanceDetail/285
http://dataju.cn/Dataju/web/datasetInstanceDetail/272
http://dataju.cn/Dataju/web/datasetInstanceDetail/288
http://dataju.cn/Dataju/web/datasetInstanceDetail/334
http://dataju.cn/Dataju/web/datasetInstanceDetail/201
9
http://dataju.cn/Dataju/web/datasetInstanceDetail/267
http://dataju.cn/Dataju/web/datasetInstanceDetail/209
http://dataju.cn/Dataju/web/datasetInstanceDetail/202
http://dataju.cn/Dataju/web/datasetInstanceDetail/233
http://dataju.cn/Dataju/web/datasetInstanceDetail/231
http://dataju.cn/Dataju/web/datasetInstanceDetail/222
http://dataju.cn/Dataju/web/datasetInstanceDetail/219
http://dataju.cn/Dataju/web/datasetInstanceDetail/218
http://dataju.cn/Dataju/web/datasetInstanceDetail/217
http://dataju.cn/Dataju/web/datasetInstanceDetail/273
http://dataju.cn/Dataju/web/datasetInstanceDetail/274
http://dataju.cn/Dataju/web/datasetInstanceDetail/215
http://dataju.cn/Dataju/web/datasetInstanceDetail/211
http://dataju.cn/Dataju/web/datasetInstanceDetail/224
http://dataju.cn/Dataju/web/datasetInstanceDetail/224
http://dataju.cn/Dataju/web/datasetInstanceDetail/224
http://dataju.cn/Dataju/web/datasetInstanceDetail/226
http://dataju.cn/Dataju/web/datasetInstanceDetail/216
http://dataju.cn/Dataju/web/datasetInstanceDetail/259
http://dataju.cn/Dataju/web/datasetInstanceDetail/260
http://dataju.cn/Dataju/web/datasetInstanceDetail/262
http://dataju.cn/Dataju/web/datasetInstanceDetail/263
http://dataju.cn/Dataju/web/datasetInstanceDetail/264
http://dataju.cn/Dataju/web/datasetInstanceDetail/265
http://dataju.cn/Dataju/web/datasetInstanceDetail/267
http://dataju.cn/Dataju/web/datasetInstanceDetail/353
http://dataju.cn/Dataju/web/datasetInstanceDetail/358
http://dataju.cn/Dataju/web/datasetInstanceDetail/351
http://dataju.cn/Dataju/web/datasetInstanceDetail/352
10
http://dataju.cn/Dataju/web/datasetInstanceDetail/370
http://dataju.cn/Dataju/web/datasetInstanceDetail/296
http://dataju.cn/Dataju/web/datasetInstanceDetail/297
http://dataju.cn/Dataju/web/datasetInstanceDetail/298
Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299
http://dataju.cn/Dataju/web/datasetInstanceDetail/300
http://dataju.cn/Dataju/web/datasetInstanceDetail/318
http://dataju.cn/Dataju/web/datasetInstanceDetail/328
http://dataju.cn/Dataju/web/datasetInstanceDetail/332
http://dataju.cn/Dataju/web/datasetInstanceDetail/331
http://dataju.cn/Dataju/web/datasetInstanceDetail/368
Kaggle
书籍推荐数据集(goodreads/上万图书/百万评价)【Kaggle】
https://www.kaggle.com/zygmunt/goodbooks-10k
带有预期点数和获胜概率的NFL比赛详情数据集(2009-2016)【Kaggle】
https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016
HackerNews数据集(2006年以来约1/4文章) 【Kaggle】
https://www.kaggle.com/hacker-news/hacker-news-corpus
酒店评价数据集【Kaggle】
https://www.kaggle.com/datafiniti/hotel-reviews
1950年以来NBA球员状态&表现数据集【Kaggle】
https://www.kaggle.com/drgilermo/nba-players-stats
开普勒太空望远镜深空星球光强时序数据集【Kaggle】
https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data
巴基斯坦无人机袭击数据集(2004-2016)【Kaggle】
https://www.kaggle.com/zusmani/pakistandroneattacks
墨尔本房屋市场数据集【Kaggle】
https://www.kaggle.com/anthonypino/melbourne-housing-market
1789-2016历任美国总统签署行政命令数据集【Kaggle】
https://www.kaggle.com/nationalarchives/executive-orders
来自Stack Overflow平台的Python语言问答数据集【Kaggle】
https://www.kaggle.com/stackoverflow/pythonquestions
来自Stack Overflow品台的R语言问答数据集【Kaggle】
https://www.kaggle.com/stackoverflow/rquestions
每日海冰范围数据集【Kaggle】
https://www.kaggle.com/nsidcorg/daily-sea-ice-extent-data
NIPS(1987-2016)论文数据集【Kaggle】
https://www.kaggle.com/benhamner/nips-papers
大学公开数据集
(Stanford)69G大规模无人机(校园)图像数据集【Stanford】
http://cvgl.stanford.edu/projects/uav_data/
人脸素描数据集【CUHK】
http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html
自然语言推理(文本蕴含标记)数据集【NYU】
https://www.nyu.edu/projects/bowman/multinli/
Berkeley图像分割数据集BSDS500【Berkeley】
https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html
宠物图片(分割)数据集【Oxford】
http://www.robots.ox.ac.uk/~vgg/data/pets/
发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】
https://groups.csail.mit.edu/vision/datasets/ADE20K/
多模态二元行为数据集【GaTech】
http://www.cbi.gatech.edu/mmdb/
▍计算机视觉/图像/视频数据集:
Fashion-MNIST风格服饰图像数据集【肖涵】
https://github.com/zalandoresearch/fashion-mnist
大型(50万)LOGO标志数据集
https://data.vision.ee.ethz.ch/cvl/lld/
4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】
http://dfaust.is.tue.mpg.de
基于MNIST的视觉计数合成数据集Counting MNIST
http://fomoro.com/tools/counting-mnist/
YouTube MV视频数据集【Keunwoo Choi】
https://github.com/keunwoochoi/YouTube-music-video-5M
计算机视觉合成数据集/工具大列表【unrealcv】
https://github.com/unrealcv/synthetic-computer-vision
动物属性标记数据集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】
http://cvml.ist.ac.at/AwA2/
日本漫画数据集Manga109
http://dl.acm.org/citation.cfm?doid=3011549.3011551
俯拍舞蹈视频数据集
http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/
Pixiv(着色)图片数据集【Jerry Li】
https://github.com/jerryli27/pixiv_dataset
e-VDS视频数据集
https://engineering.purdue.edu/elab/eVDS/#download
Quick, Draw!简笔画涂鸦数据集
https://github.com/googlecreativelab/quickdraw-dataset
简笔画涂鸦数据集【hardmaru】
https://github.com/hardmaru/sketch-rnn-datasets
服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】
http://files.is.tue.mpg.de/classner/gp/
COCO像素级标注数据集
https://github.com/nightrome/cocostuff
大规模街道级图片(分割)数据集【Peter Kontschieder】
http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html
大规模日语图片描述数据集
https://github.com/STAIR-Lab-CIT/STAIR-captions
Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)
https://github.com/mcordts/cityscapesScripts
(街头)时尚服饰数据集(2000+标注图片)
https://github.com/bearpaw/clothing-co-parsing
PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】
https://github.com/bodokaiser/piwise
Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】
https://www.re-work.co/blog/the-something-something-video-dataset
▍文本/评价/问答/自然语言数据集:
(20万)英文笑话数据集【TaivoPungas】
https://github.com/taivop/joke-dataset
机器学习保险行业问答开放数据集【HainWang】
https://github.com/shuzi/insuranceQA
保险行业问答(QA)数据集【Minwei Feng】
https://github.com/shuzi/insuranceQA
Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】
https://github.com/keunwoochoi/YouTube-music-video-5M
实体/名词语义关系标记数据集【David S. Batista】
https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets
NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理)
http://lic.nlp.cornell.edu/nlvr/
2.8万文章/10万问题大规模(英语考试)阅读理解数据集
https://github.com/qizhex/RACE_AR_baselines
错误拼写数据集
http://www.dcs.bbk.ac.uk/~ROGER/corpora.html
文本简化数据集
http://www.cs.pomona.edu/~dkauchak/simplification/
英语词/句/语义框架框架标注数据集FrameNet
https://framenet.icsi.berkeley.edu/fndrupal/
(又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】
https://github.com/niderhoff/nlp-datasets
跨语种/多样式/多粒度文本相似性检测数据集
https://github.com/FerreroJeremy/Cross-Language-Dataset
Quora数据集:400000行潜在重复问题
http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv
文本分类数据集
http://disi.unitn.it/moschitti/corpora.htm
Frames:Maluuba对话数据集
https://datasets.maluuba.com/Frames/dl
跨域(Amazon商品评论)情感数据集
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
语义网机器学习系统评价/基准数据集集合
http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml
▍其它数据集
数据科学/机器学习数据集汇总
https://elitedatascience.com/datasets
CORe50:连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】
https://vlomonaco.github.io/core50/
(Matlab)数据集统计分布自动发现【Isabel Valera】
http://proceedings.mlr.press/v70/valera17a.html
(建筑物)损害评估数据集【tsunami】
https://github.com/faiton713/ABCDdataset
IndieWeb社交图谱数据集【IndieWeb】
http://www.indiemap.org
DeepMind开源环境/数据集/代码集合【DeepMind】
https://deepmind.com/research/open-source/
鸟叫声数据集【xeno-canto】
http://www.xeno-canto.org
Wolfram数据集仓库
https://datarepository.wolframcloud.com
大型音乐分析数据集FMA
https://github.com/mdeff/fma
(300万)Instacart在线杂货购物数据集【Jeremy Stanley】
https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
用于欺诈检测的合成财务数据集【TESTIMON】
https://www.kaggle.com/ntnu-testimon/paysim1
NSynth:大规模高质量音符标记音频数据集
https://magenta.tensorflow.org/datasets/nsynth