资讯详情

机器学习数据集的方法 及 数据集资源

亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法

1、Kaggle数据集

Kaggle数据集包含不同任务和规模的真实数据集,并有许多不同的格式。此外,您还可以在这里找到与每个数据集相关的交互式笔记本Kernels,这些笔记本电脑可以在浏览器中运行。

在这里,每个数据集都是一个小的交流社区,可以讨论数据,找到一些公共代码,或者在Kernels创建自己的项目。

许多数据科学家从不同的角度分析数据集。有时,您还可以找到解决特定问题的算法代码。

传送门: https://www.kaggle.com/datasets

亚马逊数据集

有许多不同领域的数据集,如公共交通、生态资源、卫星图像等。

还提供了一个搜索框来帮助您找到数据集。有了数据集,还有相关的描述和用法示例。

存储数据集AWS假如你在用AWS训练机器学习模型,会很方便,数据集传输速度很快。

传送门: https://registry.opendata.aws/

3、UCI机器学习数据库

这个数据库有100个数据集。来自加州大学信息与计算机科学学院。

数据集已经按照机器学习问题进行了分类,你可以在这里找到单变量和多变量时间序列数据集;分类、回归或推荐系统的数据集。

而且有些数据集已经清理干净,拿走就可以用了。

传送门: https://archive.ics.uci.edu/ml/datasets.html

4.谷歌数据集搜索引擎

谷歌于2018年9月推出了这项服务,可以根据其名称搜索数据集。目标是收集数千个不同的数据集存储库。

相关报道:

Google在线搜索集搜索神器和搜索论文一样简单

传送门: https://toolbox.google.com/datasetsearch

5.微软数据集

2018年7月,微软推出了微软研究开放数据。涵盖计算机科学、社会科学、物理学、天文学、生物学、经济学等学科

云中存储数据集,以促进全球研究小组之间的合作。在已发表的研究中收集了一系列精确的数据集。

传送门: https://msropendata.com/

6.收集公共数据资源

近600个数据集根据不同的主题进行分类,共涉及生物学、经济学、教育学等29个主题。大多数数据集都是免费的,但最好在使用前检查许可要求。

传送门: https://github.com/awesomedata/awesome-public-datasets

7.政府数据集

很多国家都会公开各种数据,以促进政府事务的透明化。

欧盟开放数据集:欧洲政府的数据集

https://data.europa.eu/euodp/data/dataset

美国政府数据集:(暂时不能使用) https://www.data.gov/

国家统计局: http://www.stats.gov.cn/

8.计算机视觉数据

有各种各样的计算机视觉研究数据集,可以通过语义分割、图像字幕、图像生成等特定主题找到。数据集也可以通过应用场景找到,如自动驾驶汽车数据集。

传送门: https://www.visualdata.io/

One More Thing:其它数据集资源

量子位还报道了很多数据集资源,附在这里,希望能帮到你。(点击文本传输)

自然语言处理

计算机视觉

其他

最后的最后

这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但需要注意的是,许多数据需要进一步研究。

https://www.data.gov/

如何影响美国饮食的数据。

https://catalog.data.gov/dataset/food-environment-atlas-f4a22

这里有对美国学校系统财务状况的调查。

https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

美国各地慢性病指标数据。

https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

来自美国和世界各地的教育机构和教育人口统计数据。

https://nces.ed.gov/

英国最大的社会、经济和人口数据收集机构。

https://www.ukdataservice.ac.uk/

美国公共数据全面可视化。

http://datausa.io/

有许多经济和金融数据,你可以使用这些数据来建立预测经济指标或股价的模型。

https://www.quandl.com/

数据集涵盖世界各地人口统计、大量经济和发展指标。

https://data.worldbank.org/

国际货币基金组织公布了国际金融、债务率、外汇储备、商品价格和投资数据。

https://www.imf.org/en/Data

来自世界各地的最新金融市场信息包括股价指数、商品和外汇。

https://markets.ft.com/data/

观察和分析世界各地互联网搜索活动和新闻故事趋势的数据。

http://www.google.com/trends?=google&ctab=0&geo=all&date=all&sort=0

 

这里你可以找到美国宏观经济的相关数据。

https://www.aeaweb.org/resources/data/us-macro-regional

 

 

 

数据集中包含大量有标注的图像数据。

http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

 

是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释。根据 WordNet 层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。

http://image-net.org/

 

场景理解与许多辅助任务(房间布局估计,显着性预测等)

http://lsun.cs.princeton.edu/2016/

 

通用图像的理解和文字描述。

http://mscoco.org/

 

在 360 度旋转中以各个角度成像的 100 个不同的物体。

http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

 

非常详细的视觉知识库,配以0 万张带有文字描述的图像。

http://visualgenome.org/

 

“知识共享”(Creative Commons)下的900万个图像网址集合,已标注超过6,000个类别的标签。

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

 

13,000个人脸标记图像,用于开发涉及面部识别的应用程序。

http://vis-www.cs.umass.edu/lfw/

 

包含20580张图片和120个不同的狗品种类别。

http://vision.stanford.edu/aditya86/ImageNetDogs/

 

这是一个非常细化的数据集,由于大多数在“户外”场景中表现良好的场景识别模型在室内表现不佳,因而这个数据集非常有用。内有 67 个室内类别,共 15,620 张图像。

http://web.mit.edu/torralba/www/indoor.html

 

 

 

一个比较有历史的数据集,里面还有一些来自亚马逊的产品评论。

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

 

影评,也是比较有历史的二元情绪分类数据集、数据规模相对较小,里面有 25,000 条电影评论。

http://ai.stanford.edu/~amaas/data/sentiment/

 

带有情感注释的标准情绪数据集。

http://nlp.stanford.edu/sentiment/code.html

 

一个流行的数据集,它使用16万条推文,并把表情等等符号剔除了。

http://help.sentiment140.com/for-students/

 

自 2015 年 2 月以来美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

 

 

 

里面有安然集团高级管理层的电子邮件数据。

https://www.cs.cmu.edu/~./enron/

 

里面有3500万条来自亚马逊的评论,时间长度为18年。数据包括产品和用户信息、评级等。

https://snap.stanford.edu/data/web-Amazon.html

 

来自Google书籍的词汇集合。

https://aws.amazon.com/datasets/google-books-ngrams/

 

从blogger.com收集的681,288篇博客文章。每个博客至少包含200个常用的英语单词。

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

 

维基百科全文。该数据集包含来自400多万篇文章,近19亿字。你可以对字、短语或段落本身的一部分进行搜索。

https://code.google.com/p/wiki-links/downloads/list

 

Project Gutenberg的附加注释的电子书列表。

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

 

来自第36届加拿大议会记录的130万对文本。

http://www.isi.edu/natural-language/download/hansard/

 

来自问答游戏节目《危险边缘》(Jeopardy) 的超过 20 万个问题的存档。

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

 

包含5,574条英文垃圾邮件的数据集。

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

 

Yelp发布的一个开放数据集,包含超过500万次评论。

https://www.yelp.com/dataset

 

一个大型垃圾邮件数据集,用于垃圾邮件过滤。

https://archive.ics.uci.edu/ml/datasets/Spambase

 

 

 

这是目前最大的自动驾驶 数据集。里面有超过 1,100 多个小时驾驶体验的视频,包含10 万个在一天中不同时段以及在不同天气条件下的数据。

http://bdd-data.berkeley.edu/

 

大型数据集,定义了26种不同的语义项,如汽车,自行车,行人,建筑物,路灯等。

http://apolloscape.auto/

 

超过7个小时的高速公路驾驶视频。里面的数据包括汽车的速度、加速度、转向角和GPS坐标。

https://archive.org/details/comma-dataset

 

记录50个不同城市的城市街道场景的大型数据集。

https://www.cityscapes-dataset.com/

 

包含自动车辆的感知和导航等数据,但着重于发达国家的道路。

http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

 

在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。

http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

 

智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。

http://cvrr.ucsd.edu/LISA/datasets.html

 

用于深入学习的小交通灯数据集。

https://hci.iwr.uni-heidelberg.de/node/6132

 

巴黎交通灯的数据集。

http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

 

交通灯、行人和车道检测的数据集。

http://computing.wpi.edu/dataset.html

 

http://dataju.cn/Dataju/web/datasetInstanceDetail/139

http://dataju.cn/Dataju/web/datasetInstanceDetail/344

http://dataju.cn/Dataju/web/datasetInstanceDetail/340

http://dataju.cn/Dataju/web/datasetInstanceDetail/341

http://dataju.cn/Dataju/web/datasetInstanceDetail/342

http://dataju.cn/Dataju/web/datasetInstanceDetail/343

http://dataju.cn/Dataju/web/datasetInstanceDetail/37

http://dataju.cn/Dataju/web/datasetInstanceDetail/38

http://dataju.cn/Dataju/web/datasetInstanceDetail/39

http://dataju.cn/Dataju/web/datasetInstanceDetail/43

http://dataju.cn/Dataju/web/datasetInstanceDetail/67

http://dataju.cn/Dataju/web/datasetInstanceDetail/44

http://dataju.cn/Dataju/web/datasetInstanceDetail/220

http://dataju.cn/Dataju/web/datasetInstanceDetail/225

http://dataju.cn/Dataju/web/datasetInstanceDetail/229

http://dataju.cn/Dataju/web/datasetInstanceDetail/206

http://dataju.cn/Dataju/web/datasetInstanceDetail/206

http://dataju.cn/Dataju/web/datasetInstanceDetail/214

http://dataju.cn/Dataju/web/datasetInstanceDetail/214

http://dataju.cn/Dataju/web/datasetInstanceDetail/249

http://dataju.cn/Dataju/web/datasetInstanceDetail/249

http://dataju.cn/Dataju/web/datasetInstanceDetail/266

http://dataju.cn/Dataju/web/datasetInstanceDetail/336

http://dataju.cn/Dataju/web/datasetInstanceDetail/347

 

2

http://dataju.cn/Dataju/web/datasetInstanceDetail/348

http://dataju.cn/Dataju/web/datasetInstanceDetail/355

http://dataju.cn/Dataju/web/datasetInstanceDetail/356

http://dataju.cn/Dataju/web/datasetInstanceDetail/76

http://dataju.cn/Dataju/web/datasetInstanceDetail/323

http://dataju.cn/Dataju/web/datasetInstanceDetail/86

http://dataju.cn/Dataju/web/datasetInstanceDetail/210

http://dataju.cn/Dataju/web/datasetInstanceDetail/210

http://dataju.cn/Dataju/web/datasetInstanceDetail/232

http://dataju.cn/Dataju/web/datasetInstanceDetail/228

http://dataju.cn/Dataju/web/datasetInstanceDetail/228

http://dataju.cn/Dataju/web/datasetInstanceDetail/270

https://zhuanlan.zhihu.com/

http://dataju.cn/Dataju/web/datasetInstanceDetail/338

http://dataju.cn/Dataju/web/datasetInstanceDetail/339

据 http://dataju.cn/Dataju/web/datasetInstanceDetail/325

http://dataju.cn/Dataju/web/datasetInstanceDetail/358

http://dataju.cn/Dataju/web/datasetInstanceDetail/359

 

3

http://dataju.cn/Dataju/web/datasetInstanceDetail/360

http://dataju.cn/Dataju/web/datasetInstanceDetail/361

http://dataju.cn/Dataju/web/datasetInstanceDetail/324

http://dataju.cn/Dataju/web/datasetInstanceDetail/349

http://dataju.cn/Dataju/web/datasetInstanceDetail/364

http://dataju.cn/Dataju/web/datasetInstanceDetail/309

http://dataju.cn/Dataju/web/datasetInstanceDetail/207

http://dataju.cn/Dataju/web/datasetInstanceDetail/207

http://dataju.cn/Dataju/web/datasetInstanceDetail/208

http://dataju.cn/Dataju/web/datasetInstanceDetail/208

http://dataju.cn/Dataju/web/datasetInstanceDetail/230

http://dataju.cn/Dataju/web/datasetInstanceDetail/230

http://dataju.cn/Dataju/web/datasetInstanceDetail/213

http://dataju.cn/Dataju/web/datasetInstanceDetail/319

http://dataju.cn/Dataju/web/datasetInstanceDetail/337

http://dataju.cn/Dataju/web/datasetInstanceDetail/335

http://dataju.cn/Dataju/web/datasetInstanceDetail/333

http://dataju.cn/Dataju/web/datasetInstanceDetail/330

http://dataju.cn/Dataju/web/datasetInstanceDetail/329

http://dataju.cn/Dataju/web/datasetInstanceDetail/227

http://dataju.cn/Dataju/web/datasetInstanceDetail/350

http://dataju.cn/Dataju/web/datasetInstanceDetail/354

http://dataju.cn/Dataju/web/datasetInstanceDetail/32

http://dataju.cn/Dataju/web/datasetInstanceDetail/116

http://dataju.cn/Dataju/web/datasetInstanceDetail/97

 

4

http://dataju.cn/Dataju/web/datasetInstanceDetail/99

http://dataju.cn/Dataju/web/datasetInstanceDetail/101

http://dataju.cn/Dataju/web/datasetInstanceDetail/100

http://dataju.cn/Dataju/web/datasetInstanceDetail/98

http://dataju.cn/Dataju/web/datasetInstanceDetail/290

http://dataju.cn/Dataju/web/datasetInstanceDetail/80

http://dataju.cn/Dataju/web/datasetInstanceDetail/79

http://dataju.cn/Dataju/web/datasetInstanceDetail/121

http://dataju.cn/Dataju/web/datasetInstanceDetail/242

http://dataju.cn/Dataju/web/datasetInstanceDetail/124

http://dataju.cn/Dataju/web/datasetInstanceDetail/250

http://dataju.cn/Dataju/web/datasetInstanceDetail/258

http://dataju.cn/Dataju/web/datasetInstanceDetail/261

http://dataju.cn/Dataju/web/datasetInstanceDetail/275

http://dataju.cn/Dataju/web/datasetInstanceDetail/284

http://dataju.cn/Dataju/web/datasetInstanceDetail/283

http://dataju.cn/Dataju/web/datasetInstanceDetail/287

http://dataju.cn/Dataju/web/datasetInstanceDetail/291

 

5

http://dataju.cn/Dataju/web/datasetInstanceDetail/311

http://dataju.cn/Dataju/web/datasetInstanceDetail/315

http://dataju.cn/Dataju/web/datasetInstanceDetail/316

http://dataju.cn/Dataju/web/datasetInstanceDetail/317

http://dataju.cn/Dataju/web/datasetInstanceDetail/369

http://dataju.cn/Dataju/web/datasetInstanceDetail/85

http://dataju.cn/Dataju/web/datasetInstanceDetail/107

http://dataju.cn/Dataju/web/datasetInstanceDetail/51

http://dataju.cn/Dataju/web/datasetInstanceDetail/240

http://dataju.cn/Dataju/web/datasetInstanceDetail/55

http://dataju.cn/Dataju/web/datasetInstanceDetail/40

 

http://dataju.cn/Dataju/web/datasetInstanceDetail/45

http://dataju.cn/Dataju/web/datasetInstanceDetail/48

http://dataju.cn/Dataju/web/datasetInstanceDetail/138

http://dataju.cn/Dataju/web/datasetInstanceDetail/138

http://dataju.cn/Dataju/web/datasetInstanceDetail/83

http://dataju.cn/Dataju/web/datasetInstanceDetail/183

http://dataju.cn/Dataju/web/datasetInstanceDetail/74

http://dataju.cn/Dataju/web/datasetInstanceDetail/112

http://dataju.cn/Dataju/web/datasetInstanceDetail/160

http://dataju.cn/Dataju/web/datasetInstanceDetail/234

http://dataju.cn/Dataju/web/datasetInstanceDetail/173

http://dataju.cn/Dataju/web/datasetInstanceDetail/52

http://dataju.cn/Dataju/web/datasetInstanceDetail/52

http://dataju.cn/Dataju/web/datasetInstanceDetail/235

http://dataju.cn/Dataju/web/datasetInstanceDetail/236

http://dataju.cn/Dataju/web/datasetInstanceDetail/253

http://dataju.cn/Dataju/web/datasetInstanceDetail/129

http://dataju.cn/Dataju/web/datasetInstanceDetail/129

http://dataju.cn/Dataju/web/datasetInstanceDetail/110

http://dataju.cn/Dataju/web/datasetInstanceDetail/49

http://dataju.cn/Dataju/web/datasetInstanceDetail/73

http://dataju.cn/Dataju/web/datasetInstanceDetail/47

http://dataju.cn/Dataju/web/datasetInstanceDetail/23

http://dataju.cn/Dataju/web/datasetInstanceDetail/203

http://dataju.cn/Dataju/web/datasetInstanceDetail/128

http://dataju.cn/Dataju/web/datasetInstanceDetail/176

http://dataju.cn/Dataju/web/datasetInstanceDetail/278

http://dataju.cn/Dataju/web/datasetInstanceDetail/294

http://dataju.cn/Dataju/web/datasetInstanceDetail/295

http://dataju.cn/Dataju/web/datasetInstanceDetail/41

http://dataju.cn/Dataju/web/datasetInstanceDetail/105

http://dataju.cn/Dataju/web/datasetInstanceDetail/106

http://dataju.cn/Dataju/web/datasetInstanceDetail/106

http://dataju.cn/Dataju/web/datasetInstanceDetail/254

http://dataju.cn/Dataju/web/datasetInstanceDetail/255

http://dataju.cn/Dataju/web/datasetInstanceDetail/109

http://dataju.cn/Dataju/web/datasetInstanceDetail/114

http://dataju.cn/Dataju/web/datasetInstanceDetail/115

http://dataju.cn/Dataju/web/datasetInstanceDetail/60

http://dataju.cn/Dataju/web/datasetInstanceDetail/61

http://dataju.cn/Dataju/web/datasetInstanceDetail/63

http://dataju.cn/Dataju/web/datasetInstanceDetail/174

http://dataju.cn/Dataju/web/datasetInstanceDetail/256

http://dataju.cn/Dataju/web/datasetInstanceDetail/301

http://dataju.cn/Dataju/web/datasetInstanceDetail/118

http://dataju.cn/Dataju/web/datasetInstanceDetail/111

http://dataju.cn/Dataju/web/datasetInstanceDetail/127

http://dataju.cn/Dataju/web/datasetInstanceDetail/172

http://dataju.cn/Dataju/web/datasetInstanceDetail/71

 

http://dataju.cn/Dataju/web/datasetInstanceDetail/62

http://dataju.cn/Dataju/web/datasetInstanceDetail/70

http://dataju.cn/Dataju/web/datasetInstanceDetail/54

http://dataju.cn/Dataju/web/datasetInstanceDetail/46

http://dataju.cn/Dataju/web/datasetInstanceDetail/42

http://dataju.cn/Dataju/web/datasetInstanceDetail/53

http://dataju.cn/Dataju/web/datasetInstanceDetail/72

http://dataju.cn/Dataju/web/datasetInstanceDetail/72

http://dataju.cn/Dataju/web/datasetInstanceDetail/69

http://dataju.cn/Dataju/web/datasetInstanceDetail/117

http://dataju.cn/Dataju/web/datasetInstanceDetail/237

http://dataju.cn/Dataju/web/datasetInstanceDetail/238

http://dataju.cn/Dataju/web/datasetInstanceDetail/239

http://dataju.cn/Dataju/web/datasetInstanceDetail/108

http://dataju.cn/Dataju/web/datasetInstanceDetail/68

http://dataju.cn/Dataju/web/datasetInstanceDetail/50

http://dataju.cn/Dataju/web/datasetInstanceDetail/131

http://dataju.cn/Dataju/web/datasetInstanceDetail/87

http://dataju.cn/Dataju/web/datasetInstanceDetail/119

http://dataju.cn/Dataju/web/datasetInstanceDetail/120

http://dataju.cn/Dataju/web/datasetInstanceDetail/122

http://dataju.cn/Dataju/web/datasetInstanceDetail/123

http://dataju.cn/Dataju/web/datasetInstanceDetail/130

http://dataju.cn/Dataju/web/datasetInstanceDetail/140

http://dataju.cn/Dataju/web/datasetInstanceDetail/170

http://dataju.cn/Dataju/web/datasetInstanceDetail/175

http://dataju.cn/Dataju/web/datasetInstanceDetail/189

http://dataju.cn/Dataju/web/datasetInstanceDetail/125

http://dataju.cn/Dataju/web/datasetInstanceDetail/126

http://dataju.cn/Dataju/web/datasetInstanceDetail/177

http://dataju.cn/Dataju/web/datasetInstanceDetail/178

http://dataju.cn/Dataju/web/datasetInstanceDetail/179

http://dataju.cn/Dataju/web/datasetInstanceDetail/181

http://dataju.cn/Dataju/web/datasetInstanceDetail/197

 

http://dataju.cn/Dataju/web/datasetInstanceDetail/281

http://dataju.cn/Dataju/web/datasetInstanceDetail/280

http://dataju.cn/Dataju/web/datasetInstanceDetail/279

http://dataju.cn/Dataju/web/datasetInstanceDetail/77

http://dataju.cn/Dataju/web/datasetInstanceDetail/289

http://dataju.cn/Dataju/web/datasetInstanceDetail/132

http://dataju.cn/Dataju/web/datasetInstanceDetail/84

http://dataju.cn/Dataju/web/datasetInstanceDetail/241

 

6

http://dataju.cn/Dataju/web/datasetInstanceDetail/147

http://dataju.cn/Dataju/web/datasetInstanceDetail/133

http://dataju.cn/Dataju/web/datasetInstanceDetail/134

 

http://dataju.cn/Dataju/web/datasetInstanceDetail/144

http://dataju.cn/Dataju/web/datasetInstanceDetail/135

http://dataju.cn/Dataju/web/datasetInstanceDetail/136

http://dataju.cn/Dataju/web/datasetInstanceDetail/137

http://dataju.cn/Dataju/web/datasetInstanceDetail/148

http://dataju.cn/Dataju/web/datasetInstanceDetail/125

http://dataju.cn/Dataju/web/datasetInstanceDetail/126

http://dataju.cn/Dataju/web/datasetInstanceDetail/141

http://dataju.cn/Dataju/web/datasetInstanceDetail/157

http://dataju.cn/Dataju/web/datasetInstanceDetail/146

http://dataju.cn/Dataju/web/datasetInstanceDetail/244

http://dataju.cn/Dataju/web/datasetInstanceDetail/245

http://dataju.cn/Dataju/web/datasetInstanceDetail/246

 

http://dataju.cn/Dataju/web/datasetInstanceDetail/247

http://dataju.cn/Dataju/web/datasetInstanceDetail/248

http://dataju.cn/Dataju/web/datasetInstanceDetail/223

http://dataju.cn/Dataju/web/datasetInstanceDetail/159

http://dataju.cn/Dataju/web/datasetInstanceDetail/151

http://dataju.cn/Dataju/web/datasetInstanceDetail/150

http://dataju.cn/Dataju/web/datasetInstanceDetail/152

http://dataju.cn/Dataju/web/datasetInstanceDetail/156

http://dataju.cn/Dataju/web/datasetInstanceDetail/243

http://dataju.cn/Dataju/web/datasetInstanceDetail/200

http://dataju.cn/Dataju/web/datasetInstanceDetail/186

 

7

http://dataju.cn/Dataju/web/datasetInstanceDetail/164

http://dataju.cn/Dataju/web/datasetInstanceDetail/251

http://dataju.cn/Dataju/web/datasetInstanceDetail/252

http://dataju.cn/Dataju/web/datasetInstanceDetail/194

http://dataju.cn/Dataju/web/datasetInstanceDetail/191

http://dataju.cn/Dataju/web/datasetInstanceDetail/96

http://dataju.cn/Dataju/web/datasetInstanceDetail/96

http://dataju.cn/Dataju/web/datasetInstanceDetail/96

 

8

http://dataju.cn/Dataju/web/datasetInstanceDetail/93

http://dataju.cn/Dataju/web/datasetInstanceDetail/90

http://dataju.cn/Dataju/web/datasetInstanceDetail/78

http://dataju.cn/Dataju/web/datasetInstanceDetail/78

http://dataju.cn/Dataju/web/datasetInstanceDetail/94

http://dataju.cn/Dataju/web/datasetInstanceDetail/92

http://dataju.cn/Dataju/web/datasetInstanceDetail/89

Multi-Domain Sentiment V2.0 http://dataju.cn/Dataju/web/datasetInstanceDetail/205

http://dataju.cn/Dataju/web/datasetInstanceDetail/205

Yale Youtube Vedio Text http://dataju.cn/Dataju/web/datasetInstanceDetail/221

http://dataju.cn/Dataju/web/datasetInstanceDetail/221

http://dataju.cn/Dataju/web/datasetInstanceDetail/212

http://dataju.cn/Dataju/web/datasetInstanceDetail/268

http://dataju.cn/Dataju/web/datasetInstanceDetail/269

http://dataju.cn/Dataju/web/datasetInstanceDetail/277

http://dataju.cn/Dataju/web/datasetInstanceDetail/285

http://dataju.cn/Dataju/web/datasetInstanceDetail/272

http://dataju.cn/Dataju/web/datasetInstanceDetail/288

http://dataju.cn/Dataju/web/datasetInstanceDetail/334

http://dataju.cn/Dataju/web/datasetInstanceDetail/201

 

9

http://dataju.cn/Dataju/web/datasetInstanceDetail/267

http://dataju.cn/Dataju/web/datasetInstanceDetail/209

http://dataju.cn/Dataju/web/datasetInstanceDetail/202

http://dataju.cn/Dataju/web/datasetInstanceDetail/233

http://dataju.cn/Dataju/web/datasetInstanceDetail/231

http://dataju.cn/Dataju/web/datasetInstanceDetail/222

http://dataju.cn/Dataju/web/datasetInstanceDetail/219

http://dataju.cn/Dataju/web/datasetInstanceDetail/218

http://dataju.cn/Dataju/web/datasetInstanceDetail/217

http://dataju.cn/Dataju/web/datasetInstanceDetail/273

http://dataju.cn/Dataju/web/datasetInstanceDetail/274

http://dataju.cn/Dataju/web/datasetInstanceDetail/215

http://dataju.cn/Dataju/web/datasetInstanceDetail/211

http://dataju.cn/Dataju/web/datasetInstanceDetail/224

http://dataju.cn/Dataju/web/datasetInstanceDetail/224

http://dataju.cn/Dataju/web/datasetInstanceDetail/224

http://dataju.cn/Dataju/web/datasetInstanceDetail/226

http://dataju.cn/Dataju/web/datasetInstanceDetail/216

http://dataju.cn/Dataju/web/datasetInstanceDetail/259

http://dataju.cn/Dataju/web/datasetInstanceDetail/260

http://dataju.cn/Dataju/web/datasetInstanceDetail/262

http://dataju.cn/Dataju/web/datasetInstanceDetail/263

http://dataju.cn/Dataju/web/datasetInstanceDetail/264

http://dataju.cn/Dataju/web/datasetInstanceDetail/265

http://dataju.cn/Dataju/web/datasetInstanceDetail/267

http://dataju.cn/Dataju/web/datasetInstanceDetail/353

http://dataju.cn/Dataju/web/datasetInstanceDetail/358

http://dataju.cn/Dataju/web/datasetInstanceDetail/351

http://dataju.cn/Dataju/web/datasetInstanceDetail/352

 

10

http://dataju.cn/Dataju/web/datasetInstanceDetail/370

http://dataju.cn/Dataju/web/datasetInstanceDetail/296

http://dataju.cn/Dataju/web/datasetInstanceDetail/297

http://dataju.cn/Dataju/web/datasetInstanceDetail/298

Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299

http://dataju.cn/Dataju/web/datasetInstanceDetail/300

http://dataju.cn/Dataju/web/datasetInstanceDetail/318

http://dataju.cn/Dataju/web/datasetInstanceDetail/328

http://dataju.cn/Dataju/web/datasetInstanceDetail/332

http://dataju.cn/Dataju/web/datasetInstanceDetail/331

http://dataju.cn/Dataju/web/datasetInstanceDetail/368

 

Kaggle

 

书籍推荐数据集(goodreads/上万图书/百万评价)【Kaggle】

https://www.kaggle.com/zygmunt/goodbooks-10k

 

带有预期点数和获胜概率的NFL比赛详情数据集(2009-2016)【Kaggle】

https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016

 

HackerNews数据集(2006年以来约1/4文章) 【Kaggle】

https://www.kaggle.com/hacker-news/hacker-news-corpus

 

酒店评价数据集【Kaggle】

https://www.kaggle.com/datafiniti/hotel-reviews

 

1950年以来NBA球员状态&表现数据集【Kaggle】

https://www.kaggle.com/drgilermo/nba-players-stats

 

开普勒太空望远镜深空星球光强时序数据集【Kaggle】

https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data

 

巴基斯坦无人机袭击数据集(2004-2016)【Kaggle】

https://www.kaggle.com/zusmani/pakistandroneattacks

 

墨尔本房屋市场数据集【Kaggle】

https://www.kaggle.com/anthonypino/melbourne-housing-market

 

1789-2016历任美国总统签署行政命令数据集【Kaggle】

https://www.kaggle.com/nationalarchives/executive-orders

 

来自Stack Overflow平台的Python语言问答数据集【Kaggle】

https://www.kaggle.com/stackoverflow/pythonquestions

 

来自Stack Overflow品台的R语言问答数据集【Kaggle】

https://www.kaggle.com/stackoverflow/rquestions

 

每日海冰范围数据集【Kaggle】

https://www.kaggle.com/nsidcorg/daily-sea-ice-extent-data

 

NIPS(1987-2016)论文数据集【Kaggle】

https://www.kaggle.com/benhamner/nips-papers

 

大学公开数据集

 

(Stanford)69G大规模无人机(校园)图像数据集【Stanford】

http://cvgl.stanford.edu/projects/uav_data/

 

人脸素描数据集【CUHK】

http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html

 

自然语言推理(文本蕴含标记)数据集【NYU】

https://www.nyu.edu/projects/bowman/multinli/

 

Berkeley图像分割数据集BSDS500【Berkeley】

https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html

 

宠物图片(分割)数据集【Oxford】

http://www.robots.ox.ac.uk/~vgg/data/pets/

 

发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】

https://groups.csail.mit.edu/vision/datasets/ADE20K/

 

多模态二元行为数据集【GaTech】

http://www.cbi.gatech.edu/mmdb/

 

▍计算机视觉/图像/视频数据集:

 

Fashion-MNIST风格服饰图像数据集【肖涵】

https://github.com/zalandoresearch/fashion-mnist

 

大型(50万)LOGO标志数据集

https://data.vision.ee.ethz.ch/cvl/lld/

 

4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】

http://dfaust.is.tue.mpg.de

 

基于MNIST的视觉计数合成数据集Counting MNIST

http://fomoro.com/tools/counting-mnist/

 

YouTube MV视频数据集【Keunwoo Choi】

https://github.com/keunwoochoi/YouTube-music-video-5M

 

计算机视觉合成数据集/工具大列表【unrealcv】

https://github.com/unrealcv/synthetic-computer-vision

 

动物属性标记数据集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】

http://cvml.ist.ac.at/AwA2/

 

日本漫画数据集Manga109

http://dl.acm.org/citation.cfm?doid=3011549.3011551

 

俯拍舞蹈视频数据集

http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/

 

Pixiv(着色)图片数据集【Jerry Li】

https://github.com/jerryli27/pixiv_dataset

 

e-VDS视频数据集

https://engineering.purdue.edu/elab/eVDS/#download

 

Quick, Draw!简笔画涂鸦数据集

https://github.com/googlecreativelab/quickdraw-dataset

 

简笔画涂鸦数据集【hardmaru】

https://github.com/hardmaru/sketch-rnn-datasets

 

服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】

http://files.is.tue.mpg.de/classner/gp/

 

COCO像素级标注数据集

https://github.com/nightrome/cocostuff

 

大规模街道级图片(分割)数据集【Peter Kontschieder】

http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

 

大规模日语图片描述数据集

https://github.com/STAIR-Lab-CIT/STAIR-captions

 

Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)

https://github.com/mcordts/cityscapesScripts

 

(街头)时尚服饰数据集(2000+标注图片)

https://github.com/bearpaw/clothing-co-parsing

 

PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】

https://github.com/bodokaiser/piwise

 

Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】

https://www.re-work.co/blog/the-something-something-video-dataset

 

▍文本/评价/问答/自然语言数据集:

 

(20万)英文笑话数据集【TaivoPungas】

https://github.com/taivop/joke-dataset

 

机器学习保险行业问答开放数据集【HainWang】

https://github.com/shuzi/insuranceQA

 

保险行业问答(QA)数据集【Minwei Feng】

https://github.com/shuzi/insuranceQA

 

Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】

https://github.com/keunwoochoi/YouTube-music-video-5M

 

实体/名词语义关系标记数据集【David S. Batista】

https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets

 

NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理)

http://lic.nlp.cornell.edu/nlvr/

 

2.8万文章/10万问题大规模(英语考试)阅读理解数据集

https://github.com/qizhex/RACE_AR_baselines

 

错误拼写数据集

http://www.dcs.bbk.ac.uk/~ROGER/corpora.html

 

文本简化数据集

http://www.cs.pomona.edu/~dkauchak/simplification/

 

英语词/句/语义框架框架标注数据集FrameNet

https://framenet.icsi.berkeley.edu/fndrupal/

 

(又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】

https://github.com/niderhoff/nlp-datasets

 

跨语种/多样式/多粒度文本相似性检测数据集

https://github.com/FerreroJeremy/Cross-Language-Dataset

 

Quora数据集:400000行潜在重复问题

http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

 

文本分类数据集

http://disi.unitn.it/moschitti/corpora.htm

 

Frames:Maluuba对话数据集

https://datasets.maluuba.com/Frames/dl

 

跨域(Amazon商品评论)情感数据集

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

 

语义网机器学习系统评价/基准数据集集合

http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml

 

▍其它数据集

 

数据科学/机器学习数据集汇总

https://elitedatascience.com/datasets

 

CORe50:连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】

https://vlomonaco.github.io/core50/

 

(Matlab)数据集统计分布自动发现【Isabel Valera】

http://proceedings.mlr.press/v70/valera17a.html

 

(建筑物)损害评估数据集【tsunami】

https://github.com/faiton713/ABCDdataset

 

IndieWeb社交图谱数据集【IndieWeb】

http://www.indiemap.org

 

DeepMind开源环境/数据集/代码集合【DeepMind】

https://deepmind.com/research/open-source/

 

鸟叫声数据集【xeno-canto】

http://www.xeno-canto.org

 

Wolfram数据集仓库

https://datarepository.wolframcloud.com

 

大型音乐分析数据集FMA

https://github.com/mdeff/fma

 

(300万)Instacart在线杂货购物数据集【Jeremy Stanley】

https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

 

用于欺诈检测的合成财务数据集【TESTIMON】

https://www.kaggle.com/ntnu-testimon/paysim1

 

NSynth:大规模高质量音符标记音频数据集

https://magenta.tensorflow.org/datasets/nsynth

标签: v70传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台