机器学习数据集-锐单电子商城

在机器学习中，机器学习中非常重要的一步。高质量或高相关性的数据集对模型训练非常有帮助。

那么机器学习的开放数据集是什么呢？我们推荐一个高质量的数据集，它可能涵盖广泛的范围（例如 Kaggle），或者非常详细(比如自动驾驶汽车的数据)。

首先，在搜索数据集时，在卡内基·梅隆大学有以下说法：

数据集不应该混淆，因为你不想花很多时间清理数据。
数据集不应该有太多的行或列，所以很容易使用。
数据越干净越好 —— 清理大型数据集相当耗时。
数据可以回答一些有趣的问题。

数据集搜索器

Kaggle：Kaggle联合创始人、首席执行官安东尼·高德布卢姆（Anthony Goldbloom）2010年在墨尔本创立的，主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注。

各种数据都可以在这个平台上找到，从拉面得分、篮球数据到西雅图的宠物牌照。

https://www.kaggle.com/

UCI机器学习库（UCI Machine Learning Repository）：这是网络上最早的数据集来源之一，也是寻找各种有趣数据集的首选。虽然用户提供的数据集的清洁度不同，但大多数都是干净的。我们可以 UCI 无需注册，机器学习库直接下载数据。

http://mlr.cs.umass.edu/ml/

VisualData：计算机视觉数据集按类别分组，并支持搜索查询。

https://www.visualdata.io/

公共政府数据集

Data.gov：这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但需要注意的是，许多数据需要进一步研究。

https://www.data.gov/

食品环境地图集（Food Environment Atlas）：如何影响美国饮食的数据。

https://catalog.data.gov/dataset/food-environment-atlas-f4a22

学校系统财务状况（School system finances）：这里有对美国学校系统财务状况的调查。

https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

慢性病数据（Chronic disease data）：美国各地慢性病指标数据。

https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

美国国家教育统计中心（The US National Center for Education Statistics）：来自美国和世界各地的教育机构和教育人口统计数据。

https://nces.ed.gov/

英国数据服务：英国最大的社会、经济和人口数据收集机构。

https://www.ukdataservice.ac.uk/

数据美国（Data USA）：美国公共数据全面可视化。

http://datausa.io/

金融和经济

Quandl：?有许多经济和金融数据，你可以使用这些数据来建立预测经济指标或股价的模型。

https://www.quandl.com/

世界银行开放数据（World Bank Open Data）：数据集涵盖世界各地人口统计、大量经济和发展指标。

https://data.worldbank.org/

货币基金组织的数据（IMF Data）：国际货币基金组织公布了国际金融、债务率、外汇储备、商品价格和投资数据。

https://www.imf.org/en/Data

英国金融时报金融时报市场数据（Financial Times Market Data：）：来自世界各地的最新金融市场信息包括股价指数、商品和外汇。

https://markets.ft.com/data/

谷歌趋势（Google Trends）：观察和分析世界各地互联网搜索活动和新闻故事趋势的数据。

http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

美国经济协会(AEA)：您可以在这里找到美国宏观经济的相关数据。

https://www.aeaweb.org/resources/data/us-macro-regional

机器学习数据集

Labelme：数据集中包含大量标记图像数据。

http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

ImageNet：大型可视化数据库用于视觉对象识别软件的研究。图像超过1400万URL被ImageNet手动注释 WordNet 组织层次结构，其中层次结构的每个节点都由数百幅图像描述。

http://image-net.org/

LSUN：场景理解和许多辅助任务（房间布局估计、显著预测等）

http://lsun.cs.princeton.edu/2016/

MS COCO：对一般图像的理解和文字描述。

http://mscoco.org/

COIL 100：在 360 旋转中以各个角度成像 100 不同的物体。

http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

视觉基因组：配备0的非常详细的视觉知识库万张带有文字描述的图像。

http://visualgenome.org/

谷歌的Open Images：知识共享（Creative Commons）下的900万个图像网址集合，已标注超过6,000个类别的标签。

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

Labelled Faces in the Wild：人脸标记图像13000个，用于开发涉及面部识别的应用程序。

http://vis-www.cs.umass.edu/lfw/

Stanford Dogs Dataset：包括20580张图片和120种不同类型的狗。

http://vision.stanford.edu/aditya86/ImageNetDogs/

室内场景识别（Indoor Scene Recognition）：这是一个非常详细的数据集，因为大多数在户外场景中表现良好的场景识别模型在室内表现不佳，所以这个数据集非常有用。 67 室内类别，共 15,620 张图像。

http://web.mit.edu/torralba/www/indoor.html

情感分析

多域情感分析数据集（Multidomain sentiment analysis dataset）：亚马逊的一些产品评论是历史数据集。

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDB：影评也是历史悠久的二元情感分类数据集，数据规模相对较小。 25,000 电影评论。

http://ai.stanford.edu/~amaas/data/sentiment/

斯坦福情感树银行（Stanford Sentiment Treebank）：带有情感注释的标准情绪数据集。

http://nlp.stanford.edu/sentiment/code.html

Sentiment140:一个流行的数据集，使用16万条推文，删除表情等符号。

http://help.sentiment140.com/for-students/

Twitter 美国航空公司情绪数据集 (Twitter US Airline Sentiment)：自 2015 年 2 自本月以来，美国航空公司 Twitter 数据分为正面、负面和中性推文。

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

安然数据集：安然集团高级管理层的电子邮件数据。

https://www.cs.cmu.edu/~./enron/

亚马逊评论:亚马逊评论3500万条，持续18年。数据包括产品和用户信息、评级等。

https://snap.stanford.edu/data/web-Amazon.html

Google Books Ngram：来自Google书的词汇集合。

https://aws.amazon.com/datasets/google-books-ngrams/

博客语料库：从blogger.cm收集的681，288篇博客文章。每个博客至少包含200个常用的英语单词。

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

维基百科链接数据（Wikipedia Links data）：维基百科全文。该数据集包含来自400多万篇文章，近19亿字。你可以对字、短语或段落本身的一部分进行搜索。

https://code.google.com/p/wiki-links/downloads/list

Gutenberg电子图书列表：Project Gutenberg的附加注释的电子书列表。

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

加拿大议会的文本块（Hansards text chunks of Canadian Parliament）：来自第36届加拿大议会记录的130万对文本。

http://www.isi.edu/natural-language/download/hansard/

危险边缘 (Jeopardy)：来自问答游戏节目《危险边缘》(Jeopardy) 的超过 20 万个问题的存档。

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

英文SMS垃圾邮件收集（SMS Spam Collection in English）：包含5，574条英文垃圾邮件的数据集。

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

Yelp评论（Yelp Reviews）：Yelp发布的一个开放数据集，包含超过500万次评论。

https://www.yelp.com/dataset

UCI的垃圾邮件库（UCI’s Spambase）：一个大型垃圾邮件数据集，用于垃圾邮件过滤。

https://archive.ics.uci.edu/ml/datasets/Spambase

自动驾驶

Berkeley DeepDrive BDD100k：这是目前最大的自动驾驶数据集。里面有超过 1,100 多个小时驾驶体验的视频，包含10 万个在一天中不同时段以及在不同天气条件下的数据。

http://bdd-data.berkeley.edu/

百度 Apolloscapes：大型数据集，定义了26种不同的语义项，如汽车，自行车，行人，建筑物，路灯等。

http://apolloscape.auto/

Comma.ai：超过7个小时的高速公路驾驶视频。里面的数据包括汽车的速度、加速度、转向角和GPS坐标。

https://archive.org/details/comma-dataset

城市景观数据集：记录50个不同城市的城市街道场景的大型数据集。

https://www.cityscapes-dataset.com/

CSSAD数据集：包含自动车辆的感知和导航等数据，但着重于发达国家的道路。

http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

麻省理工学院AGE实验室（MIT AGE Lab:）：在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。

http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA：智能和安全汽车实验室，加州大学圣地亚哥分校数据集：该数据集包括交通标志，车辆检测，交通信号灯和轨迹模式。

http://cvrr.ucsd.edu/LISA/datasets.html

博世小型交通灯数据集（Bosch Small Traffic Light Dataset）：用于深入学习的小交通灯数据集。

https://hci.iwr.uni-heidelberg.de/node/6132

Lara交通灯识别（LaRa Traffic Light Recognition）：巴黎交通灯的数据集。

http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

WPI 数据集：交通灯、行人和车道检测的数据集。

http://computing.wpi.edu/dataset.html

7人点赞技术篇

作者：冰人颜如玉链接：https://www.jianshu.com/p/bc9e3eed22db 来源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

资讯详情

机器学习数据集

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

机器学习数据集

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录