作者|Towards AI Team 编译|Flin 来源|medium
此资源不断更新。如果您知道任何其他合适和开放的数据集,请通过电子邮件通知我们: 或在下面发表评论。
数据集搜索器
:与Google Scholar类似的工作方法,Dataset Search 无论是出版商的网站、数字图书馆还是作者的网页,你都可以在任何托管地点找到数据集。它是一个非凡的数据集搜索器,包含2500多万个数据集。
- https://toolbox.google.com/datasetsearch
:Kaggle对于热衷于此的专家来说,提供一个庞大的数据集容器就足够了。
- https://www.kaggle.com/
:UCI机器学习库为开源数据集提供了最新的资源。
- http://mlr.cs.umass.edu/ml/
:计算机视觉数据集按类别搜索;允许搜索查询。
- https://www.visualdata.io/
:通过在CMU收集的Wang Huajin Wang,发现高质量的数据集。
- https://guides.library.cmu.edu/machine-learning/datasets
一般数据集
住房数据集
:包括美国人口普查局收集的波士顿住房信息。StatLib从档案中获得的算法在整个文献中被广泛用于基准测试。
- https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
地理数据集
:用于地标识别和检索的改进数据集。该数据集包含来自世界各地的500万张20万多个地标图片,由Wiki Commons社区提供和注释。
- https://www.kaggle.com/xiuchengwang/python-dataset-download
机器学习数据集:
购物中心的客户数据集包括访问特定城市购物中心的人的信息。数据集由性别、客户等不同列组成id、年龄、年收入和支出分数。它通常用于根据年龄、收入和兴趣细分客户。
- https://www.kaggle.com/shwetabh123/mall-customers
:IRIS数据集是初学者友好的简单数据集,包括花瓣和萼片宽度。数据分为三类,每类50行。通常用于分类和回归建模。
- https://archive.ics.uci.edu/ml/datasets/Iris
:这是一个手写数字数据集。它包含6万个训练图像和1万个测试图像。这是一个完美的数据集,开始实现图像分类,你可以从0到9对数字进行分类。
- http://yann.lecun.com/exdb/mnist/
:包括美国人口普查局收集的波士顿住房信息。StatLib从档案中获得的算法在整个文献中被广泛用于基准测试。
- https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
:它是一个CSV有7796行文件和四列。有四列:新闻、标题、新闻文本和结果。
- https://www.kaggle.com/c/fake-news/data
:该数据集包含关于葡萄酒的不同化学信息。数据集适用于分类和回归任务。
- https://archive.ics.uci.edu/ml/datasets/wine quality
:这是初学者的基本数据集。它只包含2.5万18岁不同人类的身高和体重。这个数据集可以用来建立一个模型来预测一个人的身高或体重。
- http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights
:该数据集包括姓名、年龄、性别、船上兄弟姐妹数量等信息,以及其他培训和测试的信息。
- https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html
:该数据集包含信用卡交易;它们被标记为欺诈或真实性。对于拥有交易系统的公司来说,建立一个测试欺诈活动的模型是非常重要的。
- https://www.kaggle.com/mlg-ulb/creditcardfraud
计算机视觉数据集
:xView它是最大的空中图像公开数据集之一。它包含来自世界各地复杂场景的图像,并使用边界框进行注释。
- http://xviewdataset.org/#dataset
:最大的计算机视觉图像数据集。WordNet它提供了一个可访问的图像数据库,它是分层组织的。
- http://image-net.org/
:Youtube视频url大规模数据集。包括以人为本的行动。它包含70多万个视频。
- https://deepmind.com/research/open-source/open-source-datasets/kinetics/
:一个来自谷歌人工智能的巨大数据集,包含1000多万张图片。
- https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
:这是计算机视觉项目的开源数据集。它包含了50个不同城市街道拍摄的视频序列的高质量像素级注释。该数据集可用于语义分割和训练深层神经网络,以了解城市场景。
- https://www.cityscapes-dataset.com/
:imdbwiki数据集是具有性别和年龄标签的人脸图像最广泛的开源数据集之一。图片来自IMDB和Wikipedia。它有500多万个标签图像。
- https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
:该数据集包含一个CSV有865个颜色名称及其相应的文件RGB(红、绿、蓝)值。它还有16进制值的颜色。
- https://github.com/codebrainz/color-names/blob/master/output/colors.csv
:它包含20580张图片和120个不同品种的狗。
- http://vision.stanford.edu/aditya86/ImageNetDogs/
情绪分析数据集
:该数据集专门用于情绪分析。数据集包括3000多个负面词汇和2000多个积极情绪词汇。
- http://www.lexicoder.com/
:一个趣的数据集,包含来自Kaggle的50000多个电影评论。
- https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
:带情绪注释的标准情绪数据集。
- http://nlp.stanford.edu/sentiment/code.html
:2015年2月美国航空公司Twitter数据,分为正面、负面和中性推文
- https://www.kaggle.com/crowdflower/twitter-airline-sentiment
自然语言处理(NLP)数据集
:问答数据集,具有自然的、多跳的问题,并对事实进行严格监督,以实现更易于解释的问答系统。
- https://hotpotqa.github.io/
:来自亚马逊的庞大数据集,包含超过4500万条亚马逊评论。
- https://snap.stanford.edu/data/web-Amazon.html
:超过48万评论档案(新鲜或腐烂)。
- https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view
:一个由5574条英语短信垃圾信息组成的数据集。
- http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
:它包含超过150个用户的大约50万封电子邮件。
- https://www.cs.cmu.edu/~enron/
:它包含来自流行网站的各种数据集,如Goodreads书评、亚马逊产品评论、调酒数据、社交媒体数据以及其他用于构建推荐系统的数据集。
- https://cseweb.ucsd.edu/~jmcauley/datasets.html
:将电子邮件分类为垃圾邮件或非垃圾邮件是一项普遍而有用的任务。该数据集包含4601封电子邮件和57封有关电子邮件的元信息。你可以建立模型来过滤垃圾邮件。
- https://archive.ics.uci.edu/ml/datasets/Spambase
:大型电影评论数据集包括来自IMDB网站的电影评论,其中超过25000条评论用于培训,25000条评论用于测试集。
- http://ai.stanford.edu/~amaas/data/sentiment/
自动驾驶(自动驾驶)数据集
:这是来自Waymo员工的一个很棒的数据集资源。包括大量的自动驾驶数据集,足以从零开始训练深度网络。
- https://waymo.com/open/
:最大的自动驾驶汽车数据集之一,包含纽约和加利福尼亚州超过2000小时的驾驶体验。
- http://bdd-data.berkeley.edu/
:用于深入学习的小交通灯数据集。
- https://hci.iwr.uni-heidelberg.de/node/6132
:另一个红绿灯数据集。这个数据集是从巴黎收集的。
- http://www.lara.prd.fr/benchmarks/trafficlightsrecognition
:用于交通灯、行人和车道检测的数据集。
- http://computing.wpi.edu/dataset.html
:它包含诸如车速、加速度、转向角和GPS坐标等详细信息。
- https://archive.org/details/comma-dataset
:年龄实验室收集的1000多小时多传感器驾驶数据集的样本。
- http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/
:该数据集包括交通标志、车辆检测、交通灯和轨迹模式。
- http://cvrr.ucsd.edu/LISA/datasets.html
:这是一个广泛的数据集,包含50个不同城市的街道场景。
- https://www.cityscapes-dataset.com/
临床数据集
:艾伦人工智能研究所(Allen Institute of AI research)发布了一个庞大的研究数据集,包含了45000多篇关于COVID-19的学术文章。
- https://www.semanticscholar.org/cord19
:由麻省理工学院计算生理学实验室开发的公开可用数据集,包括与约40000名危重病人相关的未识别健康数据。它包括人口统计、生命体征、实验室检查、药物治疗等。
- https://mimic.physionet.org/
推荐系统的数据集
:它包含来自MovieLens网站的分级数据集。
- https://grouplens.org/datasets/movielens/
:它包含了来自73421个用户的100个笑话的410万个连续评级(-10.00到+10.00)。它主要用于协同过滤。
- http://www.ieor.berkeley.edu/~goldberg/jester-data/
:它可以用于协作和基于内容的过滤。
- https://www.kaggle.com/c/msdchallenge#description
尾注:
如果你知道其他高质量、免费的数据集,你会推荐给人们用于机器学习、深度学习、数据科学等的研究和应用。请随时在下面的评论中提出建议,或直接发送电子邮件至 。
如果推荐理由是可靠的,我们将对其进行分析,并将其列入此列表。另外,请在评论部分告诉我们你使用这些数据集的经验。
参考和来源
[1] The 50 Best Free Datasets for Machine Learning, Lionbridge AI, https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/
[2] Google Cloud Public Datasets, Google, https://cloud.google.com/public-datasets/
[3] Machine Learning and AI Datasets, Carnegie Mellon University, https://guides.library.cmu.edu/c.php?g=844845&p=6191907
[4] Big Data and AI: 30 Amazing and Free Public Data Sources, Forbes, https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec
[5] Awesome Autonomous Vehicles Datasets, Github, https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets
[6] Fueling the Gold Rush, The Greatest Public Datasets for AI, StartupGrind, https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2
[7] Places to Find Free Datasets for Data Science Projects, Dataquest, https://www.dataquest.io/blog/free-datasets-for-projects/
[8] The Best Datasets for Natural Language Processing, Gengo AI, https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/
[9] Awesome Public Datasets, Github, https://github.com/awesomedata/awesome-public-datasets#machinelearning
[10] StatLib Datasets Archive, Carnegie Mellon, http://lib.stat.cmu.edu/datasets/
[11] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/index.html
[12] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html
[13] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/
[14] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets
[15] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/
[16] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/
[17] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab
[18] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley.edu/open-data-sets/
[19] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/
[20] Machine Learning Datasets and Project Ideas — Work on real-time Data Science Projects | Data Flair | https://data-flair.training/blogs/machine-learning-datasets/
原文链接:https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f
欢迎关注磐创AI博客站: http://panchuang.net/
sklearn机器学习中文官方文档: http://sklearn123.com/
欢迎关注磐创博客资源汇总站: http://docs.panchuang.net/