来源:大数据DT 本文约2680字,干货满满。建议阅读5分钟,了解如何找到要使用的数据集。AI在广阔的领域和它可以应用的大量问题中,两者都是非常主观的,但也有一些共同的真理和建议。
对于常见的问题,有很多地方可以开始你的搜索。
就像谷歌学术一样(Google Scholar)用于研究论文,Google Dataset Search用于数据集。谷歌搜索的应用无处不在。这是理解特定主题的绝佳起点。谷歌还管理其通用公共数据存储库,称为Google Public Data,亚马逊也有自己的AWS数据注册中心。
Kaggle.com它是一个致力于数据科学的在线社区。它有一个由社区和组织贡献的大型数据集存储库,包括大量的主题供您选择。该网站仍然是通过竞争或讨论学习数据分析细节的重要资源。
研究机构通常向公众发布科学数据。如果你需要敏感的人类数据(如果你确信你已经匿名了),这将特别有用。在澳大利亚,我们有澳大利亚统计局、联邦科学与工业研究机构等(CSIRO)甚至还有一个在线门户,用于访问所有政府数据,称为data.gov.au。
在世界其他地方,著名的机构包括NASA、NOAA NIST、CDC、WHO、UNICEF、CERN、Max Planck Institute、CNR、EPA等。
同样,许多国家或地区都有中央政府数据存储库,例如data.gov(美国)、open.canada.ca、data.govt.nz、data.europa.eu和data.gov.uk等。
一些非科学目的公司,如果能够进行内部研究或被要求进行内部研究,甚至会发布数据库。世界银行和国际货币基金组织(IMF)这是一个很好的例子,它们已经成为开放金融和大众数据的主要来源。
在允许的情况下,从信誉良好的组织采购数据是保证准确性、覆盖范围和适用价值类型和格式的绝佳途径。
FiveThirtyEight和BuzzFeed这样的新闻网站提供从公众调查和关键文章收集的数据,从重要的社会和政治数据(网络审查、政府监控、枪支、医疗保健等),到体育和其他内容的分数或舆论测试。
Reddit的/r/datasets这是一个共享信息的好地方。你可以浏览人们发布的有趣的东西,或者在特定的问题上寻求帮助。甚至有一些好的元信息,比如每个开放数据门户的详细列表。当您浏览时Reddit的时候,/r/MachineLearning也是不错的选择。
有时候,随机爱好者真的会为你服务。作者最喜欢的网站是Jonathan’s Space Home Page,哈佛大学史密森天体物理学中心的天体物理学家之一,保存了网站上发射到太空的所有物体的广泛列表。只是作为一个附带项目,太棒了。
数据略显不寻常的另一个重要来源是整数数列在线大全(OEIS),它是各种数字列及其附加信息(如图或用于生成列的公式)的巨大集合。因此,如果你对卡塔兰数感到好奇或想知道忙碌的海狸问题,OEIS帮你排序。
还有无数的网站致力于成为开放政府和重要研究出版物中使用的学术数据集的中央注册中心。
这可能解释了这一点:数据无处不在。我们一直在创造更多的东西,许多人和组织都致力于让它对我们所有人都有用。个人对数据源的偏好是基于时间和经验,因此应该进行广泛的探索和实验。
在开始搜索之前,有一个清晰的计划,知道你需要什么来建模你想要解决的问题。考虑以下因素:
数据中显示的值及其类型
收集数据的个人或组织
采集数据的方法(如果知道的话)
收集数据的时间范围
单独收集是否足以解决你的问题。如果没有,是否容易合并其他来源?
准备好的数据集通常需要修改以适用于其他用途。这样,即使数据是干净的(应该验证以防万一),也可能需要进行一些数据转换。为了确保输出质量,您应该从这里观察通常的数据准备步骤。
请记住,在某种程度上,可能需要一些额外或不同格式的信息来产生预期的结果。预构建的数据集是一个很好的起点,但它永远不应该被免除:修改或更换不合适的数据集,即使你需要在短期内做很多工作。
要从头开始创建数据集,你必须从某个地方获取原始数据。这些工作通常分为三个主要维度:记录和收集数据三个主要维度。
每个国家都有自己关于数据集收集、存储和维护的法律法规。本节描述的一些方法在一个地区可能是合法的,但在下一个地区是非法的。不检查数据集数据集的合法性,就不能采取任何行动来获取数据集。通过数据捕获或跟踪观察你不拥有的在线内容,会在世界上的一些地方造成严重的惩罚,无论你是否知道,无论你的目的是什么。不值得做。
法律上可能不明确其他方法,如从公共场所收集照片或视频,或为其他目的提供数据的所有权。
即使数据集有许可证表明您可以使用所需的数据,您也应该仔细考虑在拥有数据后收集数据的方法和职责。您所在地区的法律总是优先于授予您数据权限的许可证。
根据经验,如果不是你自己创建的数据,你就不会拥有它(即使你确实创建了它,你也可能不会拥有它)。因此,除非你得到明确的许可,否则你不能收集或使用它。
数据记录是一流的数据收集:您正在观察一些现象和属性,并记录您自己独特的数据。这可以通过物理设备(如传感器或相机)或数字观察设备(如网络追踪器或爬虫)来完成。
您可以在特定位置收集动作或环境条件的数据,记录您想要识别的不同对象的图像,或记录Web预测用户行为的服务流量。
对于以前可能没有观察到的主题,你可以使用这些方法来创建高度有针对性的数据集,但这是最耗时的方法。收集数据的质量也取决于收集数据的设备或方法,因此建议您有一些专业知识。
数据整理是将多个信息源组合起来创建要分析的新数据的实践过程。数据可以从报告中提取,数据可以从不同的在线来源合并或查询API构建其他方法。它以有用的方式整合了许多地方存在的数据。
在某些情况下,整理数据几乎和记录或生成自己的数据一样耗时,但更有可能在难以触及的地方(如海外或私人组织)创建一组数据。
不共享问题初始数据集的公司可能会发表多篇包含所有数据的论文。或者,一个网站不允许您下载每个Y操作用户的记录,并可能允许您查询用户X是否做过无数次Y?
整理数据的质量取决于您在合并源时的注意力。一些数据排序错误可能会危及整个项目,如使用不同测量单位的来源或简单的转录错误。
数据捕获是一种收集大量信息的方法,它们已经存在,但可能没有被观察到,它们可以生成适合使用的结构化数据。这是过去社交媒体分析的主要方式(特别是第三方),但许多平台限制了人们从服务中获取数据或使用数据的能力。
该软件可以加载、观察和下载大量加载、观察和下载大量内容。这些内容通常没有区别Web下载目标,然后调整使用。数据捕获应该是有目的的。
本文转载自公众号大数据DT(ID:hzdashuju)
作者:Mars Geldard, Jonathon Manning, Paris Buttfield-Addison, Tim Nugent
本文摘编自《Swift人工智能实战:从基础理论到AI出版商授权发布驱动应用程序开发。
作者信息:
Mars Geldard,澳大利亚塔斯马尼亚州的研究人员和计算机科学家。
Jonathon Manning,Secret 该实验室位于澳大利亚塔斯马尼亚州,已成立十多年。
Paris Buttfield-Addison,也是计算机科学家和历史学家Secret 联合创始人和实验室产品研发负责人。
Tim Nugent,移动应用程序开发者、游戏设计师和计算机研究者。
编辑:王菁
校对:汪雨晴