资讯详情

数据从哪里找?手把手教你构建数据集

了解如何在哪里找到要使用的数据集是很好的。AI在广阔的领域和它可以应用的大量问题中,两者都是非常主观的,但也有一些共同的真理和建议。

作者:Mars Geldard, Jonathon Manning, Paris Buttfield-Addison, Tim Nugent

来源:大数据DT(ID:hzdashuju)

对于常见的问题,有很多地方可以开始你的搜索。

就像谷歌学术一样(Google Scholar)用于研究论文,用于数据集。谷歌搜索的应用无处不在。这是理解特定主题的绝佳起点。谷歌还管理其通用公共数据存储库,称为,亚马逊也有自己的AWS数据注册中心。

它是一个致力于数据科学的在线社区。它有一个由社区和组织贡献的大型数据集存储库,包括大量的主题供您选择。该网站仍然是通过竞争或讨论学习数据分析细节的重要资源。

如果你需要敏感的人类数据(如果你确信你已经匿名了),这将特别有用。在澳大利亚,我们有澳大利亚统计局、联邦科学与工业研究组织等(CSIRO)甚至还有一个在线门户,用于访问所有政府数据,称为data.gov.au。

在世界其他地方,

同样,许多国家或地区也有,例如data.gov(美国)、open.canada.ca、data.govt.nz、data.europa.eu和data.gov.uk等。

一些有非科学目的的公司,如果能够进行内部研究或被要求进行内部研究,甚至会发布数据库。(IMF)这是一个很好的例子,它们已经成为开放金融和大众数据的主要来源。

在允许的情况下,从信誉良好的组织采购数据是保证准确性、覆盖范围和适用价值类型和格式的绝佳途径。

这样的新闻网站提供从公众调查和关键文章收集的数据,从重要的社会和政治数据(网络审查、政府监控、枪支、医疗保健等),到体育和其他内容的分数或舆论测试。

这是一个共享信息的好地方。你可以浏览人们发布的有趣的东西,或者在特定的问题上寻求帮助。甚至有一些好的元信息,比如每个开放数据门户的详细列表。当您浏览时Reddit的时候,也是不错的选择。

有时候,随机爱好者真的会为你服务。作者最喜欢的网站是,哈佛大学史密森天体物理学中心的天体物理学家之一,保存了网站上发射到太空的所有物体的广泛列表。只是作为一个附带项目,太棒了。

另一个显不寻常的另一个重要来源是(OEIS),它是各种数字列及其附加信息(如图或用于生成列的公式)的巨大集合。因此,如果你对卡塔兰数感到好奇或想知道忙碌的海狸问题,OEIS帮你排序。

还有无数的网站致力于成为开放政府和重要研究出版物中使用的学术数据集的中央注册中心。

这可能说明了这一点:我们每时每刻都在创造更多的东西,而且很多人和组织都致力于让这对我们所有人都有用。个人对数据源的喜好是靠时间和经验建立起来的,因此要广泛地进行探索和实验。

在开始搜索之前,有一个清晰的计划,知道你需要什么来建模你想要解决的问题。在要包含的潜在数据中,

  • 数据中显示的值及其类型。

  • 个人或组织收集数据。

  • 采集数据的方法(如果知道的话)。

  • 收集数据的时间范围。

  • 单独收集是否足以解决你的问题。如果没有,合并其他来源容易吗?

准备好的数据集通常需要修改以适用于其他用途。这样,即使数据是干净的(应该验证以防万一),也可能需要进行一些数据转换。为了确保输出质量,您应该从这里观察通常的数据准备步骤。

请记住,在某种程度上,可能需要一些额外或不同格式的信息来产生预期的结果。预构建的数据集是一个很好的起点,但它永远不应该被免除:修改或更换不合适的数据集,即使你需要在短期内做很多工作。

要从头开始创建数据集,你必须从某个地方获取原始数据。

免责声明

每个国家都有自己的收集、存储和维护数据的法律法规。本节描述的一些方法在一个地区可能是合法的,但在下一个地区是非法的。你永远不能采取任何行动来获取数据集,而不是首先检查数据集的合法性。

通过数据捕获或跟踪观察你没有的在线内容,在世界上的一些地方会受到严厉的惩罚,无论你不知道,或者你这样做的目的是什么。这是不值得的。

法律上可能不明确其他方法,如从公共场所收集照片或视频,或为其他目的提供数据的所有权。

即使数据集有许可证表明您可以使用所需的数据,您也应该仔细考虑在拥有数据后收集数据的方法和职责。您所在地区的法律总是优先于授予您数据权限的许可证。

根据经验,如果不是你自己创建的数据,你就不会拥有它(即使你确实创建了它,你也可能不会拥有它)。因此,除非你得到明确的许可,否则你不能收集或使用它。

数据记录是一流的数据收集:这可以通过物理设备(如传感器相机)或数字观测设备(如网络追踪器或爬虫)来完成。

您可以在特定位置收集动作或环境条件的数据,记录您想要识别的不同对象的图像,或记录Web预测用户行为的服务流量。

对于以前可能没有观察到的主题,你可以使用这些方法来创建高度有针对性的数据集,但这是最耗时的方法。收集数据的质量也取决于收集数据的设备或方法,因此建议您有一些专业知识。

从报告中提取数据,从不同的在线源合并数据询API等方法来构建。它将存在于许多地方的数据以一种有用的方式整合在一起。

在某些情况下,整理数据几乎和记录或生成自己的数据一样耗时,但更有可能会创建一组关于发生在难以触及的地方(如海外或私人组织内部)的现象的数据。

不共享某个问题初始数据集的公司可能会发表多篇包含所有数据的论文。或者,一个站点不允许你下载每个做过Y操作的用户的记录,可能会允许你无数次查询用户X是否做过Y?

某些数据整理错误可能危及整个项目,例如合并了使用不同测量单位的来源或发生简单的转录错误等。

数据抓取是一种收集大量信息的方法,这些信息已经存在,但可能没有被观察到,这是过去社交媒体分析的主要方式(尤其是由第三方进行),但许多平台都限制了人们获取数据或使用从其服务中获取的数据的能力。

抓取是用软件来执行的,该软件可以加载、观察和下载大量的内容,这些内容通常是不加区别地从Web目标上下载的,然后就可以对其进行调整以供使用。数据抓取要有目的性。

,来自澳大利亚塔斯马尼亚州的研究者和计算机科学家。

,Secret 实验室的联合创始人兼技术主管,该实验室位于澳大利亚塔斯马尼亚州,已成立十几年了。

,计算机科学家和历史学家,也是Secret 实验室的联合创始人和产品研发负责人。

,移动应用程序开发者、游戏设计师和计算机研究者。

本文摘编自《Swift人工智能实战:从基础理论到AI驱动的应用程序开发》,经出版方授权发布。

延伸阅读《Swift人工智能实战》

点击上图了解及购买

转载请联系微信:DoctorData

本书从实战角度出发,为所有程序员和开发人员提供了使用Swift进行AI和机器学习开发的一站式服务。全书分为三部分:第一部分介绍机器学习和人工智能背后的基础知识;第二部分讨论许多有趣的主题,包括计算机视觉、音频、运动和语言;第三部分详细研究为第二部分的应用程序提供支持的技术。

  • 只有22%的人做对了这道数据分析题,你来试试吗?

  • 数据中台:不是产品,不是技术,到底是什么?(附完整PPT下载)

  • 终于有人把网络爬虫讲明白了

  • 终于有人把搜索引擎讲明白了

在公众号对话框输入以下

查看更多优质内容!

 |  |  |  | |

 |  |  |  | 

 |  |  |  | 

|| | |

据统计,99%的大咖都关注了这个公众号

标签: 传感器imf18

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台