资讯详情

大数据、数据仓库、数据湖、ELT和ETL、数据集成

大数据一词在过去十年中开始出现在词典中,但这个概念本身至少从二战开始就存在。最近,无线连接和互联网 2.0 以及其他技术使大量数据集的管理和分析成为我们所有人的现实。

大数据是指对传统数据处理和数据管理应用程序过于庞大和复杂的数据集。随着移动技术和物联网的出现,大数据越来越受欢迎,因为人们使用他们的设备来生成越来越多的数据。考虑由地理定位服务、网络浏览器历史记录、社交媒体活动甚至健身应用程序生成的数据。

这个术语也可以指收集和分析大量数字信息以生成商业智能的过程。随着数据集的不断增长,应用程序了更多的实时流数据,企业正转向云来存储、管理和分析大数据。

利用大数据与亚马逊竞争

大数据如此重要的是什么?

消费者生活在一个即时期待的数字世界里。从数字销售交易到营销反馈和改进,基于云的商业世界的一切都在迅速发展。所有这些快速交易都以同样的速度生成和编译数据。实时充分利用这些信息通常意味着利用信息获取目标受众 360 全景,或者把客户流失给这样做的竞争对手之间的区别。

管理和使用数据操作的可能性(和潜在陷阱)是无穷无尽的。以下是大数据改变组织的最重要方式:

商业智能

  • 为了造福组织,商业智能旨在描述大数据的摄入、分析和应用,它是争夺现代市场的关键武器。商业智能使组织的大数据代表其产品通过绘制和预测活动和挑战点发挥作用。

创新

  • 通过分析行业和市场上无数互动、模式和异常现象的潜望镜级视图,大数据被用来将新的、有创意的产品和工具推向市场。 想象一下,想象一下,Acme Widget Company查看其大数据图,发现在温暖的天气里,Widget B 中西部的销量几乎是 Widget A 西海岸和南部的销量保持不变。Acme 通过独特的广告,可以开发营销工具,促进中西部市场的社交媒体活动,突出 Widget B 人气和即时可用性。通过这种方式,Acme 它的大数据可以用于新的或定制的产品和广告,限度地提高潜在的利润。

降低所有权成本

几乎每个行业的组织和品牌都在利用大数据开辟新的世界。航运公司依靠它来计算运输时间和设定费率。大数据是开创性科学和医学研究的支柱,具有前所未有的分析和研究能力。它影响了我们的日常生活方式。

五个大数据V( 1)

行业专家通常通过大数据通过 5 V 每一个都应该单独处理,并考虑它与其他部分的交互。

- 为将要使用的数据量制定计划,以及如何以及在哪里存储数据。

- 识别生态系统中所有不同的数据源,并获得正确的工具来吸收它。

- 同样,速度在现代商业中也非常重要。研究和部署正确的技术,以确保大数据图的实时开发尽可能接近。

- 垃圾进出,确保数据准确清洁。

- 并非所有收集的环境信息都同等重要,因此构建一个大数据环境,以易于理解的方式呈现可操作的商业智能。

我们想再加一个:

——根据数据隐私和所有合规法规,还需要解决大数据使用的道德问题。

降低集成大数据的成本

分析、数据仓库和数据湖

大数据实际上是关于新用例和新观点,而不是数据本身。大数据分析是一个过程,检查一个非常大的细粒度数据集,以发现隐藏模式、未知相关性、市场趋势、客户偏好和新的业务洞察力。人们现在可以提出传统数据仓库无法解决的问题,因为它只能存储聚合数据。

Imagine for a minute looking at a painting of Mona Lisa and only seeing big pixels. This is the view you’re getting from customers in a data warehouse.In order to get the fine-grained view of your customers, you’d need to store fine, granular, nano-level data about these customers and use big data analytics like data mining or machine learning to see the fine-grained portrait.

数据湖是一个中央存储库,它以原始的粒度格式保存来自许多来源的大数据。它可以存储结构化、半结构化或非结构化数据,这意味着数据可以以更灵活的格式保存以备将来使用。存储数据时,数据湖会将其与标识符和元数据标签相关联,以加快检索速度。数据科学家可以使用数据湖更快、更准确地访问、准备和分析数据。对于分析专家来说,这个庞大的数据池(以各种非传统格式提供)提供了独特的机会来访问各种用例的数据,例如情绪分析或欺诈检测。

数据湖和数据仓库

处理不常见数据的常用工具 

掌握上述所有内容从基础开始。在大数据的情况下,通常涉及 Hadoop、MapReduce 和 Spark,Apache 软件项目的 3 种产品。

Hadoop是一种开源软件解决方案,旨在处理大数据。Hadoop 中的工具有助于将处理海量数据集所需的处理负载分配到几个或几十万个独立的计算节点上。Hadoop 没有将 PB 的数据移动到一个微小的处理站点,而是相反,大大加快了信息集的处理速度。

顾名思义,MapReduce有助于执行两个功能:编译和组织(映射)数据集,然后将它们细化为用于响应任务或查询的更小、有组织的集。

Spark也是 Apache 基金会的一个开源项目,它是一个用于大规模处理和机器学习的超快速分布式框架。Spark 的处理引擎可以作为独立安装、云服务或任何流行的分布式计算系统(如 Kubernetes 或 Spark 的前身 Apache Hadoop)运行。

来自 Apache 的这些和其他工具是在您的组织中充分利用大数据的最值得信赖的方法之一。

大数据的下一步是什么

随着云技术的爆炸式增长,处理不断增长的数据海洋的需求成为设计数字架构的底层考虑因素。在交易、库存甚至 IT 基础设施可以以纯虚拟状态存在的世界中,良好的大数据方法通过从许多来源摄取数据来创建整体概览,包括:

  • 虚拟网络日志
  • 安全事件和模式
  • 全球网络流量模式
  • 异常检测和解决
  • 合规信息
  • 客户行为和偏好跟踪
  • 地理位置数据
  • 用于品牌情感跟踪的社交渠道数据
  • 库存水平和发货跟踪
  • 影响您的组织的其他特定数据

即使是对大数据趋势最保守的分析也表明现场物理基础设施的不断减少和对虚拟技术的依赖越来越大。随着这种演变,对工具和合作伙伴的依赖将越来越大,这些工具和合作伙伴可以处理机器被模拟它们的位和字节所取代的世界。

大数据不仅仅是未来的重要组成部分,它可能就是未来本身。业务、组织和支持他们的 IT 专业人员完成其使命的方式将继续受到我们存储、移动和理解数据方式的演变的影响。

大数据、云和无服务器计算 

在引入云平台之前,所有的大数据处理和管理都是在本地完成的。Microsoft Azure、Amazon AWS和 Google BigQuery等基于云的平台的引入现在使远程完成数据管理流程成为可能(并且具有优势)。 

无服务器架构上的云计算为企业和组织带来了一系列好处,包括: 

  • - 存储层和计算层都是解耦的,只要您在存储层中保留数据量以及进行所需计算所需的时间,您就需要付费。
  • ——与部署需要数小时到数天的托管集群不同,无服务器大数据应用程序只需几分钟。
  • ——默认情况下,由云服务提供商管理的无服务器架构提供基于服务级别协议 (SLA) 的容错和可用性。所以不需要管理员。
  • ——定义的自动扩展规则可以根据工作负载扩展和扩展应用程序。这有助于显着降低加工成本。

选择大数据工具

大数据集成工具有可能大大简化这个过程。您应该在大数据工具中寻找的功能是:

  • :世界上有许多系统和应用程序。您的大数据集成工具拥有的预建连接器越多,您的团队节省的时间就越多。
  • :开源架构通常提供更大的灵活性,同时有助于避免供应商定;此外,大数据生态系统由您想要使用和采用的开源技术组成。
  • :随着公司越来越多地转向混合云模型,重要的是能够一次构建大数据集成并在任何地方运行它们:本地、混合和云中。
  • :大数据集成工具应该易于学习和使用,并带有 GUI 界面,使大数据管道的可视化变得更简单。
  • :您的大数据集成工具提供商不应该要求您增加连接器的数量或数据量。
  • :您的大数据集成工具应该可以在单云、多云或混合云环境中本地运行,能够在容器中运行并使用无服务器计算来最大限度地降低大数据处理的成本并支付您所需要的费用使用而不是闲置的服务器。
  • :大数据通常来自外部世界,相关数据必须在发布给业务用户之前进行策划和治理,否则可能成为公司的巨大负债。选择大数据工具或平台时,请确保其内置数据质量和数据治理。

Talend 的大数据解决方案

我们处理大数据的方法很简单:我们以业务发展的速度提供您可以信赖的数据。我们的目标是为您提供团队所需的所有工具,以从几乎任何来源捕获和集成数据,以便您可以获取其最大价值。 

Talend for Big Data 可帮助数据工程师以比手动编码快 10 倍的速度完成集成工作,而成本却是后者的一小部分。那是因为平台是:

  • :Talend 生成的原生代码可以直接在云中、无服务器方式或大数据平台上运行,无需在每个节点和集群上安装和维护专有软件。向额外的管理费用说“再见”。 
  • :Talend 是开源和基于开放标准的,这意味着我们拥抱来自云和大数据生态系统的最新创新。 
  • :Talend 为数据集成(包括数据质量、MDM、应用程序集成和数据目录)以及与互补技术的互操作性提供单一平台和集成产品组合。
  • :Talend 平台通过订阅许可证提供,基于使用它的开发人员数量与连接器、CPU 或内核、集群或节点数量的数据量。用户定价更容易预测,并且不收取使用产品的“数据税”。

大数据——保持竞争力的关键

知识就是力量,大数据就是知识。 

无论您是需要对业务运营、客户行为还是行业趋势进行更细致的洞察,Talend 都可以帮助您的团队使用大数据来保持领先于数据曲线。下载Talend Big Data Integration 免费试用版, 了解您的大数据可以带来的巨大变化。 

 

什么是数据仓库,为什么它对您的业务很重要?

数据仓库的概念自 1980 年代就已存在,当时开发它的目的是帮助将数据从仅支持运营转变为支持揭示商业智能的决策支持系统。数据仓库中的大量数据来自不同的地方,如营销、销售、财务等内部应用;面向客户的应用程序;和外部合作伙伴系统等。

在技​​术层面上,数据仓库会定期从这些应用程序和系统中提取数据;然后,数据经过格式化和导入过程以匹配仓库中已有的数据。数据仓库存储这些处理过的数据,以便决策者可以访问。数据拉取发生的频率或数据的格式等将根据组织的需求而有所不同。

数据仓库的一些好处

使用数据仓库来协助其分析和商业智能的组织看到了许多实质性的好处:

  •  ——将数据源添加到数据仓库使组织能够确保他们从该源收集一致且相关的数据。他们不需要怀疑数据在进入系统时是否可以访问或不一致。这确保了更高的 数据质量和数据完整性,以做出合理的决策。
  •  ——仓库中的数据格式一致,可以随时进行分析。它还提供分析能力和更完整的数据集,以根据确凿的事实做出决策。因此,决策者不再需要对预感、不完整的数据或质量差的数据做出回应,也不再需要冒着交付缓慢和不准确结果的风险。

数据仓库不是什么

1. 它不是数据库

很容易将数据仓库与数据库混淆 ,因为这两个概念有一些相似之处。但是,主要区别在企业需要对大型数据集合执行分析时生效。数据仓库用于处理此类任务,而数据库则不是。这是一张比较图,可以说明两者之间的区别:

为多种交易目的收集的数据。针对读/写访问进行了优化。 聚合交易数据,为分析目的进行转换和存储。针对大型数据集的聚合和检索进行了优化。
建立数据库是为了快速记录和检索信息。 数据仓库存储来自多个数据库的数据,这使得分析更容易。
数据库用于数据仓库。但是,该术语通常指的是在线事务处理数据库。还有其他类型,包括用于数据库目的的 csv、html 和 Excel 电子表格。 数据仓库是一种分析数据库,它位于事务数据库之上以进行分析。

2. 它不是数据湖

尽管它们都是为业务分析目的而构建的,但数据湖和数据仓库之间的主要区别在于,数据湖以原始格式存储来自所有数据源的所有类型的原始、结构化和非结构化数据,直到需要为止。相比之下,数据仓库以更有条理的方式将数据存储在文件或文件夹中,便于报告和数据分析。

3. 它不是数据集市

数据仓库有时也与数据集市混淆 。但是数据仓库通常更大,包含更多种类的数据,而数据集市的应用受到限制。

数据集市通常是仓库的子集,旨在为特定应用程序轻松地将特定数据交付给特定用户。简单来说,可以将数据集市视为单一主题,而数据仓库涵盖多个主题。

数据仓库的未来:迁移到云

随着企业迁移到云,他们的数据库和数据仓库工具也在迁移。云提供了许多优势:灵活性、协作性和可从任何地方访问,仅举几例。Amazon Redshift、 Microsoft Azure SQL 数据仓库、 Snowflake、 Google BigQuery等流行工具 都为企业提供了存储和分析其云数据的简单方法。

云模型降低了进入门槛——尤其是成本、复杂性和漫长的价值实现时间——这些传统上限制了数据仓库技术的采用和成功使用。它允许组织根据需要扩大或缩小(打开或关闭)数据仓库容量。此外,开始使用云数据仓库既快速又容易。这样做既不需要大量的前期投资,也不需要耗时(而且成本也不低)的部署过程。

云数据仓库架构在很大程度上消除了本地数据仓库范式所特有的风险。您无需为硬件和软件进行预算和采购。您不必为年度维护和支持预留预算项目。在云中,传统上数据仓库团队关注的成本问题——计划内和计划外系统升级的预算——消失了。

数据仓库示例

Beachbody是一家领先的健身、营养和减肥计划供应商,需要更好地为客户提供针对性和个性化的产品,以便为客户带来更好的健康结果,并最终实现更好的业务绩效。

该公司通过在 AWS 上添加一个基于 Hadoop 的云数据湖来改进其分析架构,该湖由Talend Real-Time Big Data 提供支持。这种新架构使 Beachbody 能够将数据采集时间减少 5 倍,同时还提高了营销活动数据库的准确性。

发现数据仓库的力量

通过超越简单的数据库并进入数据仓库世界,组织可以从他们的分析工作中获得更多收益。找到合适的仓储解决方案来满足业务需求,可以在公司为客户提供服务和发展运营方面的效率方面产生巨大的影响。

 

数字世界的规模每年都在翻倍,预计到 2020 年将达到 44 万亿 GB。高达 90% 的数据是非结构化或半结构化的,这带来了双重挑战:找到一种方法来存储所有这些数据并保持快速处理数据的能力。这就是数据湖的用武之地。

什么是数据湖?

大数据它可以存储结构化、半结构化或非结构化数据,这意味着数据可以以更灵活的格式保存以备将来使用。存储数据时,数据湖会将其与标识符和元数据标签相关联,以加快检索速度。

Pentaho 的 CTO James Dixon 创造了术语“数据湖”,指的是数据湖中数据的临时性质,而不是存储在传统数据仓库系统中的干净和处理过的数据。

数据湖通常配置在一组廉价且可扩展的商品硬件上。这允许将数据转储到湖中,以防以后需要它而不必担心存储容量。集群可以存在于本地或云中。

数据湖很容易与数据仓库混淆,但它们具有一些明显的区别,可以为合适的组织带来巨大的好处——尤其是在大数据和大数据流程继续从本地迁移到云的情况下。

数据湖的好处

数据湖的工作原理称为schema-on-read。这意味着在存储之前没有需要将数据拟合到其中的预定义模式。只有在处理过程中读取数据时,才会根据需要将其解析并调整为模式。此功能可节省大量通常用于定义架构的时间。这也使数据能够以任何格式按原样存储。

数据科学家可以使用数据湖更快、更准确地访问、准备和分析数据。对于分析专家来说,这个庞大的数据池——以各种非传统格式提供——提供了访问数据的机会,用于各种用例,如情感分析或欺诈检测。

数据湖与数据仓库

数据湖和数据仓库的基本目的和目标相似,因此很容易混淆:

  • 两者都是整合组织中各种数据存储的存储库。
  • 两者的目标都是创建一个可以输入各种应用程序的一站式数据存储。

但是,两者之间存在根本区别,使它们适用于不同的场景。

  • 模式——数据仓库的模式在存储之前定义和结构化(在写入数据时应用模式)。相比之下,数据湖没有预定义的模式,这允许它以其原生格式存储数据。所以在数据仓库中,大部分数据准备通常发生在处理之前。在数据湖中,它发生在稍后实际使用数据时。
  • ——由于数据在存储之前没有以简化的形式组织,数据湖通常需要一位对各种数据及其关系有透彻了解的专家来阅读它。 相比之下,技术和非技术用户都可以轻松访问数据仓库,因为它具有明确定义和文档化的架构。即使是团队中的新成员,也可以很快开始使用仓库。
  • ——对于数据仓库,不仅最初定义模式需要时间,而且在未来需求发生变化时需要大量资源来修改它。但是,数据湖可以轻松适应变化。此外,随着对存储容量需求的增加,在数据湖集群上扩展服务器变得更加容易。

有关这种区别的更多信息,并帮助确定哪个最适合您的组织,请参阅“数据湖与数据仓库”。→

云数据湖还是本地?

数据湖传统上在本地实施,存储在 HDFS 上,处理 (YARN) 在Hadoop 集群上。Hadoop 具有可扩展性、低成本,并以其数据本地性(数据和计算驻留在一起)的固有优势提供了良好的性能。

但是,创建本地基础架构存在挑战:

  • ——庞大的服务器占用,转化为更高的成本。
  • — 采购硬件和设置数据中心并不简单,可能需要数周或数月才能开始。
  • ——如果需要扩展存储容量,由于空间需求的增加和高级执行官的成本批准,这需要时间和精力。
  • ——由于可扩展性在本地并不容易,因此在项目开始时正确估计硬件需求变得很重要。随着数据每天不系统地增长,这是一项艰巨的任务。
  • — 事实证明,本地成本估算高于云替代方案。

另一方面,云数据湖有助于克服这些挑战。云中的数据湖是:

  • 云不是一种大爆炸的方法,而是允许用户逐步开始。
  • 使用即付即用模式,具有
  • 随着需求的增长扩展,从而消除了估计需求和获得批准的压力。

节省的房地产也增加了成本效益。

了解 BeachBody 如何通过云数据湖提高其数据架构和劳动力的可扩展性:

云数据湖挑战

当然,使用云数据湖存在挑战。由于安全风险,一些组织不喜欢将机密和敏感信息存储在云中。尽管大多数基于云的数据湖供应商多年来都保证安全并增加了保护层,但数据窃取的不确定性仍然迫在眉睫。

另一个实际挑战是一些组织已经建立了数据仓库系统来存储其结构化数据。他们可能会选择将所有数据迁移到云中,或者探索一种混合解决方案,该解决方案使用通用计算引擎访问来自仓库的结构化数据和来自云的非结构化数据。

数据治理是另一个问题。数据湖不应成为难以涉足的数据沼泽。Talend 的平台可确保数据湖保持清洁和可访问。

数据湖架构:Hadoop、AWS 和 Azure

重要的是要记住,数据湖有两个组成部分:存储和计算。存储和计算都可以位于本地或云中。这导致在设计数据湖架构时有多种可能的组合。

组织可以选择完全留在本地,将整个架构迁移到云中,考虑多个云,甚至是这些选项的混合。

这里没有单一的食谱。根据组织的需要,有几个不错的选择。

Hadoop 上的数据湖

许多人将Hadoop与数据湖联系起来。

分布式服务器的Hadoop集群解决了大数据存储的问题。Hadoop 的核心是其存储层 HDFS(Hadoop 分布式文件系统),它跨多个服务器存储和复制数据。YARN(Yet Another Resource Negotiator)是决定如何在每个节点上调度资源的资源管理器。MapReduce 是 Hadoop 用于将数据拆分为更小的子集并在其服务器集群中处理它们的编程模型。

除了这三个核心组件之外,Hadoop 生态系统还包括多个辅助工具,例如 Hive、Pig、Flume、Sqoop 和 Kafka,它们有助于数据的摄取、准备和提取。Hadoop 数据湖可以使用 Cloudera 和 HortonWorks 等企业平台在本地和云中设置。其他云数据湖(例如 Azure)围绕 Hadoop 架构包装功能。

优势:

  • 技术人员更熟悉
  • 更便宜,因为它是开源的
  • 许多 ETL 工具可用于与 Hadoop 集成
  • 易于扩展
  • 数据局部性使计算速度更快

AWS 上的数据湖

AWS为其数据湖解决方案提供了一套详尽的产品。

Amazon Simple Storage Service (Amazon S3) 是提供存储功能的解决方案的核心。Kinesis Streams、Kinesis Firehose、Snowball 和 Direct Connect 是数据摄取工具,允许用户将大量数据传输到 S3。还有一个数据库迁移服务,可帮助将现有的本地数据迁移到云端。

除了 S3,还有 DynamoDB(一种低延迟的 No-SQL 数据库)和 Elastic Search(一种提供简化机制来查询数据湖的服务)。Cognito 用户池定义了用户身份验证和对数据湖的访问。安全令牌服务、密钥管理服务、CloudWatch 和 CloudTrail 等服务确保数据安全。对于处理和分析,有 RedShift、QuickSight、EMR 和机器学习等工具。

AWS 提供的大量产品列表具有陡峭的初始学习曲线。然而,该解决方案的综合功能在商业智能应用程序中得到了广泛的使用。

优势:

  • 详尽且功能丰富的产品套件
  • 根据独特要求灵活挑选产品
  • 低成本
  • 强大的安全性和合规性标准
  • 计算和存储分离以根据需要扩展每个
  • 与 Talend 等 APN(AWS 合作伙伴网络)公司合作确保无缝 AWS 入职

Azure 上的数据湖

Azure是 Microsoft 提供的数据湖。它有一个存储层和一个分析层;存储层称为 Azure Data Lake Store (ADLS),分析层由两个组件组成:Azure Data Lake Analytics 和 HDInsight。

ADLS 建立在 HDFS 标准之上,具有无限的存储容量。它可以存储数万亿个文件,单个文件的大小超过 1 PB。ADLS 允许以任何格式存储数据,并且安全且可扩展。它支持任何使用 HDFS 标准的应用程序。这使得现有数据的迁移更加容易,并且还促进了与其他计算引擎的即插即用。

HDInsight 是一种基于云的数据湖分析服务。它构建在 Hadoop YARN 之上,允许使用 Spark、Hive、Kafka 和 Storm 等工具访问数据。由于与 Azure Active Directory 集成,它支持企业级安全性。

Azure Data Lake Analytics 也是一种分析服务,但其方法不同。它没有使用 Hive 等工具,而是使用一种称为 U-SQL(SQL 和 C# 的组合)的语言来访问数据。它非常适合大数据批处理,因为它以更低的成本提供更快的速度(只需为使用的作业付费)。

优势:

  • 云中的存储和计算都使管理变得简单。
  • 强大的分析服务,强大的功能
  • 易于从现有 Hadoop 集群迁移
  • 许多大数据专家熟悉 Hadoop 及其工具,因此很容易找到熟练的人力资源。
  • 与 Active Directory 的集成确保无需单独努力来管理安全性

其他数据湖资源

有关数据湖如何工作或如何开始的更多详细信息,请查看以下资源:

  • 在云中构建受管控的数据湖
  • 介绍数据湖快速入门
  • 获得数据湖洞察力的秘诀
  • 使用 Talend Cloud 在 Azure 上构建大数据湖的简单架构
  • 释放数据湖力量的 5 个最佳实践

开始使用数据湖

数据湖具有处理速度和多样性的能力,让商业智能用户感到兴奋。现在,有机会将处理过的数据与互联网上可用的主观数据结合起来。

可以筛选 X 射线和 MRI 扫描等机器数据,以确定疾病的因果模式。在物联网应用中,可以以令人难以置信的速度处理大量传感器数据。零售业能够使用关于用户的大量数据来提供全渠道体验。

数据湖不仅可用于高级预测分析应用程序,还可用于定期组织报告,尤其是在涉及不同数据格式时。

这不再是是否需要数据湖的问题,而是使用哪种解决方案以及如何实施它的问题。查看我们的云数据仓库和云数据湖权威指南,了解如何最大化您的数据湖投资。 

ETL 和 ELT 有很多共同点。就其核心而言,每种集成方法都可以将数据从源移动到数据仓库。该差值这两个谎言之间在数据转换以及如何将数据的多少,被保留在工作数据仓库。在本文中,我们将更详细地考虑 ETL 和 ELT,以帮助您确定哪种数据集成方法适合您的业务。 

ETL - 提取、转换、加载

提取/转换/加载 (ETL)是一种集成方法,它从远程源提取信息,将其转换为定义的格式和样式,然后将其加载到数据库、数据源或数据仓库中。

ELT - 提取、加载、转换

提取/加载/转换 ( ELT ) 类似地从一个或多个远程源提取数据,然后将其加载到目标数据仓库中,而无需任何其他格式。ELT 过程中的数据转换发生在目标数据库中。ELT 对远程来源的要求较少,只需要原始和未准备好的数据。

ELT 的演变

ELT 已经存在了一段时间,但重新对Apache Hadoop等工具产生了兴趣 。 像转换 PB 级原始数据这样的大型任务被分成多个小作业,进行远程处理,然后返回加载到数据库中。

处理能力的改进,尤其是虚拟集群,减少了拆分作业的需要。过去分布在云端、处理和返回的大数据任务现在可以在一个地方处理。

每种方法都有其优点。在规划数据架构时,IT 决策者在选择 ETL 或 ELT 时必须考虑内部能力和云技术日益增长的影响。 

ELT 的工作原理(以及何时使用)

与 ETL 不同,提取/加载/转换是从无限数量的来源收集信息、将它们加载到处理位置并将它们转换为可操作的商业智能的过程。

  • ——第一步,提取,在两种数据管理方法中的工作方式相似。来自虚拟基础架构、软件和应用程序的原始数据流被完全或根据预定义的规则摄取。
  • ——这是 ELT 从它的 ETL 表兄弟分支出来的地方。ELT 不是交付大量原始数据并将其加载到临时处理服务器进行转换,而是将其全部交付到它最终将存在的站点。这缩短了提取和交付之间的周期,但意味着在数据变得有用之前还有很多工作要做。
  • — 数据库或数据仓库对数据进行排序和规范化,将部分或全部数据保留在手边,并可用于自定义报告。存储这么多数据的开销更高,但它带来了更多的机会,可以几乎实时地为相关商业智能定制挖掘数据。

ELT 什么时候是正确的选择?

取决于公司现有的网络架构、预算以及它已经利用云和大数据技术的程度,并非总是如此。但是,当以下三个重点领域中的任何一个或所有领域都至关重要时,答案可能是肯定的。

当摄取速度是第一要务时

因为 ELT 不必等待数据在异地工作然后加载,(数据加载和转换可以并行发生)摄取过程要快得多,提供原始信息的速度比 ETL 快得多。

当更多的英特尔更好的英特尔

将数据转化为商业智能的优势在于能够将隐藏的模式转化为可操作的信息。通过保留所有历史数据,组织可以沿着时间线、销售模式、季节性趋势或任何对组织变得重要的新兴指标进行挖掘。由于数据在加载之前没有进行转换,因此您可以访问所有原始数据。通常,云数据湖有一个原始数据存储,然后是一个精炼(或转换)的数据存储。例如,数据科学家更喜欢访问原始数据,而业务用户更喜欢商业智能的规范化数据。>

当你知道你需要扩展时

当您使用 Hadoop 等高端数据处理引擎或云数据仓库时,ELT 可以利用原生处理能力实现更高的可扩展性。

ETL 和 ELT 都是从原始数据生成商业智能的历史悠久的方法。但是,与几乎所有技术一样,云正在改变企业应对 ELT 挑战的方式。

在云中使用 ELT 的好处

云带来了一系列功能,许多行业专业人

标签: 1545s3no接近传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台