据 Gartner 2022 年度最新趋势分析,。在更早前 IDC 根据与数据存储公司希捷的报告,中国产生的数据量来自 2019 年的约 9.4ZB 将猛增至 2025 年的 48.6ZB。现在,数据工程师需要面对许多不同的分析场景,如越来越复杂和庞大的数据、离线场景/实时场景/流动场景,以及多个数据库技术堆栈的共存和相应的存储计算成本。许多公司的数据团队经常被这些海量数据和各种底层集群和基础设施的要求淹没。
如何降低成本和效率,开放数据分析和存储,提高数据分析的灵活性,降低基础资源的运维成本,已成为技术团队头疼的问题。
在这个时代,控制数据的能力是所有决策者技能清单中最重要的一项。历史告诉我们,在行业中率先掌握新工具的武器是多么重要。
最早的传统和旧的纯数据仓库不再适合半 / 非结构化数据处理;简单的数据湖虽然适合存储数据,但不支持事务处理,不保证数据质量,缺乏一致性和隔离性。
从数据价值出口的角度来看,只有全面应用各种数据价值平台,才能进一步释放大数据的潜力。为了实现数据湖与数据仓库之间的无缝流通,通过不同层次的数据存储和计算,考虑到数据湖的灵活性和数据仓库的增长,促进更有效的工具应用,如亚马逊云技术提出了智能湖仓库架构,帮助企业客户加快大数据价值实现过程。
以亚马逊云制造商亚马逊云技术为例,2020年 亚马逊云科技年 re:Invent 大会上,亚马逊云科技针对数据分析等相关服务推出了“智能湖仓”架构,不过早在 2017 亚马逊于年发布 Amazon Redshift Spectrum,该功能使得 Amazon Redshift 当时有能力打开数据湖和数据仓库,实现跨数据湖和数据仓库的数据查询。此外,在 2021 年 re:Invent 大会上,亚马逊云科技更进一步,在存算分离架构基础上,推出更多
现在没有服务器架构(以 2014 年推出的 Amazon Lambda 代表)已成为云原最热门的技术类别。无服务器应用程序由事件驱动,与技术无关 API 或者松散耦合新闻收发可以让开发者更加关注产品的应用,而不需要管理和维护底层堆栈。目前,借助无服务器的能力,数据分析服务可以让用户更方便地构建数据存储、分析和智能应用解决方案,完全实现无服务器的数据分析服务,完成底层复杂数据的高效处理、流通和共享。
没有时间的沉淀和技术的积累,就无法达到这样的技术水平和高度。如果你想深入了解智能湖仓库,你需要了解它的过去和现在。我们可以看到,亚马逊云技术推出的无服务器数据分析服务经历了几个阶段:
(1)2006 年,亚马逊云技术正式启动 Amazon S3.作为亚马逊的第一款云产品,它提供了各种经济高效的存储和易于使用的管理功能,以满足特定的业务、组织和合规要求。今天的智能湖仓是基于 Amazon S3 构建数据湖,集成数据仓库、大数据处理、日志分析、机器学习等数据服务。Amazon S3 数据湖的可靠性和大容量数据存储能力是确保整个智能湖仓库架构有效应用的基础。对于软件开发人员来说,没有服务器架构 Amazon S3 它可以以非常低的成本提供可扩展、可靠、低延迟的数据存储基础设施,使开发人员能够利用云计算的规模优势,以极低的初始资源投资换取稳定的数据基础设施,非常适合快速技术创新。
(2)Amazon Athena 无服务器交互式查询服务,用户可轻松使用标准 SQL 分析 Amazon S3 中的数据。无需 ETL ,具备 SQL 任何有技能的人都可以轻松快速地分析数据湖中的大规模数据集,这是技术人员生产力的解放!想用的时候 SQL 直接分析数据湖,不想管理任何集群,Athena 这无疑是一个快速快速开始的选择。
(3)Amazon Redshift 使用 SQL 分析数据仓库、运营数据库和数据湖之间的结构化和半结构化数据,重点快速获取洞察力,交付业务结果,无需考虑数据仓库等基础设施的管理。现在,无服务器版本 Amazon Redshift Serverless 使数据仓库更加敏捷,用户可以在几秒钟内轻松运行和扩展分析,而无需亲自设置和管理数据仓库基础设施 PB 级数据规模数据分析。目前,许多企业已经选择了AmazonRedshift建立一个实时数字仓库来缩短他们获得洞察力的时间,因为它很容易使用,在任何规模提供可靠的性能来分析所有数据,或者因为 Amazon Redshift 提供高于其他云数据仓库 3 性价比倍。Amazon Redshift Serverless 非常适合难以预测的计算需求,如可变工作负荷、空闲时间周期性工作负荷、峰值稳定工作负荷等。这种方法也非常适合临时分析需求、测试和开发环境,需要快速入门。
(4)Amazon EMR 也推出了 Serverless 无服务器版本。开发人员可以使用开源大数据框架(如无服务器) Apache Spark、Hive 和 Presto)构建的程序在云中运行 PB 无需配置、管理、优化或保护集群,分析级数据。用户不需要猜测集群的大小,Amazon EMR Serverless 具有自动细粒度膨胀和性能优化的运行速度是开源版本的两倍多。另外,Amazon EMR 在安装 Spark、Hive、Presto 或 Trino 可默认安装 Hudi 组件实现开放格式(如 Apache Parquet 和 Apache Avro)维护 Amazon S3 或 HDFS 中的数据。举个例子,使用 Amazon EMR,技术人员可将 Parquet 数据集转化为 Hudi 无需重写数据集,数据集迅速迁移到现有数据集 Apache Hudi 例如,数据集 Amazon S3 上 1TB 的 Parquet 数据集,引导执行的速度是批量插入的五倍!
通过了解,CSDN 这些只是亚马逊云技术的一小部分数据服务及其无服务器版本的发展变化。云原发布既是云原,没有服务器架构 NoSQL—Amazon DynamoDB,两年前,无服务器云原生关系数据库实现Amazon Aurora Serverless v(本周第二代v也已上线),也是值得挖掘的技术创新。
正是随着这些服务的升级和发展,智能湖仓库也在向更敏捷、更智能的方向发展。技术界也可以看到,数据分析的下一站已经到来。
扫描二维码,下载智能湖仓白皮书亚马逊云科技,了解更多最佳实践。
如我们所见,智能湖仓更强调架构、数据自由流动和集中统一治理。智能湖仓库架构不是简单的湖和仓库,而是湖、仓库和特殊建设数据服务连接成一个整体,让数据移动和访问,进一步实现数据湖、数据仓库、数据查询、数据分析、机器学习等服务之间的数据,形成统一连续的整体,满足客户等需求。
亚马逊云技术的智能湖仓架构具有灵活扩展、特殊建设、数据集成、敏捷分析、开源开放等特点。具体来说,背靠 Amazon S3 数据湖存储的高可靠性和大容量可以灵活扩展数据存储资源。在此基础上,技术人员总结了亚马逊云技术经验的具体产品实力,如交互式查询服务 Amazon Athena、云大数据平台 Amazon EMR、云数据仓库 Amazon Redshift 在专门建立的数据分析服务和统一的数据集成管理架构下,企业无需机器学习经验即可使用 SQL 语句,甚至不编写代码,进行数据分析。该模式可以大大降低数据人员的技术门槛,让更多的数据业务人员拥抱数据,实现快速、快速、低成本的数据分析。
云原生数据分析服务在智能湖仓架构下,可全面覆盖流数据分析、数据湖、Hadoop 所有常用的分析场景,如,都没有服务器。没有服务器的分析工具使客户不需要配置、扩展或管理集群或服务器,也不需要担心容量配置,从而最大限度地减少客户的繁琐工作,使数据真正实现整个堆栈和敏捷的分析。
面对大量的数据和细分环境,亚马逊云技术无服务器智能湖仓库架构易于使用、易于扩展、高性能、特殊施工、安全、智能特点,通过数据湖和数据仓库,进一步无缝集成各种服务,确保不同服务之间的数据流畅,帮助客户提高数据价值,加快创新,成为数据驱动组织。
从亚马逊的技术布局和发展路径可以看出,全栈和云原生数据分析时代已经到来,智能湖仓将成为新一代数据平台架构。借助智能湖仓,与数据相关的技术和业务人员将能够摆脱底层架构和数据处理技术的诸多约束,专注于数据挖掘的创新分析和应用,发现和抓住任何创新机遇。