资讯详情

使用 Amazon EMR 构建您的数据分析平台

?? 前言


众所周知,在现如今大数据时代,数据越来越重要。据Gartner数据分析将成为创新的起源和企业的核心能力。同时,国际数据公司IDC根据与数据存储公司希捷的一份报告,中国产生的数据量将从2019年左右的9年开始.4ZB增至2025年的48.6ZB。

面对如此复杂和庞大的数据,许多公司经常被这些大量的数据和各种要求淹没。因此,如何降低成本和效率,开放数据分析和存储,提高数据分析的效率,已成为技术团队头疼的问题。

指大规模数据的数据分析。我们每天打开手机就能看到的疫情确诊人数,以及各大新闻媒体平台滚动的疫情实时动态板块,都有一个海量数据分析的架构平台支撑。在这样的大数据时代背景下,如何高速、高效、低成本地进行数据分析,已经成为各大互联网企业需要解决的问题。


?? 开发数据分析平台

数据分析平台的发展历程大致经过如下几个阶段:

起初,企业的技术人员通常在业务数据库中直接进行一些数据分析和查询,而不是在相对空闲的时间(如晚上或早上)。 当数据量增加时,通常需要在多个业务数据库之间以图书馆分表的形式分配相同的逻辑数据。在不影响在线业务的情况下,快速分析所有数据已成为一件非常复杂的事情。

随着Google在2004年发布MapReduce论文,2006年Apache Hadoop项目发布。一些前沿的互联网公司开始在线下机房建立开源Hadoop集群,使用Hadoop分布式处理能力解决了数据分析中常见的数据激增、无法查询结果等问题。

Hadoop架构的基本优点是可扩展性高。理论上,集群的大小可以根据数据量的大小无限扩展,解决节点之间的通信,引入多管理节点。集群规模与需要参与计算的数据量密切相关,尤其是购买APP,双十一用户数量可能会激增,但火灾发生半个月后,用户热情冷却,并下降到原来的业务量;线下机房采购服务器流程,周期基本为月,不能满足业务场景的快速变化。

云上搭建Hadoop集群可以帮助企业灵活使用Hadoop,企业可以根据需要多次放大或缩小,这是一个很好的解决方案Hadoop集群对节点伸缩能力的需求。云为Hadoop提供经济高效的解决方案。大多数云提供商根据使用情况付费,因此企业可以在不使用系统的情况下,为所需的存储或分析付费,而。此外,云上还可以使用特定的特定用途Hadoop企业可以立即访问其数据进行实时处理和分析。

云厂商也在大力推进大数据分析,推出AWS基于云的半托管大数据服务。 随着云计算应用场景的不断扩展,越来越多的大数据中心需要提供更强的计算能力来满足需求,主要来自云虚拟化技术的发展。目前,大数据处理已成为行业趋势。 从简单虚拟机的性能竞争到大数据管理软件的易用性,再到大数据组件的高性能。 对于用户来说,云计算大数据服务的核心优势在于简化安装、升级和运维,增强可视化。 同时,由于组件是开源的 自研优化,因此接口上与开源保持一致,降低了业务转型改造的成本。


??

Amazon EMR通过云上的数据分析平台 Amazon EMR 基于图形化或命令行接口,用户可以快速构建和部署 Amazon EC2 实例数据分析系统可以动态扩展集群。Amazon EMR 你也可以读别的 AWS 例如,数据存储服务 Amazon S3 和 Amazon DynamoDB。用户也可以在平台上使用开源分析框架(如 Apache Spark、 Presto 等)运行大规模分布式数据处理操作,交互式 SQL 查询,机器学习 (ML) 应用程序。

特别注意:亚马逊云科技目前提供100多种免费产品套餐。其中,计算资源Amazon EC第一年12个月免费,750小时/月;储存资源 Amazon S3 第一年12个月免费,5GB请单击以下链接了解标准存储容量:

https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free Tier Types=*all&awsf.Free Tier Categories=*allhttps://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free Tier Types=*all&awsf.Free Tier Categories=*all

?? 发展历程

这么说还是不太懂吗? Amazon EMR 魅力?所以我想深入理解 Amazon EMR,我们就需要了解与之相关的产品和它自身的发展历程:

2006年,Hadoop推出,MapReduce 是 Hadoop 分布式计算框架的组成部分。HDFS它是分布式存储概念的产物。它提供跨集群多个计算节点的数据分发,非常适合管理不同类型的数据源,为数据湖的发展奠定了基础。而为了兼容Hadoop集群,AWS于2009年推出了 Amazon Elastic MapReduce(EMR)以跨数据湖架构EC自动准备实例集群HDFS。AWS EMR包含几乎所有Hadoop 生态系统中的核心组件可以满足用户的各种数据分析需求。同时,在运维层面,帮助业务人员自动完成计算机资源准备和操作系统安装Hadoop一系列复杂的工作,如组件安装、组件配置等。


?? 功能简介

了解完Amazon EMR在过去,我们用它有什么好处?我主要列出了一些我个人认为更实用的特点,这么多优点只是AWS EMR冰山一角!

使用Amazon EMR,大数据应用程序和 PB 分级数据分析,成本不到当地解决方案成本的一半。Amazon EMR 旨在降低处理大量数据的成本。一些功能有助于降低成本,包括较低的每秒单价Amazon EC2 Spot 实例集成、Amazon EC2 预留实例集成、弹性和 Amazon S3 集成。

例如,日志文件分析是一项批量数据处理任务,不需要一直运行。我们可以每天定期运行亚马逊EMR分析集群,分析后删除集群。 传统的人工集群往往需要大量的时间和精力来建立和使用AmazonEMR更容易创建集群。建立所需的集群只需要一个命令。特别是随着数据量的增加,定期运行集群与云计算的按需计费模式(通过每秒单价计算)相结合,可以大大节省处理成本。

PS:我把定价链接放在下面,真的很划算!!!点击按需计算使用AS EMR的费用啦!

大数据处理和数据分析 - Amazon EMR 定价 - Amazon Web Serviceshttps://aws.amazon.com/cn/emr/pricing/?nc=sn&loc=4

借助 Amazon EMR,我们可以利用多种数据存储,包括 Amazon S3、Hadoop 分布式文件系统 (HDFS) 和 Amazon DynamoDB,可以灵活地进行存储。

Amazon EMR 除了上述这些优点之外,它还支持各种功能强大、经过验证的 Hadoop 工具,如 Apache Spark、Apache Hive、Presto 和 Apache HBase,洞察时间提升为足足原来的 2 倍。对此数据分析师使用 EMR Studio、Hue 和 EMR Notebooks 进行交互式开发、编写 Apache Spark 作业,并向 Apache Hive 和 Presto 提交 SQL 查询。

Amazon EMR还具有高弹性的特点。它使我们能够快速、轻松地预配置所需的容量,以及自动或手动添加和移除容量。在处理要求不确定或者不能预料的情况下,这一功能对我们来说是十分有用的。

例如,如果您大多数实例的处理发生在夜间,那么您白天可能需要 1000 个实例,而夜间则可能需要5000 个实例。另一种情况是,您可能在短期内需要巨大的容量。借助 Amazon EMR,您可以快速预置数百或者数千个实例,自动扩展以满足计算要求,并在作业完成后关闭集群(避免为空闲容量付费)。


🌳 使用场景

Amazon EMR的功能如此丰富,那使用场景广泛嘛?

废话,Amazon EMR的使用领域也相当广泛,主要可应用于以下几种情况:

使用统计算法和预测性模型运行大规模数据处理和 what-if 分析,发现隐藏的模式、相关性、市场趋势和客户偏好。

从各种来源中提取数据、大规模处理数据,并将数据提供给应用程序和用户。

实时分析来自流式数据源的事件,以创建长期运行、高度可用且具有容错能力的流式数据管道。

使用 Apache Spark MLlib、TensorFlow 和 Apache MXNet 等开源 ML 框架。连接 Amazon SageMaker Studio 进行大型模型训练、分析和报告。

可以说Amazon EMR基本涵盖了你能想象到的,所有一切和数据分析相关的领域,所以安心的选择Amazon EMR准没错!


🍀

积分广告科学 (IAS) 是数字广告验证领域的全球领导者,致力于确保真实用户在安全、合适的环境中观看广告。IAS 平均每天处理超过 1000 亿笔网络交易以进行广告验证,即每月处理数万亿个数据事件。它每天分析数百万个页面以确保品牌安全,并提供实时竞价建议,在10-50毫秒内响应API调用。它还在 10 毫秒内为 99% 的请求提供已知的上下文分析分数。

直到2019年,IAS在美国和欧洲运营数据中心,在澳大利亚、新加坡和日本运营混合本地和云模型。该公司使用了中心辐射型模型,其中所有数据从这些分散的中心提取到新泽西州的数据中心进行分析。为了支持峰值流量,IAS 必须购买更多硬件,这需要数周的时间来配置,并且在较慢的季节中一直未使用,导致了闲置资源与浪费。

由于其持续的全球增长,IAS希望架构更快、更高效,选择将数据迁移到AWS上。

IAS提高了敏捷性和成本效益,使其能够在新区域推出并在数小时而不是数周内部署产品。具体来说,在将数据池化到数据湖中后,临时 Amazon EMR 集群将运行作业,以将数据合并、丰富和聚合到数据仓库中,它会根据工作负载自动增加或减少集群中的实例或单位数,最终使得 IAS 的成本降低了 12%。


🍀

Paytm是数字金融服务的先驱,是印度最大的数字支付,商业和金融服务平台。今天,它支持超过1700万商家,每天有数百万人使用它来支付水电费,杂货,电影票等。该公司的使命是帮助印度各地5亿银行业务不足的企业和个人建立信誉。

随着数字支付服务的增长,Paytm预见到数据量将迅速增长,原本的数据分析平台可能无法承载日益增长的数据。

Paytm需要一个能够处理更大数据工作负载的平台,并在正确的时间为其商家以及它们的产品和业务团队提供正确的数据。

Paytm 在其本地数据基础架构方面面临两个主要挑战:性能和可扩展性。为了应对这些挑战,Paytm 的数据工程团队采用了大数据平台 Amazon EMR,以较低的运营开销重新构建其核心 ETL 处理。Amazon EMR 与 Paytm 预先存在的开源工具兼容,使公司大数据平台易于设置、操作和扩展,并与其他机器学习和人工智能堆栈集成。

借助 Amazon EMR,Paytm 现在可以轻松地安全地处理超大规模数据工作负载 ,该平台可以启动大数据集群,并在短短 10 分钟内执行 Paytm 的大部分核心 ETL 处理,而之前最多需要 12 小时。此外,它可以在不再需要时被关闭,从而最大限度地减少不必要的基础结构成本。

Amazon EMR 为Paytm提供了构建面向未来的数据平台所需的工具和功能。由于容量预置和集群扩展由 Amazon EMR 管理,Paytm现在可以以本地解决方案 70% 的速度向业务用户交付数据,在此基础上,交付数据的速度提高了30%。


🍀 关于Amazon EMR 的

一顿操作下来,我来这里总结一下。

首先亚马逊云科技的 Amazon EMR 给我的感觉只有两个字:方便!Amazon EMR 简化了大数据环境和应用程序的构建和操作,让大数据处理更为便捷,用户无需部署、管理和扩展底层的基础设施,可以直接使用开源的数据框架运行分析型程序。

其次从实战效果和成本角度来说,IAS与Paytm的实战案例都清楚地体现了Amazon EMR为企业大大降低成本,从这方面打分的话,可以打95分(满分100)。

最后尽管Amazon EMR的使用已经十分简便了,但是亚马逊云科技还是为我们准备了非常详细的官方教程,我将这些资源贴在下方,大家可以直接点击学习:

Amazon EMR 入门 – 大数据平台 – Amazon Web Services


🍀 更多相关内容

除此以外亚马逊云科技还专为开发者们打造了多种学习平台:

从0到1 轻松上手云服务,内容涵盖:成本管理,上手训练,开发资源。

https://aws.amazon.com/cn/getting-started/?nc1=h_ls&trk=32540c74-46f0-46dc-940d-621a1efeedd0&sc_channel=el

亚马逊云科技架构中心提供了云平台参考架构图表、经过审查的架构解决方案、Well-Architected 最佳实践、模式、图标等。

https://aws.amazon.com/cn/architecture/?intClick=dev-center-2021_main&trk=3fa608de-d954-4355-a20a-324daa58bbeb&sc_channel=el

了解亚马逊云科技如何构建和运营软件。

https://aws.amazon.com/cn/builders-library/?cards-body.sort-by=item.additionalFields.sortDate&cards-body.sort-order=desc&awsf.filter-content-category=*all&awsf.filter-content-type=*all&awsf.filter-content-level=*all&trk=835e6894-d909-4691-aee1-3831428c04bd&sc_channel=el

aws工具下载_aws开发工具_资源下载-AWS云服务

亚马逊云科技居然为我们提供了这么多有趣的学习平台,这真的对开发者来说太好了!读到这里真的已经心满意足,收获满满了!

难道你这就满足了?

难道还有福利?

没错,现在加入还有

100余种产品免费套餐。其中,计算资源Amazon EC2首年12个月免费,750小时/月;存储资源 Amazon S3 首年12个月免费,5GB标准存储容量。

https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el

最新优惠大礼包,200$数据与分析抵扣券,200$机器学习抵扣券,200$微服务与应用开发抵扣券。

https://www.amazonaws.cn/campaign/?sc_channel=el&sc_campaign=credit-acts-ldr&sc_country=cn&sc_geo=chna&sc_category=mult&sc_outcome=field&trkCampaign=request-credit-glb-ldr&trk=f45email&trk=02faebcb-3f61-4bcb-b68e-c63f3ae33c99&sc_channel=el

解决方案CloudFormation一键部署模版库

https://aws.amazon.com/cn/quickstart/?solutions-all.sort-by=item.additionalFields.sortDate&solutions-all.sort-order=desc&awsf.filter-tech-category=*all&awsf.filter-industry=*all&awsf.filter-content-type=*all&trk=afdbbdf0-610b-4421-ac0c-a6b31f902e4b&sc_channel=el

亚马逊云科技提供了这么多的福利与资源,还不心动嘛?反正我是心动了,现在就去领福利啦~

标签: zb2188板型电阻

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台