亚马逊云科技(Amazon Web Services, AWS)宣布其无服务器大数据处理服务Amazon EMR Serverless正式在中国区域(由西云数据运营的宁夏区域和由光环新网运营的北京区域)上线。这一重要举措标志着中国地区的企业用户现在能够以更简单、更高效、更具成本效益的方式运行大规模数据处理与分析工作负载,无需预先配置、管理和扩展底层基础设施。
Amazon EMR(Elastic MapReduce)是业界广泛使用的大数据处理服务,支持包括Apache Spark、Apache Hive、Presto等在内的流行开源框架,用于大规模数据处理、交互式分析和机器学习任务。而此次上线的EMR Serverless是其无服务器版本,旨在进一步降低大数据分析的门槛与运维复杂性。
核心优势:简化运维与提升敏捷性
对于传统的大数据集群,企业需要投入大量精力进行集群的规划、配置、容量预估、扩缩容管理以及运行状态监控,这不仅消耗了宝贵的技术资源,也影响了数据分析的敏捷性。Amazon EMR Serverless从根本上改变了这一模式:
- 无需管理基础设施:用户完全无需预置、配置或管理服务器、虚拟机或集群。只需提交Spark、Hive或Presto作业,服务会自动配置所需的计算和内存资源,并在作业完成后立即释放资源。
- 自动弹性伸缩:服务会根据作业负载的变化,在几秒钟内自动、精细地扩缩计算资源,确保作业始终拥有合适的资源量,同时避免了资源闲置带来的浪费。
- 按使用量付费:用户仅需为作业实际使用的vCPU、内存和存储资源付费,精确到秒,实现了真正的“用多少付多少”的成本模型,尤其适合间歇性、可变或不可预测的工作负载。
- 开源框架兼容性:完全兼容Apache Spark、Hive和Presto的开源版本,用户现有的代码、应用和库无需修改即可迁移运行,保护了既有技术投资。
在中国区域的应用场景
随着中国企业数字化转型的深入,数据驱动的决策变得至关重要。Amazon EMR Serverless在中国区域的上线,将为众多行业场景提供强大支持:
- 数据湖分析与ETL:企业可以轻松地对存储在Amazon S3数据湖中的海量数据进行清洗、转换和聚合,为商业智能报表和数据分析准备高质量的数据集。
- 交互式数据分析:数据分析师和业务人员可以通过熟悉的SQL工具(对接Hive或Presto)直接对数PB级别的数据执行即席查询,快速获取业务洞察。
- 流批一体处理:结合Apache Spark Structured Streaming,可以构建同时处理实时流数据和历史批数据的统一管道,用于实时监控、实时报表和实时推荐等场景。
- 机器学习与数据科学:为大规模的特征工程、模型训练和数据预处理提供弹性的计算平台,加速AI/ML项目的迭代周期。
降低门槛,加速创新
亚马逊云科技大中华区产品部总经理表示:“Amazon EMR Serverless在中国区域的推出,是我们持续将全球领先的云服务引入中国,赋能本地客户创新的又一例证。它让各种规模的企业,特别是那些缺乏专职大数据运维团队的企业,能够更专注于从数据中提取价值,而非管理基础设施的复杂性,从而更快地将数据分析成果转化为业务竞争力。”
对于已在使用Amazon EMR的中国用户,可以无缝地将现有作业迁移至Serverless模式,享受更简化的运维体验和更优化的成本结构。对于尚未开始大数据之旅的企业,现在可以以极低的初始成本和运维负担启动项目,快速验证想法并扩展业务。
Amazon EMR Serverless在中国区域的正式可用,为中国企业提供了一个现代化、高效且经济的大数据处理解决方案,有望进一步推动各行业数据分析和智能应用的普及与深化。