Amazon EMR 提供的托管 Hadoop 框架可以让您快速、轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例中处理大量数据。您还可以运行其他常用的分布式框架(例如 EMR 中的 Apache Spark、HBase、Presto 和 Flink),以及与其他 AWS 数据存储服务(例如 Amazon S3 和 Amazon DynamoDB)中的数据进行交互。EMR Notebooks 基于热门的 Jupyter Notebook,可为即席查询和探索性分析提供开发和协作环境。
EMR 能够安全可靠地处理广泛的大数据使用案例,包括日志分析、Web 索引、数据转换 (ETL)、机器学习、财务分析、科学模拟和生物信息。
优势
易于使用
只需几分钟即可启动 EMR 集群。您不必担心节点预置、集群设置、Hadoop 配置或集群优化。EMR 自会处理这些任务,让您可以集中精力进行分析。数据科学家、开发人员和分析师也可以使用 EMR Notebooks(一种基于 Jupyter Notebook 的托管环境)来构建应用程序并与同事协作。
成本低廉
EMR 的定价简单且可预测:您按每个实例费率为使用的每秒时间付费,最低按一分钟收取。您可以按低至每小时 0.15 USD 的价格,使用 Hadoop、Spark 和 Hive 等应用程序启动 10 节点 EMR 集群。EMR 原生支持 Amazon EC2 Spot 实例和预留实例,因此您还可以节省 50-80% 的底层实例费用。
弹性
利用 EMR,您可以预置一个、数百个甚至数千个计算实例来处理任何规模的数据。您可以手动或使用 Auto Scaling 轻松增加或减少实例的数量,并且按实际用量付费。EMR 还可以将计算实例和持久性存储分离,以便二者可以独立扩展。
可靠
您用于优化和监控集群的时间将会更少。EMR 已经针对云优化了 Hadoop,它还会监控您的集群,重新尝试失败的任务,并自动替换性能不佳的实例。EMR 提供最新的稳定开源软件版本,因此您无需管理更新和修复错误,进而减少问题并轻松维护环境。
安全
EMR 会自动配置 EC2 防火墙设置以控制对实例的网络访问,并且您可以在 Amazon Virtual Private Cloud (VPC)(由您定义的逻辑隔离的网络)中启动集群。对于 S3 中储存的对象,您可以通过 AWS Key Management Service 或客户管理的密钥来使用 S3 服务器端加密或采用 EMRFS 的 Amazon S3 客户端加密。您还可以轻松启用其他加密选项和 Kerberos 身份验证。
灵活
您可以完全掌控您的集群。您拥有每个实例的根访问权限,因此,您可以轻松安装额外的应用程序,并使用引导操作自定义每个集群。此外,您还可以使用自定义 Amazon Linux AMI 启动 EMR 集群。
使用案例
实时分析
借助 EMR 上的 Spark Streaming,使用和处理来自 Amazon Kinesis、Apache Kafka 或其他数据流的实时数据。采用容错方式执行流分析,并将相应结果写入 S3 或 HDFS 中。
日志分析
EMR 可用于处理 Web 和移动应用程序生成的日志。EMR 可帮助客户将数 PB 的非结构化或半结构化数据转变为与应用程序或用户有关的有用洞察信息。
预测分析
EMR 上的 Apache Spark 包括适用于各种可扩展的机器学习算法的 MLlib,您也可以使用自己的库。通过将数据集存储在内存中,Spark 可以为常见的机器学习工作负载提供出色的性能。
博客文章
了解有关 Amazon EMR 的更多信息







