Amazon EMR

Apache Spark、Hadoop、HBase、Presto、Hive、その他のビッグデータフレームワークを簡単に実行してスケーリング

Amazon EMR では、管理された Hadoop フレームワークが提供され、動的にスケーリング可能な Amazon EC2 インスタンスで、大量のデータを、簡単、高速、高コスト効率な方法で処理できます。また、Apache Spark や HBase、Presto、Flink といった他の一般的なフレームワークを Amazon EMR で実行することや、Amazon S3 や Amazon DynamoDB といった他の AWS データストア内でデータを操作することもできます。大衆に普及しているJupyter Notebookに基づき、EMR Notebookは特別なクエリおよび試験的分析のための開発および共同研究を行う環境を提供します。

Amazon EMR では、ログの分析、ウェブインデックス作成、データ変換 (ETL)、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスを含む、さまざまなビッグデータのユースケースが確実かつ安全に処理されます。

Amazon EMR (3:00)のご紹介

利点

使いやすさ

EMR クラスターは数分で起動できます。ノードのプロビジョニング、クラスターのセットアップ、Hadoop の設定、クラスターのチューニングなど、わずらわしい作業は不要です。こうした作業はEMR 側で実行されるため、お客様は分析に専念できます。データサイエンティスト、開発者および分析者も、Jupyter Notebookに基づいた、管理された環境であるEMR Notebookを使用して、アプリケーションの開発および仲間との共同作業ができます。

低コスト

EMR の料金体系は予想がしやすくシンプル: 1 秒ごとに課金され、最小課金時間は 1 分となっています。Hadoop, Spark,および Hiveなどのアプリケーションを使用して、10ノード EMR クラスターを、一時間0.15 USDドルの低価格で起動することができます。EMR は Amazon EC2 のスポットおよびリザーブドインスタンスをネイティブサポートしているため、基盤となるインスタンスのコストを 50～80% 節約することもできます。

弾力性

EMR は、コンピューティングインスタンスを、1 つでも、数百、数千でもプロビジョニングできるため、あらゆる規模のデータ処理に対応できます。インスタンス数は、手動や Auto Scaling を使って簡単に増減でき、お支払いは使った分のみの従量料金制です。EMRはコンピューティングインスタンスと持続するストレージを分離することもできるので、独立的にスケーリングされることができます。

信頼性

クラスターの調整やモニタリングにかかる労力も削減できます。EMR にはクラウド用の調整された Hadoop があり、クラスターをモニタリングして失敗したタスクを再試行し、自動的にパフォーマンスの低いインスタンスを置き換えます。EMRは最新の安定したオープンソースソフトウェアのリリースを提供するので、更新の管理およびバグの修復が不要で問題が少なく、環境を維持するための努力が少なくて済みます。

セキュア

EMR は、Amazon EC2 インスタンスへのネットワークアクセスを制御するファイアウォールの各種設定を自動的に構成します。また、お客様が定義する論理的に隔離されたネットワークである Amazon Virtual Private Cloud (VPC) 内にクラスターを起動することも可能です。S3 に保存されたオブジェクトの場合、AWS Key Management Service またはカスタマー管理型のキーを使用して Amazon S3 サーバー側の暗号化または Amazon S3 クライアント側の暗号化と EMRFS を使用できます。その他の暗号化オプションや Kerberos による認証も、簡単に有効化できます。

柔軟性

お客様がクラスターのすべてを制御することができます。各インスタンスへのルートアクセス権限をお客様が持つため、追加のアプリケーションを簡単にインストールすることができます。また、ブートストラップアクションを使用して、クラスターごとに設定をカスタマイズできます。カスタム Amazon Linux AMI を使用して、EMR クラスターを起動することもできます。