Amazon EMR では、管理された Hadoop フレームワークが提供され、動的にスケーリング可能な Amazon EC2 インスタンスで大量のデータを、簡単、高速、高コスト効率な方法で処理できます。また、Apache Spark や HBase、Presto、Flink といった他の一般的なフレームワークを Amazon EMR で実行することや、Amazon S3 や Amazon DynamoDB といった他の AWS データストア内でデータを操作することもできます。
Amazon EMR は、ログの分析、ウェブインデックス、データ変換 (ETL)、機械学習、財務分析、科学シミュレーション、生物情報科学研究を含む、さまざまなビッグデータを確実かつ安全に処理します。
Amazon EMR のバージョニングリリースにより、EMR cluster で Apache Hadoop および Spark エコシステムのアプリケーションを含む最新のオープンソースプロジェクトを簡単に選択して使用できます。ソフトウェアのインストールと設定は Amazon EMR によって行われるため、インフラストラクチャや管理タスクを気にせずに、データの価値を高めることにより多くの時間をかけることができます。
使用が簡単
Amazon EMR クラスターは数分で起動できます。ノードのプロビジョニング、クラスターのセットアップ、Hadoop の設定、クラスターのチューニングなど、わずらわしい作業は不要です。このような作業は Amazon EMR 側で実行されるため、お客様は分析に専念できます。
低コスト
Amazon EMR の料金体系は予想がしやすくシンプル: 1 秒ごとに課金され、最小課金時間は 1 分となっています。10 ノードの Hadoop クラスターの運用をわずか 0.15 USD/時間で開始できます。Amazon EMR は Amazon EC2 のスポットインスタンスとリザーブドインスタンスをネイティブサポートしているため、基盤となるインスタンスのコストを 50~-80% 節約することもできます。
伸縮自在性
Amazon EMR は、コンピューティングインスタンスを 1 つでも数百、数千でもプロビジョニングできるため、あらゆる規模のデータ処理に対応します。インスタンス数は簡単に手動で、または Auto Scaling で増減でき、お支払いは使った分のみの従量料金制です。
信頼性
クラスターの調整やモニタリングにかかる労力も削減できます。Amazon EMR にはクラウド用の調整された Hadoop があり、クラスターをモニタリングして失敗したタスクを再試行し、自動的にパフォーマンスの低いインスタンスを置き換えます。
安全
Amazon EMR は Amazon EC2 インスタンスへのネットワークアクセスを制御するファイアウォールの各種設定を自動的に構成します。また、お客様が定義する論理的に隔離されたネットワークである Amazon Virtual Private Cloud (VPC) 内にクラスターを起動することもできます。Amazon S3 に保存されたオブジェクトの場合、AWS Key Management Service またはカスタマー管理型のキーを使用して Amazon S3 サーバー側の暗号化または Amazon S3 クライアント側の暗号化と EMRFS を使用できます。その他の暗号化オプションや Kerberos による認証を有効にすることも簡単に行えます。
柔軟性
お客様がクラスターのすべてを制御することができます。また、各インスタンスへのルートアクセス権限を持つため、簡単にその他のアプリケーションを追加し、ブートストラップアクションを使用して、クラスターごとに設定をカスタマイズできます。カスタム Amazon Linux AMI を使用して、Amazon EMR クラスターを起動することもできます。
クリックストリーム分析
Amazon EMR を使用すると、クリックストリームデータを分析してユーザーを区分し、ユーザーの好みを把握して、より効果的な広告を配信できます。
Razorfish による EMR を使ったクリックストリームの分析事例の詳細 »
リアルタイム分析
Amazon Kinesis、Apache Kafka またはその他のデータストリームからのリアルタイムデータを、Amazon EMR で Spark Streaming を使用して取り込み、処理します。ストリーミング分析を耐障害性のある方法で実行し、結果を Amazon S3 や HDFS に書き込みます。
Hearst による Spark Streaming の使用方法 »
ログ分析
Amazon EMR はウェブやモバイルアプリケーションで生成されたログの処理にも使用できます。Amazon EMR は、ペタバイト級の非構造化データや半構造化データからアプリケーションやユーザーに関する有益なインサイトを得るのに役立ちます。
Yelp が EMR を使用して主なウェブサイト機能を推進した方法 »
抽出、変換、読み込み (ETL)
Amazon EMR を使用すると、並べ替え、集計、結合などのデータ変換ワークロード (ETL) を大規模なデータセットですばやくコスト効率よく実行できます。
Redfin による ETL 用の一時的な EMR クラスターの使用方法 »
予測分析
Amazon EMR での Apache Spark には、スケーラブルな機械学習アルゴリズムに対応する MLlib が含まれています。独自のライブラリを使用することも可能です。Spark では、データセットをメモリ内に保存すると、一般的な機械学習ワークロードのパフォーマンスが向上します。
Intent Media による Spark MLib の使用方法 »
ゲノミクス
Amazon EMR では、膨大な量のゲノミクスデータや、その他の大量の科学データセットをすばやく効率的に処理することもできます。研究者は AWS で無料でホストされているゲノミクスデータにアクセスできます。
Apache Spark と個別化医療の詳細 »






