Amazon EMR

Apache Hadoop、Spark、HBase、Presto、Hive、その他のビッグデータフレームワークを簡単に実行してスケーリング

Amazon EMR の開始方法

パートナー

Amazon EMR では、管理された Hadoop フレームワークが提供され、動的にスケーリング可能な Amazon EC2 インスタンスで大量のデータを、簡単、高速、高コスト効率な方法で処理できます。また、Apache Spark や HBase、Presto、Flink といった他の一般的なフレームワークを Amazon EMR で実行することや、Amazon S3 や Amazon DynamoDB といった他の AWS データストア内でデータを操作することもできます。

Amazon EMR は、ログの分析、ウェブインデックス、データ変換 (ETL)、機械学習、財務分析、科学シミュレーション、生物情報科学研究を含む、さまざまなビッグデータを確実かつ安全に処理します。

PoC （概念実証）または評価に関するサポートをリクエスト »

日付	お知らせ
May 07	Amazon EMR が M5 インスタンスと C5 インスタンスをサポートできるようになりました
Apr 10	Amazon EMR リリース 5.13.0 が Spark 2.3.0 をサポート
Feb 22	Amazon EMR リリース 5.12.0 での EMRFS との Apache Hadoop 2.8.3 および Presto の統合に対するサポート

AWS ビッグデータブログの Amazon EMR

Amazon EMR を使って VPC フローログを処理する

データレイクの取り込み: AWS を使って Hive の外部テーブルを自動的に分割する

Apache Bigtop と Amazon EMR を使ってカスタムアプリケーションの構築とデプロイを行う

Spark は個別化医療の背後にあるデータの活用に役立つか

お気に入りのオープンソースアプリケーションの使用

Amazon EMR のバージョニングリリースにより、EMR cluster で Apache Hadoop および Spark エコシステムのアプリケーションを含む最新のオープンソースプロジェクトを簡単に選択して使用できます。ソフトウェアのインストールと設定は Amazon EMR によって行われるため、インフラストラクチャや管理タスクを気にせずに、データの価値を高めることにより多くの時間をかけることができます。

お客様導入事例

利点

使用が簡単

Amazon EMR クラスターは数分で起動できます。ノードのプロビジョニング、クラスターのセットアップ、Hadoop の設定、クラスターのチューニングなど、わずらわしい作業は不要です。このような作業は Amazon EMR 側で実行されるため、お客様は分析に専念できます。

低コスト

Amazon EMR の料金体系は予想がしやすくシンプル: 1 秒ごとに課金され、最小課金時間は 1 分となっています。10 ノードの Hadoop クラスターの運用をわずか 0.15 USD/時間で開始できます。Amazon EMR は Amazon EC2 のスポットインスタンスとリザーブドインスタンスをネイティブサポートしているため、基盤となるインスタンスのコストを 50～-80% 節約することもできます。

伸縮自在性

Amazon EMR は、コンピューティングインスタンスを 1 つでも数百、数千でもプロビジョニングできるため、あらゆる規模のデータ処理に対応します。インスタンス数は簡単に手動で、または Auto Scaling で増減でき、お支払いは使った分のみの従量料金制です。

信頼性

クラスターの調整やモニタリングにかかる労力も削減できます。Amazon EMR にはクラウド用の調整された Hadoop があり、クラスターをモニタリングして失敗したタスクを再試行し、自動的にパフォーマンスの低いインスタンスを置き換えます。

安全

Amazon EMR は Amazon EC2 インスタンスへのネットワークアクセスを制御するファイアウォールの各種設定を自動的に構成します。また、お客様が定義する論理的に隔離されたネットワークである Amazon Virtual Private Cloud (VPC) 内にクラスターを起動することもできます。Amazon S3 に保存されたオブジェクトの場合、AWS Key Management Service またはカスタマー管理型のキーを使用して Amazon S3 サーバー側の暗号化または Amazon S3 クライアント側の暗号化と EMRFS を使用できます。その他の暗号化オプションや Kerberos による認証を有効にすることも簡単に行えます。

柔軟性

お客様がクラスターのすべてを制御することができます。また、各インスタンスへのルートアクセス権限を持つため、簡単にその他のアプリケーションを追加し、ブートストラップアクションを使用して、クラスターごとに設定をカスタマイズできます。カスタム Amazon Linux AMI を使用して、Amazon EMR クラスターを起動することもできます。

Amazon EMR で構築できるもの

ユースケースの詳細については以下を参照してください。

クリックストリーム分析

Amazon EMR を使用すると、クリックストリームデータを分析してユーザーを区分し、ユーザーの好みを把握して、より効果的な広告を配信できます。

Razorfish による EMR を使ったクリックストリームの分析事例の詳細 »

リアルタイム分析

Amazon Kinesis、Apache Kafka またはその他のデータストリームからのリアルタイムデータを、Amazon EMR で Spark Streaming を使用して取り込み、処理します。ストリーミング分析を耐障害性のある方法で実行し、結果を Amazon S3 や HDFS に書き込みます。
Hearst による Spark Streaming の使用方法 »

ログ分析

Amazon EMR はウェブやモバイルアプリケーションで生成されたログの処理にも使用できます。Amazon EMR は、ペタバイト級の非構造化データや半構造化データからアプリケーションやユーザーに関する有益なインサイトを得るのに役立ちます。
Yelp が EMR を使用して主なウェブサイト機能を推進した方法 »

抽出、変換、読み込み (ETL)

Amazon EMR を使用すると、並べ替え、集計、結合などのデータ変換ワークロード (ETL) を大規模なデータセットですばやくコスト効率よく実行できます。

Redfin による ETL 用の一時的な EMR クラスターの使用方法 »

予測分析

Amazon EMR での Apache Spark には、スケーラブルな機械学習アルゴリズムに対応する MLlib が含まれています。独自のライブラリを使用することも可能です。Spark では、データセットをメモリ内に保存すると、一般的な機械学習ワークロードのパフォーマンスが向上します。
Intent Media による Spark MLib の使用方法 »

ゲノミクス

Amazon EMR では、膨大な量のゲノミクスデータや、その他の大量の科学データセットをすばやく効率的に処理することもできます。研究者は AWS で無料でホストされているゲノミクスデータにアクセスできます。
Apache Spark と個別化医療の詳細 »

Amazon EMR の使用を開始する

Amazon EMR は簡単に使用を開始できます。入門ガイドに従って、数回クリックするだけで最初の Amazon EMR クラスターを起動して AWS のデータレイク上でデータの分析を開始できます。また、Spark、Presto、データレイクはどのようなものか、および EMR がどのように AWS Data Lakes and Analytics のポートフォリオにフィットするかも知ることができます。

使用を開始する

AWS の使用を開始する

AWS の使用を開始する方法を数分で紹介

AWS 無料利用枠

AWS を無料で 12 か月間、利用して体験する