Amazon EMR
Apache Spark、Hadoop、HBase、Presto、Hive、その他のビッグデータフレームワークを簡単に実行してスケーリング
Amazon EMR では、管理された Hadoop フレームワークが提供され、動的にスケーリング可能な Amazon EC2 インスタンスで、大量のデータを、簡単、高速、高コスト効率な方法で処理できます。また、Apache Spark や HBase、Presto、Flink といった他の一般的なフレームワークを Amazon EMR で実行することや、Amazon S3 や Amazon DynamoDB といった他の AWS データストア内でデータを操作することもできます。大衆に普及しているJupyter Notebookに基づき、EMR Notebookは 特別なクエリおよび 試験的分析のための開発および共同研究を行う環境を提供します。
Amazon EMR では、ログの分析、ウェブインデックス作成、データ変換 (ETL)、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスを含む、さまざまなビッグデータのユースケースが確実かつ安全に処理されます。
利点
使いやすさ
EMR クラスターは数分で起動できます。ノードのプロビジョニング、クラスターのセットアップ、Hadoop の設定、クラスターのチューニングなど、わずらわしい作業は不要です。こうした作業はEMR 側で実行されるため、お客様は分析に専念できます。データサイエンティスト、開発者および分析者も、Jupyter Notebookに基づいた、管理された環境であるEMR Notebookを使用して、アプリケーションの開発および仲間との共同作業ができます。
低コスト
EMR の料金体系は予想がしやすくシンプル: 1 秒ごとに課金され、最小課金時間は 1 分となっています。Hadoop, Spark,および Hiveなどのアプリケーションを使用して、10ノード EMR クラスターを、 一時間0.15 USDドルの低価格で起動することができます。EMR は Amazon EC2 のスポットおよびリザーブドインスタンスをネイティブサポートしているため、基盤となるインスタンスのコストを 50~80% 節約することもできます。
弾力性
EMR は、コンピューティングインスタンスを、1 つでも、数百、数千でもプロビジョニングできるため、あらゆる規模のデータ処理に対応できます。インスタンス数は、手動や Auto Scaling を使って簡単に増減でき、お支払いは使った分のみの従量料金制です。EMRはコンピューティングインスタンスと持続するストレージを分離することもできるので、独立的にスケーリングされることができます。
信頼性
クラスターの調整やモニタリングにかかる労力も削減できます。EMR にはクラウド用の調整された Hadoop があり、クラスターをモニタリングして失敗したタスクを再試行し、自動的にパフォーマンスの低いインスタンスを置き換えます。EMRは最新の安定したオープンソースソフトウェアのリリースを提供するので、更新の管理およびバグの修復が不要で問題が少なく、環境を維持するための努力が少なくて済みます。
セキュア
EMR は、Amazon EC2 インスタンスへのネットワークアクセスを制御するファイアウォールの各種設定を自動的に構成します。また、お客様が定義する論理的に隔離されたネットワークである Amazon Virtual Private Cloud (VPC) 内にクラスターを起動することも可能です。S3 に保存されたオブジェクトの場合、AWS Key Management Service またはカスタマー管理型のキーを使用して Amazon S3 サーバー側の暗号化または Amazon S3 クライアント側の暗号化と EMRFS を使用できます。その他の暗号化オプションや Kerberos による認証も、簡単に有効化できます。
柔軟性
お客様がクラスターのすべてを制御することができます。各インスタンスへのルートアクセス権限をお客様が持つため、追加のアプリケーションを簡単にインストールすることができます。また、ブートストラップアクションを使用して、クラスターごとに設定をカスタマイズできます。カスタム Amazon Linux AMI を使用して、EMR クラスターを起動することもできます。
ユースケース
クリックストリーム分析
EMR を使用すると、クリックストリームデータを分析してユーザーを区分し、ユーザーの好みを把握して、より効果的な広告を配信できます。
リアルタイム分析
Amazon Kinesis、Apache Kafka、またはその他のデータストリームからのリアルタイムデータを、Amazon EMR で Spark Streaming を使用して取り込み、処理します。ストリーミング分析を耐障害性のある方法で実行し、結果を S3 や HDFS に書き込みます。
ログ分析
EMRはウェブやモバイルアプリケーションで生成されたログの処理にも使用できます。EMRは、ペタバイト級の非構造化データや半構造化データからアプリケーションやユーザーに関する有益なインサイトを得るのに役立ちます。
抽出、変換、読み込み (ETL)
EMR を使用すると、並べ替え、集計、結合などのデータ変換ワークロード (ETL) を大規模なデータセットですばやく、コスト効率よく実行できます。
予測分析
EMR での Apache Spark には、スケーラブルな機械学習アルゴリズムに対応する MLlib が含まれています。独自のライブラリを使用することも可能です。Spark では、データセットをメモリ内に保存すると、一般的な機械学習ワークロードのパフォーマンスが向上します。
ゲノミクス
EMRでは、膨大な量のゲノミクスデータや、その他の大量の科学データセットをすばやく効率的に処理することもできます。研究者は AWS で無料でホストされているゲノミクスデータにアクセスできます。
ブログ投稿と記事
AWS の開始方法
Amazon EMR の詳細







