Amazon EMR 提供受管的 Hadoop 框架,讓您以輕鬆、快速且經濟實惠的方式,在動態可擴展的 Amazon EC2 執行個體之間處理大量資料。您也可以執行其他常用的分散式架構 (例如 EMR 中的 Apache Spark、HBase、Presto 和 Flink),並與其他 AWS 資料存放區 (例如 Amazon S3 和 Amazon DynamoDB) 中的資料進行互動。EMR Notebook 以流行的 Jupyter Notebook 為基礎,為臨時查詢和探索分析提供開發和協作環境。
EMR 能夠安全可靠地處理各式各樣的大數據使用案例,包括日誌分析、Web 索引、資料轉換 (ETL)、機器學習、財務分析、科學模擬和生物資訊學。
優勢
易於使用
您只需幾分鐘就可以啟動 EMR 叢集。您不必擔心節點佈建、叢集設定、Hadoop 組態或叢集調校。EMR 會處理這些任務,您只需集中精力進行分析即可。資料科學家、開發人員和分析師也可以使用 EMR Notebook (以 Jupyter Notebook 為基礎的受管環境) 建構應用程式並與同儕合作。
低成本
EMR 定價不但簡單而且可預測:您只需依所用的秒數支付每執行個體費率,但需支付一分鐘最低費用。您可以啟動 10 節點 EMR 叢集並使用 Hadoop、Spark 和 Hive 等應用程式,每小時只需 0.15 USD。因為 EMR 原生支援 Amazon EC2 Spot 和預留執行個體,您還可以節省 50% 到 80% 的基礎執行個體成本。
彈性
使用 EMR,您可以佈建一個、數百個或者甚至數千個運算執行個體來處理任何規模的資料。您可以手動或使用 Auto Scaling 輕鬆增加或減少執行個體的數量,並且只需按使用量付費。EMR 還將運算執行個體和持久性儲存分離,因此可以單獨擴展。
可靠
您可以花較少時間在調校和監控叢集方面。EMR 的 Hadoop 已經針對雲端進行優化,它還會監控您的叢集,重新嘗試失敗的任務,並自動替換效能不佳的執行個體。EMR 提供最新的穩定開放程式碼軟體版本,因此您無需管理更新和錯誤修正,從而減少問題,並減少維護環境的工作量。
安全
EMR 會自動配置 EC2 防火牆設定以控制對執行個體的網路存取,並且您可以在 Amazon Virtual Private Cloud (VPC) (由您定義的邏輯隔離網路) 中啟動叢集。針對存放在 S3 的物件,您可以使用 S3 伺服器端加密或 Amazon S3 用戶端加密搭配 EMRFS、AWS Key Management Service 或客戶管理的金鑰。您也可以輕鬆啟用其他加密選項和 Kerberos 身份驗證。
靈活
您可以完全掌控您的叢集。您擁有每個執行個體的根存取權,因此您可以輕鬆安裝額外的應用程式,並使用引導操作自訂每個叢集。您還能使用自訂 Amazon Linux AMI 啟動 EMR 叢集。
使用案例
即時分析
在 EMR 上使用 Spark Streaming,取用和處理來自 Amazon Kinesis、Apache Kafka 或其他資料串流的即時資料。以容錯方式執行串流分析,並將結果寫入 S3 或 HDFS。
日誌分析
EMR 可用於處理 Web 和行動應用程式產生的各種日誌。EMR 能協助客戶將數 PB 的非結構化或者半結構化資料轉變為有用的應用程式或使用者見解。
擷取、轉換、載入 (ETL)
EMR 可用於快速且經濟實惠的執行資料轉換工作負載 (ETL),例如在大型資料集上進行排序、彙總和結合。
預測分析
EMR 上的 Apache Spark 包含適用於可擴展性機器學習演算法的 MLlib,您也可以使用自己的程式庫。Spark 將資料集存放在記憶體內,可為常見的機器學習工作負載提供極佳的效能。
部落格和文章
進一步了解 Amazon EMR







