Amazon EMR

輕鬆地執行和擴展 Apache Spark、Hadoop、HBase、Presto、Hive 和其他大數據架構

Amazon EMR 提供受管的 Hadoop 框架，讓您以輕鬆、快速且經濟實惠的方式，在動態可擴展的 Amazon EC2 執行個體之間處理大量資料。您也可以執行其他常用的分散式架構 (例如 EMR 中的 Apache Spark、HBase、Presto 和 Flink)，並與其他 AWS 資料存放區 (例如 Amazon S3 和 Amazon DynamoDB) 中的資料進行互動。EMR Notebook 以流行的 Jupyter Notebook 為基礎，為臨時查詢和探索分析提供開發和協作環境。

EMR 能夠安全可靠地處理各式各樣的大數據使用案例，包括日誌分析、Web 索引、資料轉換 (ETL)、機器學習、財務分析、科學模擬和生物資訊學。

Amazon EMR 簡介 (3:00)

優勢

易於使用

您只需幾分鐘就可以啟動 EMR 叢集。您不必擔心節點佈建、叢集設定、Hadoop 組態或叢集調校。EMR 會處理這些任務，您只需集中精力進行分析即可。資料科學家、開發人員和分析師也可以使用 EMR Notebook (以 Jupyter Notebook 為基礎的受管環境) 建構應用程式並與同儕合作。

低成本

EMR 定價不但簡單而且可預測：您只需依所用的秒數支付每執行個體費率，但需支付一分鐘最低費用。您可以啟動 10 節點 EMR 叢集並使用 Hadoop、Spark 和 Hive 等應用程式，每小時只需 0.15 USD。因為 EMR 原生支援 Amazon EC2 Spot 和預留執行個體，您還可以節省 50% 到 80% 的基礎執行個體成本。

彈性

使用 EMR，您可以佈建一個、數百個或者甚至數千個運算執行個體來處理任何規模的資料。您可以手動或使用 Auto Scaling 輕鬆增加或減少執行個體的數量，並且只需按使用量付費。EMR 還將運算執行個體和持久性儲存分離，因此可以單獨擴展。

可靠

您可以花較少時間在調校和監控叢集方面。EMR 的 Hadoop 已經針對雲端進行優化，它還會監控您的叢集，重新嘗試失敗的任務，並自動替換效能不佳的執行個體。EMR 提供最新的穩定開放程式碼軟體版本，因此您無需管理更新和錯誤修正，從而減少問題，並減少維護環境的工作量。

安全

EMR 會自動配置 EC2 防火牆設定以控制對執行個體的網路存取，並且您可以在 Amazon Virtual Private Cloud (VPC) (由您定義的邏輯隔離網路) 中啟動叢集。針對存放在 S3 的物件，您可以使用 S3 伺服器端加密或 Amazon S3 用戶端加密搭配 EMRFS、AWS Key Management Service 或客戶管理的金鑰。您也可以輕鬆啟用其他加密選項和 Kerberos 身份驗證。