Amazon EMR

Einfache Ausführung und Skalierung von Apache Spark, Hadoop, HBase, Presto, Hive und anderen Big Data-Frameworks

Fordern Sie Unterstützung für Ihren Test an

Amazon EMR bietet ein verwaltetes Hadoop-Framework, mit dem Sie umfangreiche Datenmengen einfach, schnell und kosteneffektiv in dynamisch skalierbaren Amazon EC2 Instances verarbeiten können. Außerdem können Sie andere gängige verteilte Frameworks wie Apache Spark, HBase, Presto und Flink in EMR ausführen und mit Daten in anderen AWS-Datenspeichern wie Amazon S3 und Amazon DynamoDB interagieren. EMR Notebooks, basierend auf dem beliebten Jupyter Notebook, bieten eine Entwicklungs- und Kollaborationsumgebung für Ad-hoc-Abfragen und explorative Analysen.

EMR verarbeitet sicher und zuverlässig eine Vielzahl von Anwendungsfällen für große Datenmengen, einschließlich Protokollanalyse, Web-Indexierung, Datentransformationen (ETL), Machine Learning, Finanzanalyse, wissenschaftliche Simulation und Bioinformatik.

Eine Einführung in Amazon EMR (3:00)

Vorteile

Einfache Nutzung

Sie können einen EMR-Cluster in wenigen Minuten starten. Sie brauchen sich nicht um die Bereitstellung von Knoten, die Einrichtung von Clustern, die Konfiguration von Hadoop oder die Optimierung von Clustern zu kümmern. Diese Aufgaben übernimmt EMR, damit Sie sich auf die Analyse konzentrieren können. Datenwissenschaftler, Entwickler und Analysten können EMR Notebooks, eine auf Jupyter Notebook basierende verwaltete Umgebung, auch für die Entwicklung von Anwendungen und die Zusammenarbeit mit Kollegen nutzen.

Geringe Kosten

Die EMR-Preise sind einfach und vorhersehbar: Sie bezahlen einen Pro-Instanz-Tarif für jede verbrauchte Sekunde, mit einer minimalen Gebühr von einer Minute. Sie können einen 10-Knoten-EMR-Cluster mit Anwendungen wie Hadoop, Spark und Hive für nur 0,15 USD pro Stunde starten. Da EMR die native Unterstützung für Amazon EC2 Spot und Reserved Instances hat, können Sie auch 50 - 80 % der Kosten der zugrunde liegenden Instances sparen.

Flexibel

Mit EMR können Sie eine, Hunderte oder sogar Tausende von Datenverarbeitungs-Instances bereitstellen, um Daten jeder Größenordnung zu verarbeiten. Sie können die Anzahl der Instances einfach manuell oder mittels Auto Scaling erhöhen oder verringern, und zahlen nur für das, was Sie nutzen. EMR entkoppelt auch Datenverarbeitungs-Instances und persistente Speicher, so dass sie unabhängig skaliert werden können.

Zuverlässig

Sie brauchen weniger Zeit für die Optimierung und Überwachung Ihres Clusters aufzuwenden. EMR hat Hadoop für die Cloud optimiert. Es überwacht auch Ihren Cluster, wiederholt fehlgeschlagene Aufgaben und ersetzt Instances mit schlechter Leistung automatisch. EMR bietet die neuesten stabilen Open-Source-Software-Versionen, so dass Sie keine Aktualisierungen und Bugfixes verwalten müssen, was zu weniger Problemen und weniger Aufwand bei der Wartung der Umgebung führt.

Sicher

EMR konfiguriert automatisch EC2-Firewall-Einstellungen, die den Netzwerkzugriff auf Instanzen steuern, und Sie können Cluster in einer Amazon Virtual Private Cloud (VPC) starten, einem von Ihnen definierten logisch isolierten Netzwerk. Für Objekte, die in S3 gespeichert sind, können Sie die S3-Verschlüsselung auf der Serverseite oder die Amazon S3-Verschlüsselung auf der Clientseite mit EMRFS, mit dem AWS Key Management Service oder kundenverwalteten Schlüsseln verwenden. Darüber hinaus können Sie mühelos andere Verschlüsselungsoptionen sowie die Authentifizierung mit Kerberos aktivieren.

Flexibel

Sie haben die vollständige Kontrolle über Ihren Cluster. Sie verfügen über Root-Zugriff auf jede Instance, sodass Sie mühelos zusätzliche Anwendungen installieren können, und Sie können jeden Cluster mit Bootstrap-Aktionen anpassen. Sie können EMR-Cluster auch mit benutzerdefinierten Amazon Linux-AMIs starten.

Anwendungsfälle

Clickstream-Analyse

Sie können mit EMR Clickstream-Daten analysieren, um Benutzer zu segmentieren, Benutzereinstellungen zu verstehen und effektivere Anzeigen zu schalten.

Weitere Informationen dazu, wie Razorfish mit EMR Click-Stream-Analysen durchführt »

Echtzeitanalysen

Konsumieren und verarbeiten Sie Echtzeitdaten von Amazon Kinesis, Apache Kafka oder anderen Daten-Streams mit Spark Streaming in EMR. Führen Sie Streaming-Analysen fehlertolerant durch und schreiben Sie die Ergebnisse in S3 oder HDFS.

Erfahren Sie, wie Hearst Spark Streaming nutzt »

Protokollanalyse

EMR kann zur Verarbeitung von Protokollen verwendet werden, die von Web- und mobilen Anwendungen erzeugt werden. EMR hilft den Kunden, Petabytes an unstrukturierten und halbstrukturierten Daten in nützliche Einblicke in Anwendungen und Benutzerverhalten zu verwandeln.

Extract Transform Load (ETL)

EMR bietet Ihnen die Möglichkeit, Verarbeitungslasten zur Datentransformation (ETL) großer Datensätze, wie das Sortieren, Aggregieren und Zusammenführen von Daten, schnell und kosteneffizient durchzuführen.

Erfahren Sie, wie Redfin transiente EMR-Cluster für ETL verwendet »

Prädiktive Analysen

Apache Spark in EMR enthält MLlib für skalierbare Machine Learning-Algorithmen oder Sie können Ihre eigenen Bibliotheken verwenden. Apache Spark für Amazon EMR beinhaltet MLlib für skalierbare Algorithmen für Machine Learning. Alternativ haben Sie auch die Möglichkeit, Ihre eigenen Bibliotheken zu verwenden.

Erfahren Sie, wie Intent Media Spark MLib verwendet »

Genomik

Mit EMR können große Mengen an genomischen Daten und anderen großen wissenschaftlichen Datensätzen schnell und effizient verarbeitet werden. Forscher können kostenfrei auf durch AWS gehostete genomische Daten zugreifen.

Erfahren Sie mehr über Apache Spark und Präzisionsmedizin »