Amazon EMR

Jalankan dan Skalakan Apache Spark, Hadoop, HBase, Presto, Hive, dan Kerangka Kerja Big Data lainnya dengan Mudah

Ajukan permintaan dukungan untuk evaluasi Anda

Amazon EMR menyediakan kerangka kerja Hadoop terkelola yang membuat pemrosesan jumlah data yang besar secara mudah, cepat, dan hemat di seluruh instans EC2 Amazon yang dapat diskalakan secara dinamis. Anda juga dapat menjalankan kerangka kerja populer yang didistribusikan seperti Apache Spark, HBase, Presto, dan Flink di EMR, dan berinteraksi dengan data dalam penyimpanan data AWS lain seperti Amazon S3 dan Amazon DynamoDB. EMR Notebook, berdasarkan Jupyter Notebook yang populer, memberikan lingkungan pengembangan dan kolaborasi untuk pembuatan kueri ad hoc dan analisis penjelajahan.

EMR menangani berbagai set kasus penggunaan big data secara aman dan tepercaya, termasuk analisis log, pengindeksan web, transformasi data (ETL), machine learning, analisis keuangan, simulasi ilmiah, dan bioinformatika.

Pengantar untuk Amazon Amazon EMR (3:00)

Keuntungan

Mudah Digunakan

Anda dapat meluncurkan klaster EMR dalam beberapa menit. Anda tidak perlu khawatir tentang penyediaan node, penyiapan klaster, konfigurasi Hadoop , atau pengaturan klaster. EMR menangani tugas-tugas tersebut sehingga Anda dapat fokus pada analisis. Ilmuwan, pengembang, dan analis data juga dapat menggunakan EMR Notebook, lingkungan terkelola berbasis Jupyter Notebook, untuk membangun aplikasi dan berkolaborasi dengan rekan kerja.

Hemat biaya

Tarif EMR sederhana dan mudah ditebak: Anda membayar tarif per instans untuk setiap detik pemakaian, dengan minimum pembayaran satu menit. Anda dapat meluncurkan klaster EMR 10 node dengan aplikasi seperti Hadoop, Spark, dan Hive, cukup dengan biaya 0,15 per jam. Karena EMR memiliki dukungan native untuk Amazon EC2 Spot dan Instans Cadangan, Anda juga dapat menghemat 50-80% dalam biaya instans yang mendasar.

Elastic

Dengan EMR, Anda dapat menyediakan satu, ratusan, atau ribuan instans komputasi untuk memproses data dalam skala apa pun. Anda dapat dengan mudah meningkatkan atau mengurangi jumlah instans secara manual atau dengan Auto Scaling, dan Anda hanya membayar apa yang digunakan. EMR juga dapat memisahkan instans komputasi dan penyimpanan persisten, sehingga dapat diskalakan secara independen.

Tepercaya

Anda dapat menghabiskan lebih sedikit waktu untuk menyetel dan memonitor klaster. EMR telah mengatur Hadoop untuk cloud; juga memonitor klaster Anda – mencoba kembali tugas yang gagal dan secara otomatis mengganti instans yang kinerjanya buruk. EMR memberikan rilis perangkat lunak sumber terbuka stabil terbaru, sehingga Anda tidak perlu mengelola pembaruan dan perbaikan bug, mengurangi masalah dan usaha untuk mengelola lingkungan.

Aman

EMR secara otomatis mengatur pengaturan firewall EC2 yang mengontrol akses jaringan ke instans, dan Anda dapat meluncurkan klaster dalam Amazon Virtual Private Cloud (VPC), jaringan yang terisolasi secara logika yang Anda tentukan. Untuk objek yang disimpan di S3, Anda dapat menggunakan enskripsi sisi server S3 atau enkripsi sisi klien Amazon S3 dengan EMRFS, dengan AWS Key Management Service atau kunci yang dikelola pelanggan. Anda juga dapat dengan mudah mengaktifkan opsi enkripsi dan autentikasi dengan Kerberos lainnya.

Fleksibel

Anda memiliki kendali penuh atas klaster Anda. Anda memiliki akses akar untuk tiap instans, sehingga Anda dapat dengan mudah menginstal aplikasi tambahan, dan Anda dapat mengkustomisasi tiap klaster dengan tindakan bootstrap. Anda juga dapat meluncurkan klaster EMR dengan Amazon Linux AMI kustom.

Kasus penggunaan

Analisis clickstream

EMR dapat digunakan untuk menganalisis data aliran klik untuk melakukan segmentasi pengguna, memahami preferensi pengguna, dan menampilkan iklan yang lebih efektif.

Pelajari bagaimana Razorfish menggunakan EMR untuk analisis aliran klik »

Analisis Real-time

Konsumsi dan proses data real-time dari Amazon Kinesis, Apache Kafka, atau aliran data lainnya dengan Spark Streaming pada EMR. Lakukan analisis streaming dengan cara yang bertoleransi kesalahan dan tulis hasilnya ke S3 atau HDFS.

Pelajari bagaimana Hearst menggunakan Spark Streaming »

Analisis log

EMR dapat digunakan untuk memproses log yang dimuat oleh web dan aplikasi mobile. EMR membantu pelanggan untuk mengubah petabytes dari data yang tidak terstruktur atau semi terstruktur menjadi informasi yang berguna tentang aplikasi dan pengguna mereka.

Extract transform load (ETL)

EMR dapat digunakan untuk melakukan data transformation workloads (ETL) seperti – menyortir, agregat, dan menggabungkan – pada dataset yang besar secara cepat dan hemat.

Pelajari bagaimana Redfin menggunakan klaster EMR sementara untuk ETL »

Analisis prediktif

Apache Spark pada EMR mencakup MLlib untuk algoritma machine learning yang dapat diskalakan atau Anda dapat menggunakan pustaka Anda sendiri. Dengan menyimpan dataset dalam memori, Spark dapat memberikan kinerja yang bagus untuk beban kerja machine learning yang biasa.

Pelajari bagaimana Intent Media menggunakan Spark MLib »

Genomika

EMR dapat digunakan untuk memproses sejumlah besar data genomika dan data set ilmiah lainnya yang besar dengan cepat dan efisien. Peneliti dapat mengakses data genomika yang dihosting secara gratis pada AWS.

Pelajari tentang Apache Spark dan Precision Medicine »