Amazon EMR
Jalankan dan Skalakan Apache Spark, Hadoop, HBase, Presto, Hive, dan Kerangka Kerja Big Data lainnya dengan Mudah
Amazon EMR menyediakan kerangka kerja Hadoop terkelola yang membuat pemrosesan jumlah data yang besar secara mudah, cepat, dan hemat di seluruh instans EC2 Amazon yang dapat diskalakan secara dinamis. Anda juga dapat menjalankan kerangka kerja populer yang didistribusikan seperti Apache Spark, HBase, Presto, dan Flink di EMR, dan berinteraksi dengan data dalam penyimpanan data AWS lain seperti Amazon S3 dan Amazon DynamoDB. EMR Notebook, berdasarkan Jupyter Notebook yang populer, memberikan lingkungan pengembangan dan kolaborasi untuk pembuatan kueri ad hoc dan analisis penjelajahan.
EMR menangani berbagai set kasus penggunaan big data secara aman dan tepercaya, termasuk analisis log, pengindeksan web, transformasi data (ETL), machine learning, analisis keuangan, simulasi ilmiah, dan bioinformatika.
Keuntungan
Mudah Digunakan
Anda dapat meluncurkan klaster EMR dalam beberapa menit. Anda tidak perlu khawatir tentang penyediaan node, penyiapan klaster, konfigurasi Hadoop , atau pengaturan klaster. EMR menangani tugas-tugas tersebut sehingga Anda dapat fokus pada analisis. Ilmuwan, pengembang, dan analis data juga dapat menggunakan EMR Notebook, lingkungan terkelola berbasis Jupyter Notebook, untuk membangun aplikasi dan berkolaborasi dengan rekan kerja.
Hemat biaya
Tarif EMR sederhana dan mudah ditebak: Anda membayar tarif per instans untuk setiap detik pemakaian, dengan minimum pembayaran satu menit. Anda dapat meluncurkan klaster EMR 10 node dengan aplikasi seperti Hadoop, Spark, dan Hive, cukup dengan biaya 0,15 per jam. Karena EMR memiliki dukungan native untuk Amazon EC2 Spot dan Instans Cadangan, Anda juga dapat menghemat 50-80% dalam biaya instans yang mendasar.
Elastic
Dengan EMR, Anda dapat menyediakan satu, ratusan, atau ribuan instans komputasi untuk memproses data dalam skala apa pun. Anda dapat dengan mudah meningkatkan atau mengurangi jumlah instans secara manual atau dengan Auto Scaling, dan Anda hanya membayar apa yang digunakan. EMR juga dapat memisahkan instans komputasi dan penyimpanan persisten, sehingga dapat diskalakan secara independen.
Tepercaya
Anda dapat menghabiskan lebih sedikit waktu untuk menyetel dan memonitor klaster. EMR telah mengatur Hadoop untuk cloud; juga memonitor klaster Anda – mencoba kembali tugas yang gagal dan secara otomatis mengganti instans yang kinerjanya buruk. EMR memberikan rilis perangkat lunak sumber terbuka stabil terbaru, sehingga Anda tidak perlu mengelola pembaruan dan perbaikan bug, mengurangi masalah dan usaha untuk mengelola lingkungan.
Aman
EMR secara otomatis mengatur pengaturan firewall EC2 yang mengontrol akses jaringan ke instans, dan Anda dapat meluncurkan klaster dalam Amazon Virtual Private Cloud (VPC), jaringan yang terisolasi secara logika yang Anda tentukan. Untuk objek yang disimpan di S3, Anda dapat menggunakan enskripsi sisi server S3 atau enkripsi sisi klien Amazon S3 dengan EMRFS, dengan AWS Key Management Service atau kunci yang dikelola pelanggan. Anda juga dapat dengan mudah mengaktifkan opsi enkripsi dan autentikasi dengan Kerberos lainnya.
Fleksibel
Anda memiliki kendali penuh atas klaster Anda. Anda memiliki akses akar untuk tiap instans, sehingga Anda dapat dengan mudah menginstal aplikasi tambahan, dan Anda dapat mengkustomisasi tiap klaster dengan tindakan bootstrap. Anda juga dapat meluncurkan klaster EMR dengan Amazon Linux AMI kustom.
Kasus penggunaan
Analisis clickstream
EMR dapat digunakan untuk menganalisis data aliran klik untuk melakukan segmentasi pengguna, memahami preferensi pengguna, dan menampilkan iklan yang lebih efektif.
Analisis Real-time
Konsumsi dan proses data real-time dari Amazon Kinesis, Apache Kafka, atau aliran data lainnya dengan Spark Streaming pada EMR. Lakukan analisis streaming dengan cara yang bertoleransi kesalahan dan tulis hasilnya ke S3 atau HDFS.
Analisis log
EMR dapat digunakan untuk memproses log yang dimuat oleh web dan aplikasi mobile. EMR membantu pelanggan untuk mengubah petabytes dari data yang tidak terstruktur atau semi terstruktur menjadi informasi yang berguna tentang aplikasi dan pengguna mereka.
Extract transform load (ETL)
EMR dapat digunakan untuk melakukan data transformation workloads (ETL) seperti – menyortir, agregat, dan menggabungkan – pada dataset yang besar secara cepat dan hemat.
Analisis prediktif
Apache Spark pada EMR mencakup MLlib untuk algoritma machine learning yang dapat diskalakan atau Anda dapat menggunakan pustaka Anda sendiri. Dengan menyimpan dataset dalam memori, Spark dapat memberikan kinerja yang bagus untuk beban kerja machine learning yang biasa.
Genomika
EMR dapat digunakan untuk memproses sejumlah besar data genomika dan data set ilmiah lainnya yang besar dengan cepat dan efisien. Peneliti dapat mengakses data genomika yang dihosting secara gratis pada AWS.
Postingan Blog & artikel
Mulai menggunakan AWS
Mulai membangun dengan AWS
Pelajari selengkapnya tentang Amazon EMR







