Amazon EMR
Amazon EMR è la piattaforma cloud di Big Data leader del settore per l'elaborazione di grandi quantità di dati tramite strumenti open source comeApache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi e Presto. EMR consente di eseguire analisi su scala Petabyte a meno della metà del costo delle tradizionali soluzioni in locale e con una velocità 3 volte superiore a quella della versione standard di Apache Spark. Per i lavori di breve durata, è possibile eseguire la rotazione e la riduzione dei cluster e pagare al secondo per le istanze utilizzate. Per carichi di lavoro di lunga durata, è possibile creare cluster a disponibilità elevata che si ridimensionano automaticamente per soddisfare la domanda. Con distribuzioni in locale esistenti di strumenti open source come Apache Spark e Apache Hive, è anche possibile eseguire i cluster EMR su AWS Outposts.
Vantaggi
Facilità d'uso
Analisti, tecnici dei dati e data scientist utilizzano EMR Notebooks, il che consentire così a singoli e team di collaborare ed esplorare facilmente, elaborare e visualizzare interattivamente i dati. È possibile specificare semplicemente la versione delle applicazioni EMR e il tipo di calcolo che si desidera utilizzare. EMR si occupa del provisioning, della configurazione e dell'ottimizzazione dei cluster in modo da lasciarti la possibilità di concentrarti interamente sull'esecuzione dell'analisi.
Costi ridotti
I costi di EMR sono chiari e semplici da calcolare: si paga una tariffa per istanza per ogni secondo usufruito, con un addebito minimo di 1 minuto. Il prezzo di un cluster EMR da 10 nodi parte da 0,15 USD all'ora. È inoltre possibile risparmiare il 50-80% sul costo delle istanze selezionando istanze Spot di Amazon EC2 per carichi di lavoro transitori e istanze riservate per quelli di lunga durata. Inoltre, è possibile utilizzare Savings Plans.
Elastico
A differenza della rigida infrastruttura dei cluster locali, EMR disaccoppia lo storage e il calcolo e consente di ridimensionare ciascuno in modo autonomo e sfruttare lo storage su più livelli di Amazon S3. Con EMR è possibile effettuare il provisioning di una, centinaia o migliaia di istanze di calcolo, per essere in grado di elaborare qualsiasi volume di dati. Il numero di istanze può essere aumentato o ridotto automaticamente con Auto Scaling (che gestisce le dimensioni dei cluster in base all'utilizzo) e i prezzi sono calcolati solo in base all'uso effettivo.
Affidabilità
Minor tempo dedicato a monitoraggio e configurazione del cluster. EMR è ottimizzato per il cloud ed esegue il monitoraggio costante del cluster, riavviando le attività con errori e sostituendo automaticamente le istanze con prestazioni insufficienti. Con più nodi master, i cluster sono caratterizzati da elevata disponibilità e failover automatico in caso di errore del nodo. EMR fornisce l'ultima release del software open source stabile, così non devi gestire aggiornamenti e correzioni di bug, con conseguenti minori problemi e impegno nel mantenere l'ambiente.
Sicurezza
EMR configura in modo automatico le impostazioni del firewall di EC2 che controllano l'accesso di rete alle istanze; consente inoltre di avviare i cluster in un Amazon Virtual Private Cloud (VPC). È possibile utilizzare la crittografia lato server o lato client con AWS Key Management Service o usando le chiavi gestite dal cliente. EMR facilita l'abilitazione di altre opzioni di crittografia, come la crittografia dei dati in-transito e dei dati inattivi e l'autenticazione avanzata con Kerberos. È possibile utilizzare AWS Lake Formation o Apache Ranger per applicare controlli di accesso granulari ai dati per database, tabelle e colonne.
Flessibilità
Questo ti consente di avere il controllo completo sul cluster con accesso root a ogni istanza. È possibile avviare cluster EMR con AMI di Amazon Linux personalizzate e installare facilmente applicazioni aggiuntive con azioni bootstrap. EMR consente di riconfigurare al volo le applicazioni in esecuzione di cluster senza la necessità di riavviare i cluster. Inoltre, utilizzando Hadoop 3.0, è possibile impacchettare le dipendenze delle librerie in container di Docker e inviarle con i lavori per semplificare le dipendenze dell'ambiente.
Casi d'uso
Machine learning
Utilizza gli strumenti incorporati di machine learning di EMR, tra cui Apache Spark MLlib, TensorFlow e Apache MXNet, per gli algoritmi di machine learning scalabili e utilizza AMI personalizzate e bootstrap actions per aggiungere facilmente le tue librerie e gli strumenti preferiti e creare il tuo personale set di strumenti di analisi predittiva.
Estrazione, trasformazione e caricamento dei dati (ETL)
EMR può essere utilizzato per eseguire operazioni di estrazione, trasformazione e caricamento dei dati o ETL (Extract, Transform, Load), ad esempio ordinamento, aggregazione e unione in set di dati di grandi dimensioni.
Analisi dei dati di clickstream
Analizza i dati di clickstream provenienti da Amazon S3 con Apache Spark e Apache Hive per dividere gli utenti in categorie, fare luce sulle preferenze degli utenti e pubblicare inserzioni più efficaci.
Streaming in tempo reale
Analizza gli eventi di Apache Kafka, Amazon Kinesis o di altre origini dati di streaming in tempo reale con Apache Spark Streaming e Apache Flink, per creare pipeline di dati di streaming di lunga durata, ad elevata disponibilità e con tolleranza agli errori in EMR. Permanenza dei set di dati trasformati in S3 o HDFS e approfondimenti in Amazon Elasticsearch Service.
Analisi interattiva
I notebook EMR forniscono un ambiente analitico gestito, basato sui Jupyter open source, che permette a data scientist, analisti e sviluppatori di preparare e visualizzare dati, collaborare con i peer, creare applicazioni e realizzare analisi interattive.
Genomica
La mappatura di un genoma, con la sua enorme mole di dati, è un'applicazione che sfrutta particolarmente la rapidità e l'efficienza fornite da EMR. I ricercatori che lavorano in questo campo possono accedere gratuitamente ai dati genomici in hosting su AWS.
Ricerche degli analisti
Novità
Inizia a usare AWS
Esegui la migrazione dei Big Data da locale ad AWS
Ottieni accesso istantaneo al piano gratuito di AWS.
Esegui la migrazione dei Big Data da locale ad AWS
Ulteriori informazioni sull'analisi e sui Big Data in AWS







