Amazon EMR

Ejecución y escalado sencillos de Apache Spark, Hadoop, HBase, Presto, Hive y otros marcos de big data

Amazon EMR proporciona un marco Hadoop administrado que permite procesar enormes volúmenes de datos de manera sencilla, ágil y rentable en instancias de Amazon EC2 cuya escala puede ajustarse de manera dinámica. También puede ejecutar en EMR otros marcos populares distribuidos, como Apache Spark, HBase, Presto y Flink, e interactuar con los datos de otros almacenes de datos de AWS, como Amazon S3 y Amazon DynamoDB. Los blocs de notas de EMR, que se basan en el popular Jupyter Notebook, proporcionan un entorno de desarrollo y colaboración para análisis exploratorios y consultas ad hoc.

EMR administra de manera segura y fiable un amplio conjunto de casos de uso de big data, incluido el análisis de registros, la indexación web, las transformaciones de datos (ETL), el aprendizaje automático, el análisis financiero, la simulación científica y la bioinformática.

Introducción a Amazon EMR (3:00)

Beneficios

Facilidad de uso

Puede lanzar un clúster de EMR en cuestión de minutos. No hay que preocuparse por el aprovisionamiento de nodos, la configuración del clúster, la configuración de Hadoop ni el ajuste del clúster. EMR se encarga de estas tareas para que pueda centrarse en los análisis. Los científicos, desarrolladores y analistas de datos también pueden utilizar los blocs de notas de EMR, un entorno administrado basado en Jupyter Notebook, para crear aplicaciones y colaborar con sus compañeros.

Bajo costo

Los precios de EMR son simples y predecibles: paga una tarifa por cada segundo utilizado, con un cobro mínimo de un minuto. Puede lanzar un clúster EMR de 10 nodos con aplicaciones como Hadoop, Spark y Hive, por tan sólo 0,15 USD por hora. Como EMR ofrece compatibilidad nativa con las instancias de spot y reservadas de Amazon EC2, puede ahorrar entre el 50% y el 80% del costo de las instancias subyacentes.

Elasticidad

Gracias a EMR, puede aprovisionar una instancia informática, cientos o miles de ellas para procesar datos en cualquier escala. Puede aumentar o reducir con facilidad el número de instancias de forma manual o con Auto Scaling y solo tendrá que pagar por lo que utilice. EMR también separa las instancias de informática y de almacenamiento persistente, de modo que se pueden escalar de forma independiente.

Fiabilidad

Puede dedicar menos tiempo a ajustar y monitorizar el clúster. EMR ajustó Hadoop para la nube. También monitorea el clúster, ya que reintenta las tareas fallidas y sustituye automáticamente las instancias que tengan un rendimiento deficiente. EMR proporciona las últimas versiones estables de software de código abierto, por lo que no tiene que administrar actualizaciones y correcciones de errores, lo que conlleva menos problemas y menos esfuerzo para mantener el entorno.

Seguridad

EMR configura automáticamente el firewall de EC2 que controla el acceso de red a las instancias y el usuario puede lanzar clústeres en Amazon Virtual Private Cloud (VPC), una red aislada lógicamente que el usuario define. Si se trata de objetos almacenados en S3, puede utilizar el cifrado en el lado del servidor de S3 o el cifrado en el lado del cliente de Amazon S3 con ayuda de EMRFS, con AWS Key Management Service o con claves administradas por el cliente. También es posible habilitar fácilmente otras opciones de cifrado y autenticación con Kerberos.

Flexibilidad

El usuario tiene control pleno del clúster. Tendrá acceso raíz a todas las instancias, para que pueda instalar aplicaciones adicionales con facilidad y personalizar cada clúster con acciones de arranque. También puede implementar clústeres de EMR con AMI de Amazon Linux personalizadas.

Casos de uso

Análisis de secuencias de clics

EMR se puede usar para analizar datos de secuencias de clics con el fin de segmentar usuarios, comprender las preferencias de los usuarios y entregar anuncios más efectivos.

Obtenga información acerca de cómo Razorfish utiliza EMR para el análisis de secuencias de clics »

Análisis en tiempo real

Reciba y procese datos en tiempo real de Amazon Kinesis, Apache Kafka u otras transmisiones de datos con Spark Streaming en EMR. Realice el análisis de streaming de forma tolerante a errores y grabe los resultados en S3 o HDFS.

Obtenga información acerca de cómo Hearst utiliza Spark Streaming »

Análisis de registros

EMR se puede utilizar para procesar registros generados por aplicaciones web y móviles. EMR ayuda a los clientes a transformar petabytes de datos desestructurados o semiestructurados en información útil sobre las aplicaciones o los usuarios.

Extracción, transformación y carga (ETL)

EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como por ejemplo ordenación, agregación e inclusión, en conjuntos de datos de gran tamaño.

Obtenga información acerca de cómo Redfin utiliza clústeres de EMR transitorios para ETL »

Análisis predictivos

Apache Spark en EMR incluye MLlib para ofrecer algoritmos de aprendizaje automático escalables. También puede usar sus propias bibliotecas. Al almacenar conjuntos de datos en memoria, Spark ofrece un gran rendimiento para cargas de trabajo de aprendizaje automático comunes.

Obtenga información acerca de cómo Intent Media utiliza Spark MLib »

Genómica

EMR se puede utilizar para procesar grandes volúmenes de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos alojados de forma gratuita en AWS.

Obtenga información sobre Apache Spark y la medicina de precisión »