Amazon EMR
Ejecución y escalado sencillos de Apache Spark, Hadoop, HBase, Presto, Hive y otros marcos de big data
Amazon EMR proporciona un marco Hadoop administrado que permite procesar enormes volúmenes de datos de manera sencilla, ágil y rentable en instancias de Amazon EC2 cuya escala puede ajustarse de manera dinámica. También puede ejecutar en EMR otros marcos populares distribuidos, como Apache Spark, HBase, Presto y Flink, e interactuar con los datos de otros almacenes de datos de AWS, como Amazon S3 y Amazon DynamoDB. Los blocs de notas de EMR, que se basan en el popular Jupyter Notebook, proporcionan un entorno de desarrollo y colaboración para análisis exploratorios y consultas ad hoc.
EMR administra de manera segura y fiable un amplio conjunto de casos de uso de big data, incluido el análisis de registros, la indexación web, las transformaciones de datos (ETL), el aprendizaje automático, el análisis financiero, la simulación científica y la bioinformática.
Beneficios
Facilidad de uso
Puede lanzar un clúster de EMR en cuestión de minutos. No hay que preocuparse por el aprovisionamiento de nodos, la configuración del clúster, la configuración de Hadoop ni el ajuste del clúster. EMR se encarga de estas tareas para que pueda centrarse en los análisis. Los científicos, desarrolladores y analistas de datos también pueden utilizar los blocs de notas de EMR, un entorno administrado basado en Jupyter Notebook, para crear aplicaciones y colaborar con sus compañeros.
Bajo costo
Los precios de EMR son simples y predecibles: paga una tarifa por cada segundo utilizado, con un cobro mínimo de un minuto. Puede lanzar un clúster EMR de 10 nodos con aplicaciones como Hadoop, Spark y Hive, por tan sólo 0,15 USD por hora. Como EMR ofrece compatibilidad nativa con las instancias de spot y reservadas de Amazon EC2, puede ahorrar entre el 50% y el 80% del costo de las instancias subyacentes.
Elasticidad
Gracias a EMR, puede aprovisionar una instancia informática, cientos o miles de ellas para procesar datos en cualquier escala. Puede aumentar o reducir con facilidad el número de instancias de forma manual o con Auto Scaling y solo tendrá que pagar por lo que utilice. EMR también separa las instancias de informática y de almacenamiento persistente, de modo que se pueden escalar de forma independiente.
Fiabilidad
Puede dedicar menos tiempo a ajustar y monitorizar el clúster. EMR ajustó Hadoop para la nube. También monitorea el clúster, ya que reintenta las tareas fallidas y sustituye automáticamente las instancias que tengan un rendimiento deficiente. EMR proporciona las últimas versiones estables de software de código abierto, por lo que no tiene que administrar actualizaciones y correcciones de errores, lo que conlleva menos problemas y menos esfuerzo para mantener el entorno.
Seguridad
EMR configura automáticamente el firewall de EC2 que controla el acceso de red a las instancias y el usuario puede lanzar clústeres en Amazon Virtual Private Cloud (VPC), una red aislada lógicamente que el usuario define. Si se trata de objetos almacenados en S3, puede utilizar el cifrado en el lado del servidor de S3 o el cifrado en el lado del cliente de Amazon S3 con ayuda de EMRFS, con AWS Key Management Service o con claves administradas por el cliente. También es posible habilitar fácilmente otras opciones de cifrado y autenticación con Kerberos.
Flexibilidad
El usuario tiene control pleno del clúster. Tendrá acceso raíz a todas las instancias, para que pueda instalar aplicaciones adicionales con facilidad y personalizar cada clúster con acciones de arranque. También puede implementar clústeres de EMR con AMI de Amazon Linux personalizadas.
Casos de uso
Análisis de secuencias de clics
EMR se puede usar para analizar datos de secuencias de clics con el fin de segmentar usuarios, comprender las preferencias de los usuarios y entregar anuncios más efectivos.
Análisis en tiempo real
Reciba y procese datos en tiempo real de Amazon Kinesis, Apache Kafka u otras transmisiones de datos con Spark Streaming en EMR. Realice el análisis de streaming de forma tolerante a errores y grabe los resultados en S3 o HDFS.
Análisis de registros
EMR se puede utilizar para procesar registros generados por aplicaciones web y móviles. EMR ayuda a los clientes a transformar petabytes de datos desestructurados o semiestructurados en información útil sobre las aplicaciones o los usuarios.
Extracción, transformación y carga (ETL)
EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como por ejemplo ordenación, agregación e inclusión, en conjuntos de datos de gran tamaño.
Análisis predictivos
Apache Spark en EMR incluye MLlib para ofrecer algoritmos de aprendizaje automático escalables. También puede usar sus propias bibliotecas. Al almacenar conjuntos de datos en memoria, Spark ofrece un gran rendimiento para cargas de trabajo de aprendizaje automático comunes.
Genómica
EMR se puede utilizar para procesar grandes volúmenes de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos alojados de forma gratuita en AWS.
Artículos y publicaciones de blog
Introducción a AWS
Regístrese para obtener una cuenta de AWS
Comience a crear con AWS
Más información sobre Amazon EMR







