AWS Glue es un servicio de extracción, transformación y carga (ETL) completamente administrado que ayuda a los clientes a preparar y cargar los datos para su análisis. Puede crear y ejecutar un trabajo de ETL con tan solo unos clics en la consola de administración de AWS. Simplemente debe apuntar AWS Glue a sus datos almacenados en AWS y AWS Glue encontrará sus datos y almacenará los metadatos asociados (p. ej., esquemas y definiciones de tablas) en el catálogo de datos de AWS Glue. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente en sus datos, que están disponibles para operaciones de ETL.
Beneficios
Menos complicaciones
AWS Glue se integra en una amplia variedad de servicios de AWS, lo que simplifica el proceso de incorporación. AWS Glue es compatible de manera nativa con datos almacenados en Amazon Aurora y con los demás motores de Amazon RDS, Amazon Redshift y Amazon S3, así como también con los motores de bases de datos comunes y las bases de datos de su nube virtual privada (Amazon VPC) que se ejecutan en Amazon EC2.
Rentabilidad
AWS Glue es un servicio sin servidor. No es necesario aprovisionar ni administrar infraestructura. AWS Glue administra el aprovisionamiento, la configuración y el escalado de los recursos necesarios para ejecutar sus trabajos de ETL en un entorno Apache Spark totalmente administrado y escalable. Solo paga por los recursos utilizados mientras se ejecutan los trabajos.
Mayor eficacia
AWS Glue automatiza gran parte del proceso de creación, mantenimiento y ejecución de trabajos de ETL. AWS Glue rastrea sus orígenes de datos, identifica formatos de datos y sugiere esquemas y transformaciones. AWS Glue genera automáticamente el código para ejecutar sus transformaciones de datos y procesos de carga.
Funcionamiento
Seleccione un origen y un destino para los datos. AWS Glue generará código ETL en Scala o Python para extraer datos del origen, transformar los datos de manera que se correspondan con los esquemas de destino y cargarlos en el destino. Puede editar y probar el código y depurar errores mediante la consola, en su IDE favorito o en cualquier bloc de notas.
Primero, use la consola de administración de AWS para registrar sus orígenes de datos. AWS Glue rastreará las fuentes de datos y construirá un catálogo de datos con clasificadores predeterminados para muchos formatos de origen y tipos de datos conocidos, incluidos JSON, CSV, Parquet y más.
A continuación, seleccione un origen y un destino de datos. AWS Glue generará código ETL en Scala o Python para extraer datos del origen, transformar los datos de manera que se correspondan con los esquemas de destino y cargarlos en el destino. Puede editar y probar el código y depurar errores mediante la consola, en su IDE favorito o en cualquier bloc de notas.
AWS Glue facilita la programación de trabajos de ETL periódicos, el encadenamiento de varios trabajos o la invocación de ellos bajo demanda desde otros servicios, como AWS Lambda. AWS Glue administra las dependencias entre trabajos, escala automáticamente los recursos subyacentes y vuelve a intentar ejecutar los trabajos si se produce un error.
Para obtener más información, visite la página de características de AWS Glue o consulte la documentación del producto.
Casos de uso
Consultas en un lago de datos de Amazon S3
Los lagos de datos son una manera cada vez más popular de almacenar y analizar datos estructurados y sin estructurar. Si desea crear su propio lago de datos personalizado de Amazon S3, AWS Glue puede hacer que sus datos estén inmediatamente disponibles para su análisis sin moverlos.
Obtenga más información sobre cómo crear un lago de datos seguro en cuestión de días en AWS Lake Formation.
Analice datos de registros en su almacén de datos
Prepare su secuencia de clics o procese datos de registros para su análisis mediante tareas de limpieza, normalización y enriquecimiento en los conjuntos de datos con AWS Glue. AWS Glue genera el esquema de sus datos semiestructurados, crea código ETL para transformar, quitar el formato y enriquecer los datos, y carga su almacén de datos de forma periódica.
Vista unificada de sus datos en numerosos almacenes de datos
Puede usar el catálogo de datos de AWS Glue para descubrir y buscar con rapidez en numerosos conjuntos de datos de AWS sin mover los datos. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.
Canalizaciones de ETL determinadas por eventos
AWS Glue puede ejecutar sus trabajos de ETL en función de un evento, como la obtención de un nuevo conjunto de datos. Por ejemplo, puede usar una función de AWS Lambda para que active sus trabajos de ETL de manera que se ejecuten en cuanto haya una nueva base de datos disponible en Amazon S3. También puede registrar este nuevo conjunto de datos en el catálogo de datos de AWS Glue como parte de sus trabajos de ETL.
Novedades
Obtenga más información sobre las características clave de AWS Glue.
Obtenga acceso instantáneo a la capa gratuita de AWS.
Comience a crear con AWS Glue en la consola de administración de AWS.