AWS Glue est un service d'extraction, de transformation et de chargement (ETL) entièrement géré qui facilite la préparation et le chargement des données pour analyse des clients. Vous pouvez créer et exécuter une tâche ETL en quelques clics grâce à AWS Management Console. Il vous suffit de pointer AWS Glue sur les données que vous avez stockées sur AWS pour qu'AWS Glue découvre vos données et les stocke dans la métadonnée (c'est-à-dire, la définition et le schéma de la table) associée dans le catalogue de données AWS Glue. Dès qu'elles sont répertoriées, il est possible d'effectuer des recherches, des requêtes et de rendre vos données disponibles pour l'ETL. AWS Glue génère le code pour exécuter les processus de transformation et de chargement de vos données.

AWS Glue génère du code personnalisable, réutilisable et portable. Lorsque votre tâche ETL est prête, vous pouvez prévoir son exécution sur l'environnement entièrement géré d'augmentation Apache Spark d'AWS Glue. AWS Glue apporte un planificateur flexible doté d'une résolution de dépendance, de la surveillance des tâches et d'un système d'alerte.

AWS Glue ne nécessite pas de serveur ; il n'y a donc pas d'infrastructure à construire, paramétrer ou gérer. Il alimente automatiquement l'environnement nécessaire pour réaliser la tâche et les clients ne paient que pour les ressources de calcul utilisées lorsqu'ils exécutent des tâches ETL. Avec AWS Glue, les données peuvent être disponibles pour analyse en quelques minutes.

Présentation d’AWS Glue (1:47)

Avantages

Facile

AWS Glue automatise la plupart des efforts en conception, maintenance et exécution des tâches ETL. AWS Glue analyse vos sources de données, identifie les formats de données et suggère des schémas et transformations. AWS Glue génère automatiquement le code nécessaire à l'exécution de vos processus de transformations et de chargements de données.

Intégrée

AWS Glue est intégré à un large éventail de services AWS, ce qui signifie une intégration facilitée. AWS Glue prend en charge de manière native les données stockées dans Amazon Aurora et tous les autres moteurs Amazon RDS, Amazon Redshift, Amazon S3, ainsi que les bases de données MySQL, Oracle, Microsoft SQL Server, et PostgreSQL dans votre Virtual Private Cloud (Amazon VPC) exécuté sur Amazon EC2. AWS Glue apporte une intégration clé en main à Amazon Athena, Amazon EMR, Amazon Redshift Spectrum ainsi qu'à toute application compatible du metastore Apache Hive.

Sans serveur

AWS Glue est sans serveur. Vous n'avez pas besoin de prévoir ni de gérer une infrastructure dédiée. AWS Glue gère la mise en service, la configuration et le dimensionnement des ressources nécessaires à l'exécution de tâches ETL dans un environnement entièrement géré d'augmentation Apache Spark. Vous ne payez que les ressources utilisées lors de l'exécution des tâches.

Facile d'utilisation pour les développeurs

AWS Glue génère du code ETL personnalisable, réutilisable et portable à l'aide de technologies familières : Scala, Python et Apache Spark. Vous pouvez également importer des lecteurs, des auteurs et des transformations personnalisées à votre code ETL Glue. Puisque le code qu'AWS Glue génère est basé sur des infrastructures ouvertes, il n'y a pas de verrouillage. Vous pouvez l'utiliser partout.

Fonctionnement

Sélectionnez une source et une cible de données. AWS Glue va générer le code ETL dans Scala ou Python pour extraire les données de la source, transformer les données pour correspondre au schéma cible et les charger dans la cible. Vous pouvez éditer, déboguer et tester ce code sur la console ou dans votre IDE favori ou sur tout ordinateur portable.

Etape 1 : Créer votre catalogue de données

Tout d'abord, utilisez AWS Management Console pour enregistrer vos sources de données. AWS Glue analyse vos sources de données et élabore un catalogue de données à l'aide de classificateurs préconfigurés pour de nombreux formats et types de données populaires, notamment JSON, CSV, Parquet et plus encore.

Etape 2 : Générer et modifier des transformations

Ensuite, sélectionnez une source et une cible de données. AWS Glue va générer le code ETL dans Scala ou Python pour extraire les données de la source, transformer les données pour correspondre au schéma cible et les charger dans la cible. Vous pouvez éditer, déboguer et tester ce code sur la console ou dans votre IDE favori ou sur tout ordinateur portable.

Etape 3 : Planifier et exécuter vos travaux

AWS Glue facilite la planification de tâches ETL récurrentes, l'association de plusieurs tâches ensemble ou l'appel de tâches à la demande de la part d'autres services comme AWS Lambda. AWS Glue gère les dépendances entre vos tâches, dimensionne automatiquement les ressources sous-jacentes et relance les tâches qui ont échoué.

Consultez la page Fonctionnalités d'AWS Glue ou la documentation sur le produit pour en savoir plus.

Cas d'utilisation

Requêtes contre un lac de données Amazon S3

Les lacs de données sont un moyen de plus en plus populaire de stocker et d'analyser des données structurées et non structurées. Si vous utilisez un lac de données Amazon S3, AWS Glue peut rendre vos données immédiatement disponibles pour analyse sans avoir à les déplacer.

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Analyse des données de journalisation dans votre entrepôt de données

Préparez vos données de parcours de navigation ou de journalisation des processus pour l'analyse en nettoyant, normalisant et enrichissant vos ensembles de données avec AWS Glue. AWS Glue génère le schéma pour vos données semi-structurées, crée le code ETL pour transformer, aplatir et enrichir vos données, et charge régulièrement votre entrepôt de données.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Vue unifiée de vos données sur plusieurs magasins de données

Vous pouvez utiliser le catalogue de données AWS Glue pour la découverte et la recherche rapide sur plusieurs sous-ensembles de données AWS sans devoir déplacer les données. Une fois que les données sont cataloguées, elles sont immédiatement disponibles pour la recherche et l'interrogation avec Amazon Athena, Amazon EMR et Amazon Redshift Spectrum.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

Pipelines ETL en fonction des événements

AWS Glue peut exécuter vos tâches ETL en fonction d'un événement, par exemple l'obtention d'un nouvel ensemble de données. Par exemple, vous pouvez utiliser une fonction AWS Lambda pour déclencher vos tâches ETL afin qu'elles s'exécutent dès que de nouvelles données deviennent disponibles dans Amazon S3. Vous pouvez également enregistrer ce nouvel ensemble de données dans le catalogue de données AWS Glue pour qu'il fasse partie de vos tâches ETL.