AWS Glue est un service d'extraction, de transformation et de chargement (ETL) entièrement géré qui facilite la préparation et le chargement des données pour analyse des clients. Vous pouvez créer et exécuter une tâche ETL en quelques clics grâce à AWS Management Console. Il vous suffit de pointer AWS Glue sur les données que vous avez stockées sur AWS pour qu'AWS Glue découvre vos données et les stocke dans la métadonnée (c'est-à-dire, la définition et le schéma de la table) associée dans le catalogue de données AWS Glue. Dès qu'elles sont répertoriées, il est possible d'effectuer des recherches, des requêtes et de rendre vos données disponibles pour l'ETL. AWS Glue génère le code pour exécuter les processus de transformation et de chargement de vos données.
AWS Glue génère du code personnalisable, réutilisable et portable. Lorsque votre tâche ETL est prête, vous pouvez prévoir son exécution sur l'environnement entièrement géré d'augmentation Apache Spark d'AWS Glue. AWS Glue apporte un planificateur flexible doté d'une résolution de dépendance, de la surveillance des tâches et d'un système d'alerte.
AWS Glue ne nécessite pas de serveur ; il n'y a donc pas d'infrastructure à construire, paramétrer ou gérer. Il alimente automatiquement l'environnement nécessaire pour réaliser la tâche et les clients ne paient que pour les ressources de calcul utilisées lorsqu'ils exécutent des tâches ETL. Avec AWS Glue, les données peuvent être disponibles pour analyse en quelques minutes.
Avantages
Facile
AWS Glue automatise la plupart des efforts en conception, maintenance et exécution des tâches ETL. AWS Glue analyse vos sources de données, identifie les formats de données et suggère des schémas et transformations. AWS Glue génère automatiquement le code nécessaire à l'exécution de vos processus de transformations et de chargements de données.
Intégrée
AWS Glue est intégré à un large éventail de services AWS, ce qui signifie une intégration facilitée. AWS Glue prend en charge de manière native les données stockées dans Amazon Aurora et tous les autres moteurs Amazon RDS, Amazon Redshift, Amazon S3, ainsi que les bases de données MySQL, Oracle, Microsoft SQL Server, et PostgreSQL dans votre Virtual Private Cloud (Amazon VPC) exécuté sur Amazon EC2. AWS Glue apporte une intégration clé en main à Amazon Athena, Amazon EMR, Amazon Redshift Spectrum ainsi qu'à toute application compatible du metastore Apache Hive.
Sans serveur
AWS Glue est sans serveur. Vous n'avez pas besoin de prévoir ni de gérer une infrastructure dédiée. AWS Glue gère la mise en service, la configuration et le dimensionnement des ressources nécessaires à l'exécution de tâches ETL dans un environnement entièrement géré d'augmentation Apache Spark. Vous ne payez que les ressources utilisées lors de l'exécution des tâches.
Facile d'utilisation pour les développeurs
AWS Glue génère du code ETL personnalisable, réutilisable et portable à l'aide de technologies familières : Scala, Python et Apache Spark. Vous pouvez également importer des lecteurs, des auteurs et des transformations personnalisées à votre code ETL Glue. Puisque le code qu'AWS Glue génère est basé sur des infrastructures ouvertes, il n'y a pas de verrouillage. Vous pouvez l'utiliser partout.
Fonctionnement
Sélectionnez une source et une cible de données. AWS Glue va générer le code ETL dans Scala ou Python pour extraire les données de la source, transformer les données pour correspondre au schéma cible et les charger dans la cible. Vous pouvez éditer, déboguer et tester ce code sur la console ou dans votre IDE favori ou sur tout ordinateur portable.
Tout d'abord, utilisez AWS Management Console pour enregistrer vos sources de données. AWS Glue analyse vos sources de données et élabore un catalogue de données à l'aide de classificateurs préconfigurés pour de nombreux formats et types de données populaires, notamment JSON, CSV, Parquet et plus encore.
Ensuite, sélectionnez une source et une cible de données. AWS Glue va générer le code ETL dans Scala ou Python pour extraire les données de la source, transformer les données pour correspondre au schéma cible et les charger dans la cible. Vous pouvez éditer, déboguer et tester ce code sur la console ou dans votre IDE favori ou sur tout ordinateur portable.
AWS Glue facilite la planification de tâches ETL récurrentes, l'association de plusieurs tâches ensemble ou l'appel de tâches à la demande de la part d'autres services comme AWS Lambda. AWS Glue gère les dépendances entre vos tâches, dimensionne automatiquement les ressources sous-jacentes et relance les tâches qui ont échoué.
Consultez la page Fonctionnalités d'AWS Glue ou la documentation sur le produit pour en savoir plus.
Cas d'utilisation
Requêtes contre un lac de données Amazon S3
Les lacs de données sont un moyen de plus en plus populaire de stocker et d'analyser des données structurées et non structurées. Si vous utilisez un lac de données Amazon S3, AWS Glue peut rendre vos données immédiatement disponibles pour analyse sans avoir à les déplacer.
Analyse des données de journalisation dans votre entrepôt de données
Préparez vos données de parcours de navigation ou de journalisation des processus pour l'analyse en nettoyant, normalisant et enrichissant vos ensembles de données avec AWS Glue. AWS Glue génère le schéma pour vos données semi-structurées, crée le code ETL pour transformer, aplatir et enrichir vos données, et charge régulièrement votre entrepôt de données.
Vue unifiée de vos données sur plusieurs magasins de données
Vous pouvez utiliser le catalogue de données AWS Glue pour la découverte et la recherche rapide sur plusieurs sous-ensembles de données AWS sans devoir déplacer les données. Une fois que les données sont cataloguées, elles sont immédiatement disponibles pour la recherche et l'interrogation avec Amazon Athena, Amazon EMR et Amazon Redshift Spectrum.
Pipelines ETL en fonction des événements
AWS Glue peut exécuter vos tâches ETL en fonction d'un événement, par exemple l'obtention d'un nouvel ensemble de données. Par exemple, vous pouvez utiliser une fonction AWS Lambda pour déclencher vos tâches ETL afin qu'elles s'exécutent dès que de nouvelles données deviennent disponibles dans Amazon S3. Vous pouvez également enregistrer ce nouvel ensemble de données dans le catalogue de données AWS Glue pour qu'il fasse partie de vos tâches ETL.
Mise en route d’AWS
Commencer à créer avec AWS
En savoir plus sur AWS Glue