إن AWS Glue هي خدمة استخراج وتحويل وتحميل (ETL) مُدارة بالكامل، تسهِّل إعداد البيانات وتحميلها للتحليلات على العملاء. يمكنك إنشاء مهمة ETL وتشغيلها بضغطات قليلة في وحدة الإدارة في AWS. يمكنك ببساطة تحديد بياناتك المخزنة على AWS لخدمة AWS Glue، وستكتشف AWS Glue بياناتك وتخزن بيانات التعريف المرتبطة (على سبيل المثال، جدول وتعريف ومخطط) في دليل بيانات AWS Glue. بمجرد أن يتم وضع بياناتك في دليل، ستصبح مباشرةً قابلة للبحث والاستعلام ومتاحة لخدمة ETL. تنشئ AWS Glue الرمز الذي ينفذ عمليات تحويل البيانات وتحميلها.
تنشئ AWS Glue الرمز القابل للتخصيص وإعادة الاستخدام والتنقل. بمجرد أن تكون مهمة ETL الخاصة بك جاهزة، فإنه يمكنك جدولتها لتعمل على بيئة Apache Spark الخاصة بخدمة AWS Glue والتي تتميز بأنها مُدارة بالكامل وقابلة للتوسع. تقدم خدمة AWS Glue مجدولاً مرنًا بدقة تبعية ومراقبة للمهمة وخاصية تنبيه.
ولا تستند خدمة AWS Glue إلى خادم، لذا لا توجد بنية تحتية للشراء أو الإعداد أو الإدارة. وتوفر تلقائيًا البيئة اللازمة لإكمال المهمة، ويدفع العملاء فقط مقابل موارد الحوسبة المستهلكة في أثناء تشغيل مهمات ETL. مع AWS Glue، يمكن أن تكون البيانات متوفرة للتحليلات خلال دقائق.
هل مستعد لاستخدام خدمة ETL؟
ابدأ استخدام AWS Glue
سهلة
تجعل خدمة AWS Glue الكثير من الجهد في بناء مهمات ETL وصيانتها وتشغيلها تلقائيًا. تسجل AWS Glue كل مصادر البيانات، وتحدد تنسيقات البيانات وتقترح المخططات والتحويلات. تنشئ AWS Glue تلقائيًا الرمز الذي ينفذ عمليات تحويل البيانات وتحميلها.
متكاملة
خدمة AWS Glue متكاملة مع نطاق واسع من خدمات AWS. تدعم AWS Glue في الأصل البيانات المخزَّنة في Amazon Aurora وAmazon RDS من أجل MySQL وAmazon RDS من أجل Oracle وAmazon RDS من أجل PostgreSQL وAmazon RDS من أجل SQL Server وAmazon Redshift وAmazon S3، بالإضافة إلى قواعد بيانات MySQL وOracle وMicrosoft SQL Server وPostgreSQL في سحابتك الخاصة الافتراضية (Amazon VPC) التي تعمل على Amazon EC2. توفر AWS Glue تكامل متوفر مع Amazon Athena وAmazon EMR وAmazon Redshift Spectrum وأي تطبيق متوافق مع Apache Hive Metastore.
غير مستندة إلى خادم
إن خدمة AWS Glue غير مستندة إلى خادم. لا توجد بنية تحتية للتوفير أو الإدارة. تتعامل AWS Glue مع توفير الموارد اللازمة لتشغيل مهمات ETL وتكوينها وتوسعتها في بيئة Apache Spark مُدارة بالكامل وقابلة للتوسع. وأنت تدفع مقابل الموارد المستخدمة في أثناء تشغيل مهماتك فقط.
مناسب للمطوِّرين
تنشئ AWS Glue رمز ETL القابل للتخصيص وإعادة الاستخدام والتنقل، باستخدام التقنية المألوفة - Scala وPython وApache Spark. يمكنك أيضًا استيراد قارئات وكاتبات مخصصة وتحويلات إلى رمز Glue ETL الخاص بك. بحكم أن الرمز الذي تنشئه AWS Glue يعتمد على أطر عمل مفتوحة، لا يوجد فترات تعطيل للعمل. يمكنك استخدامه في أي مكان.
انقر للتكبير
أولاً، استخدم وحدة الإدارة في AWS لتسجيل مصادر البيانات الخاصة بك. تسجل AWS Glue مصادر البيانات الخاصة بك وتبني دليل البيانات باستخدام مصنفات مسبقة البناء لعدة تنسيقات مصدر وأنواع بيانات شائعة، بما في ذلك JSON وCSV وParquet وغيرها.
انقر للتكبير
بعد ذلك، اختر مصدر بيانات وهدف بيانات. ستنشئ AWS Glue رمز ETL في Scala أو Python لاستخراج البيانات من المصدر، وتحويل البيانات لتوافق المخطط الهدف، وتحميلها في الهدف. يمكنك تحرير هذا الرمز وتتبع أخطائه واختباره عبر وحدة التحكم، في بيئة التطوير المتكاملة المفضلة لديك، أو أي كمبيوتر محمول.
انقر للتكبير
تسهل AWS Glue جدولة مهام ETL المتكررة، أو تربط المهام المتعددة معًا، أو تستدعي المهام حسب الطلب من الخدمات الأخرى مثل AWS Lambda. تدير AWS Glue التبعيات بين مهماتك، وتوسع الموارد الأساسية تلقائيًا، وتعيد محاولة المهام في حالة فشلها.
زر صفحة تفاصيل المنتج لخدمة AWS Glue أو راجع وثائق المنتج الخاصة بنا لمعرفة المزيد.
أعدّ سجل بيانات تصفح الإنترنت أو العمليات للتحليلات عن طريق تنظيف مجموعات البيانات الخاصة بك وتقليل تكرارها وإثرائها باستخدام AWS Glue. تنشئ AWS Glue مخططًا لبياناتك شبه المهيكلة، وتنشئ رمز ETL لتحويل بياناتك وتبسيطها وإثرائها، وتحمِّل مستودع بياناتك بشكل متكرر.
يمكنك استخدام دليل بيانات AWS Glue للاكتشاف والبحث عبر مجموعات بيانات AWS المتعددة دون نقل البيانات. بمجرد أن يتم وضع البيانات في دليل، ستصبح مباشرةً متاحة للبحث والاستعلام باستخدام Amazon Athena وAmazon EMR وAmazon Redshift Spectrum.
إن مخازن البيانات طريقة شائعة بشكل متزايد لتخزين البيانات المهيكلة وغير المهيكلة وتحليلها. إذا كنت تستخدم أحد مخازن بيانات Amazon S3، يمكن لخدمة AWS Glue جعل كل بياناتك متوفرة فورًا للتحليلات دون نقل البيانات. يمكن لمتتبع Glue مسح مخزن بياناتك وإبقاء دليل بيانات Glue متزامنًا مع البيانات الأساسية. يمكنك بعد ذلك الاستعلام في مخزن بياناتك مباشرةً باستخدام Amazon Athena وAmazon Redshift Spectrum. يمكنك أيضًا استخدام دليل بيانات Glue بصفته Apache Hive Metastore الخارجي لك من أجل تطبيقات البيانات الكبيرة المشغلة على Amazon EMR.
يمكن لخدمة AWS Glue تشغيل مهمات ETL الخاصة بك على أساس الحدث، مثل الحصول على مجموعة بيانات جديدة. على سبيل المثال، يمكنك استخدام وظيفة AWS Lambda لبعث مهمات ETL الخاصة بك على أن تعمل ما إن تصبح بيانات جديدة متوفرة في Amazon S3. يمكنك أيضًا تسجيل مجموعة البيانات الجديدة هذه في دليل بيانات AWS Glue كجزء من مهام ETL الخاصة بك.
من السهل البدء في استخدام AWS Glue. ببساطة سجِّل الدخول في وحدة الإدارة في AWS وانتقل إلى "Glue" تحت فئة "التحليلات".