AWS Glue adalah layanan ekstrak, transformasi, dan beban (ETL) yang dikelola sepenuhnya yang memudahkan pelanggan untuk mempersiapkan dan memuat data mereka untuk analisis. Anda dapat membuat dan menjalankan pekerjaan ETL dengan beberapa klik di AWS Management Console. Anda cukup mengarahkan AWS Glue ke data Anda yang tersimpan di AWS, dan AWS Glue menemukan data Anda dan menyimpan metadata yang terkait (misalnya definisi dan skema tabel) di Katalog Data AWS Glue. Setelah dimasukkan ke katalog, data Anda segera dapat dicari, dapat dibuat query, dan tersedia untuk ETL. AWS Glue menghasilkan kode untuk mengeksekusi transformasi data Anda dan proses pemuatan data.

AWS Glue menghasilkan kode yang dapat dikustom, digunakan kembali, dan portabel. Saat pekerjaan ETL Anda siap, Anda dapat menjadwalkannya untuk berjalan di AWS Glue terkelola penuh, menskalakan lingkungan Apache Spark. AWS Glue menyediakan penjadwal yang fleksibel dengan resolusi dependen, pengawasan pekerjaan, dan peringatan.

AWS Glue tidak memiliki server, sehingga tidak perlu membeli, membangun, atau mengelola infrastruktur. Ini secara otomatis menyediakan lingkungan yang dibutuhkan untuk menyelesaikan pekerjaan, dan pelanggan hanya membayar untuk sumber daya komputasi yang digunakan saat menjalankan pekerjaan ETL. Dengan AWS Glue, data dapat tersedia untuk analisis dalam hitungan menit.

Memperkenalkan AWS Glue (1:47)

Keuntungan

Mudah

AWS Glue mengotomatiskan banyak usaha dalam membangun, mempertahankan, dan menjalankan pekerjaan ETL. AWS Glue mengambil sumber data Anda, mengidentifikasi format data, dan menyarankan skema dan transformasi. AWS Glue secara otomatis menghasilkan kode untuk mengeksekusi transformasi data Anda dan proses pemuatan.

Terintegrasi

AWS Glue terintegrasi di banyak layanan AWS, artinya mengurangi kerepotan saat proses masuk. AWS Glue pada dasarnya mendukung data yang disimpan di Amazon Aurora dan mesin Amazon RDS lainnya, Amazon Redshift, dan Amazon S3, serta database MySQL, Oracle, Microsoft SQL Server, dan PostgreSQL dalam Virtual Private Cloud (Amazon VPC) Anda yang berjalan pada Amazon EC2. AWS Glue menyediakan integrasi luar biasa dengan Amazon Athena, Amazon EMR, Amazon Redshift Spectrum, dan aplikasi apa pun yang kompatibel dengan Apache Hive Metastore.

Tanpa Server

AWS Glue adalah tanpa server. Tidak ada infrastruktur yang perlu disediakan atau dikelola. AWS Glue menangani penyediaan, konfigurasi, dan penskalaan sumber daya yang diperlukan untuk menjalankan pekerjaan ETL Anda di lingkungan yang terkelola penuh dan berskala Apache Spark. Anda hanya membayar sumber daya yang digunakan saat pekerjaan Anda berjalan.

Ramah pengembang

AWS Glue menghasilkan kode ETL yang dapat dikustomisasi, dapat digunakan kembali, dan portabel, menggunakan teknologi yang telah dikenal yaitu Scala, Python, dan Apache Spark. Anda juga dapat mengimpor pembaca, penulis, dan transformasi kustom ke kode Glue ETL Anda. Karena kode yang dihasilkan AWS Glue berdasarkan pada kerangka kerja terbuka, tidak ada yang terkunci. Anda bisa menggunakannya di mana saja.

Cara kerja

Pilih sumber data dan target data. AWS Glue akan menghasilkan kode ETL dalam Scala atau Python untuk mengekstrak data dari sumber, mentransformasi data agar sesuai dengan skema target, dan memuat ke target. Anda dapat mengedit, melakukan debug, dan menguji kode ini melalui Console, di IDE favorit Anda, atau notebook apa pun.

Langkah 1: Membangun Katalog Data Anda

Pertama, gunakan AWS Management Console untuk mendaftarkan sumber data Anda. AWS Glue akan mengambil sumber data Anda dan menyusun Katalog Data menggunakan pengklasifikasi yang dibuat sebelumnya untuk banyak format sumber dan jenis data yang dikenal, termasuk JSON, CSV, Parquet, dan lebih banyak lagi.

Langkah 2: Menghasilkan dan Mengedit Transformasi

Selanjutnya, pilih sumber data dan target data. AWS Glue akan menghasilkan kode ETL dalam Scala atau Python untuk mengekstrak data dari sumber, mentransformasi data agar sesuai dengan skema target, dan memuat ke target. Anda dapat mengedit, melakukan debug, dan menguji kode ini melalui Console, di IDE favorit Anda, atau notebook apa pun.

Langkah 3: Menjadwalkan dan Menjalankan Pekerjaan Anda

AWS Glue mempermudah penjadwalan berulang pekerjaan ETL, menggabungkan beberapa pekerjaan, atau meminta pekerjaan pesanan dari layanan lain seperti AWS Lambda. AWS Glue mengelola dependensi antar pekerjaan Anda, secara otomatis menskalakan sumber daya yang mendasarinya, dan mencoba ulang pekerjaan jika gagal.

Kunjungi halaman fitur AWS Glue, atau lihat dokumentasi produk kami untuk mempelajari lebih lanjut.

Kasus penggunaan

Query terhadap Amazon S3 Data Lake

Data lake menjadi cara yang semakin dikenal untuk menyimpan dan menganalisis data terstruktur dan tidak terstruktur. Jika Anda menggunakan data lake Amazon S3, AWS Glue dapat membuat semua data Anda secara langsung tersedia untuk analisis tanpa memindahkan data.

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Menganalisis Data Log di Warehouse Data Anda

Siapkan clickstream Anda atau proses data log untuk analisis dengan membersihkan, menormalkan, dan memperkaya set data Anda menggunakan AWS Glue. AWS Glue menghasilkan skema untuk data semi-terstruktur Anda, membuat kode ETL untuk mentransformasikan, mendatarkan, dan memperkaya data Anda, dan memuat gudang data Anda pada basis berulang.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Menyeragamkan Tampilan Data Anda antar Berbagai Penyimpanan Data

Anda dapat menggunakan AWS Glue Data Catalog untuk dengan cepat menemukan dan mencari antar berbagai set data AWS tanpa memindahkan data. Setelah data dimasukkan dalam katalog, data langsung tersedia untuk pencarian dan kueri menggunakan Amazon Athena, Amazon EMR, dan Amazon Redshift Spectrum.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

ETL Pipelines yang berdasarkan acara

AWS Glue dapat menjalankan pekerjaan ETL Anda berdasarkan acara, seperti mendapatkan set data baru. Contohnya, Anda dapat menggunakan fungsi AWS Lambda untuk memicu pekerjaan ETL Anda agar berjalan segera setelah data baru tersedia di Amazon S3. Anda juga dapat mendaftarkan set data baru ini di AWS Glue Data Catalog sebagai bagian dari pekerjaan ETL Anda.