AWS Glue adalah layanan ekstrak, transformasi, dan beban (ETL) yang dikelola sepenuhnya yang memudahkan pelanggan untuk mempersiapkan dan memuat data mereka untuk analisis. Anda dapat membuat dan menjalankan pekerjaan ETL dengan beberapa klik di AWS Management Console. Anda cukup mengarahkan AWS Glue ke data Anda yang tersimpan di AWS, dan AWS Glue menemukan data Anda dan menyimpan metadata yang terkait (misalnya definisi dan skema tabel) di Katalog Data AWS Glue. Setelah dimasukkan ke katalog, data Anda segera dapat dicari, dapat dibuat query, dan tersedia untuk ETL.
Keuntungan
Mengurangi kerepotan
AWS Glue terintegrasi di banyak layanan AWS, artinya mengurangi kerepotan saat proses masuk. AWS Glue pada dasarnya mendukung data yang disimpan di Amazon Aurora dan mesin Amazon RDS lainnya, Amazon Redshift, dan Amazon S3, serta mesin database umum dan database dalam Virtual Private Cloud (Amazon VPC) Anda yang berjalan pada Amazon EC2.
Hemat biaya
AWS Glue adalah tanpa server. Tidak ada infrastruktur yang perlu disediakan atau dikelola. AWS Glue menangani penyediaan, konfigurasi, dan penskalaan sumber daya yang diperlukan untuk menjalankan pekerjaan ETL Anda di lingkungan yang terkelola penuh dan berskala Apache Spark. Anda hanya membayar sumber daya yang digunakan saat pekerjaan Anda berjalan.
Berkemampuan lebih tinggi
AWS Glue mengotomatiskan banyak usaha dalam membangun, mempertahankan, dan menjalankan pekerjaan ETL. AWS Glue mengambil sumber data Anda, mengidentifikasi format data, dan menyarankan skema dan transformasi. AWS Glue secara otomatis menghasilkan kode untuk mengeksekusi transformasi data Anda dan proses pemuatan.
Cara kerjanya
Pilih sumber data dan target data. AWS Glue akan menghasilkan kode ETL dalam Scala atau Python untuk mengekstrak data dari sumber, mentransformasi data agar sesuai dengan skema target, dan memuat ke target. Anda dapat mengedit, melakukan debug, dan menguji kode ini melalui Console, di IDE favorit Anda, atau notebook apa pun.
Pertama, gunakan AWS Management Console untuk mendaftarkan sumber data Anda. AWS Glue akan mengambil sumber data Anda dan menyusun Katalog Data menggunakan pengklasifikasi yang dibuat sebelumnya untuk banyak format sumber dan jenis data yang dikenal, termasuk JSON, CSV, Parquet, dan lebih banyak lagi.
Selanjutnya, pilih sumber data dan target data. AWS Glue akan menghasilkan kode ETL dalam Scala atau Python untuk mengekstrak data dari sumber, mentransformasi data agar sesuai dengan skema target, dan memuat ke target. Anda dapat mengedit, melakukan debug, dan menguji kode ini melalui Console, di IDE favorit Anda, atau notebook apa pun.
AWS Glue mempermudah penjadwalan berulang tugas ETL, menggabungkan beberapa tugas, atau meminta tugas sesuai permintaan dari layanan lain seperti AWS Lambda. AWS Glue mengelola dependensi antar pekerjaan Anda, secara otomatis menskalakan sumber daya yang mendasarinya, dan mencoba ulang pekerjaan jika gagal.
Kunjungi halaman fitur AWS Glue, atau lihat dokumentasi produk kami untuk mempelajari lebih lanjut.
Kasus penggunaan
Kueri terhadap data lake Amazon S3
Data lake menjadi cara yang semakin dikenal untuk menyimpan dan menganalisis data terstruktur dan tidak terstruktur. Jika Anda ingin membangun data lake Amazon S3 kustom sendiri, AWS Glue dapat membuat semua data Anda secara langsung tersedia untuk analisis tanpa memindahkan data.
Untuk membangun data lake yang aman dalam hitungan hari, pelajari lebih lanjut tentang AWS Lake Formation
Menganalisis data log di gudang data Anda
Siapkan clickstream Anda atau proses data log untuk analitik dengan membersihkan, menormalkan, dan memperkaya set data Anda menggunakan AWS Glue. AWS Glue menghasilkan skema untuk data semi-terstruktur Anda, membuat kode ETL untuk mentransformasikan, mendatarkan, dan memperkaya data Anda, serta memuat gudang data Anda secara berulang.
Menggabungkan tampilan data Anda di berbagai penyimpanan data
Anda dapat menggunakan AWS Glue Data Catalog untuk dengan cepat menemukan dan mencari antar berbagai set data AWS tanpa memindahkan data. Setelah data dimasukkan dalam katalog, data langsung tersedia untuk pencarian dan kueri menggunakan Amazon Athena, Amazon EMR, dan Amazon Redshift Spectrum.
Pipeline ETL yang digerakkan kejadian
AWS Glue dapat menjalankan pekerjaan ETL Anda berdasarkan acara, seperti mendapatkan set data baru. Contohnya, Anda dapat menggunakan fungsi AWS Lambda untuk memicu pekerjaan ETL Anda agar berjalan segera setelah data baru tersedia di Amazon S3. Anda juga dapat mendaftarkan dataset baru ini di Katalog Data AWS Glue sebagai bagian dari tugas ETL Anda.