AWS Glue - Layanan ETL Terkelola - Amazon Web Services

AWS Glue adalah layanan ekstrak, transformasi, dan beban (ETL) yang dikelola sepenuhnya yang memudahkan pelanggan untuk mempersiapkan dan memuat data mereka untuk analisis. Anda dapat membuat dan menjalankan pekerjaan ETL dengan beberapa klik di AWS Management Console. Anda cukup mengarahkan AWS Glue ke data Anda yang tersimpan di AWS, dan AWS Glue menemukan data Anda dan menyimpan metadata yang terkait (misalnya definisi dan skema tabel) di Katalog Data AWS Glue. Setelah dimasukkan ke katalog, data Anda segera dapat dicari, dapat dibuat query, dan tersedia untuk ETL.

Memperkenalkan AWS Glue (1:47)

Keuntungan

Mengurangi kerepotan

AWS Glue terintegrasi di banyak layanan AWS, artinya mengurangi kerepotan saat proses masuk. AWS Glue pada dasarnya mendukung data yang disimpan di Amazon Aurora dan mesin Amazon RDS lainnya, Amazon Redshift, dan Amazon S3, serta mesin database umum dan database dalam Virtual Private Cloud (Amazon VPC) Anda yang berjalan pada Amazon EC2.

Hemat biaya

AWS Glue adalah tanpa server. Tidak ada infrastruktur yang perlu disediakan atau dikelola. AWS Glue menangani penyediaan, konfigurasi, dan penskalaan sumber daya yang diperlukan untuk menjalankan pekerjaan ETL Anda di lingkungan yang terkelola penuh dan berskala Apache Spark. Anda hanya membayar sumber daya yang digunakan saat pekerjaan Anda berjalan.

Berkemampuan lebih tinggi

AWS Glue mengotomatiskan banyak usaha dalam membangun, mempertahankan, dan menjalankan pekerjaan ETL. AWS Glue mengambil sumber data Anda, mengidentifikasi format data, dan menyarankan skema dan transformasi. AWS Glue secara otomatis menghasilkan kode untuk mengeksekusi transformasi data Anda dan proses pemuatan.

Cara kerjanya

Pilih sumber data dan target data. AWS Glue akan menghasilkan kode ETL dalam Scala atau Python untuk mengekstrak data dari sumber, mentransformasi data agar sesuai dengan skema target, dan memuat ke target. Anda dapat mengedit, melakukan debug, dan menguji kode ini melalui Console, di IDE favorit Anda, atau notebook apa pun.

Langkah 1: Membangun Katalog Data Anda

Pertama, gunakan AWS Management Console untuk mendaftarkan sumber data Anda. AWS Glue akan mengambil sumber data Anda dan menyusun Katalog Data menggunakan pengklasifikasi yang dibuat sebelumnya untuk banyak format sumber dan jenis data yang dikenal, termasuk JSON, CSV, Parquet, dan lebih banyak lagi.

Langkah 2: Menghasilkan dan Mengedit Transformasi

Selanjutnya, pilih sumber data dan target data. AWS Glue akan menghasilkan kode ETL dalam Scala atau Python untuk mengekstrak data dari sumber, mentransformasi data agar sesuai dengan skema target, dan memuat ke target. Anda dapat mengedit, melakukan debug, dan menguji kode ini melalui Console, di IDE favorit Anda, atau notebook apa pun.

Langkah 3: Menjadwalkan dan Menjalankan Tugas Anda

AWS Glue mempermudah penjadwalan berulang tugas ETL, menggabungkan beberapa tugas, atau meminta tugas sesuai permintaan dari layanan lain seperti AWS Lambda. AWS Glue mengelola dependensi antar pekerjaan Anda, secara otomatis menskalakan sumber daya yang mendasarinya, dan mencoba ulang pekerjaan jika gagal.

Kunjungi halaman fitur AWS Glue, atau lihat dokumentasi produk kami untuk mempelajari lebih lanjut.

Kasus penggunaan

Kueri terhadap data lake Amazon S3

Data lake menjadi cara yang semakin dikenal untuk menyimpan dan menganalisis data terstruktur dan tidak terstruktur. Jika Anda ingin membangun data lake Amazon S3 kustom sendiri, AWS Glue dapat membuat semua data Anda secara langsung tersedia untuk analisis tanpa memindahkan data.

Untuk membangun data lake yang aman dalam hitungan hari, pelajari lebih lanjut tentang AWS Lake Formation

Diagram kueri terhadap Data Lake Amazon S3

Menganalisis data log di gudang data Anda

Siapkan clickstream Anda atau proses data log untuk analitik dengan membersihkan, menormalkan, dan memperkaya set data Anda menggunakan AWS Glue. AWS Glue menghasilkan skema untuk data semi-terstruktur Anda, membuat kode ETL untuk mentransformasikan, mendatarkan, dan memperkaya data Anda, serta memuat gudang data Anda secara berulang.

Menganalisis data log di diagram gudang data Anda

Menggabungkan tampilan data Anda di berbagai penyimpanan data

Anda dapat menggunakan AWS Glue Data Catalog untuk dengan cepat menemukan dan mencari antar berbagai set data AWS tanpa memindahkan data. Setelah data dimasukkan dalam katalog, data langsung tersedia untuk pencarian dan kueri menggunakan Amazon Athena, Amazon EMR, dan Amazon Redshift Spectrum.

Tampilan diagram data di penyimpanan data

Pipeline ETL yang digerakkan kejadian

AWS Glue dapat menjalankan pekerjaan ETL Anda berdasarkan acara, seperti mendapatkan set data baru. Contohnya, Anda dapat menggunakan fungsi AWS Lambda untuk memicu pekerjaan ETL Anda agar berjalan segera setelah data baru tersedia di Amazon S3. Anda juga dapat mendaftarkan dataset baru ini di Katalog Data AWS Glue sebagai bagian dari tugas ETL Anda.

Apa yang Baru

1 …

…

Periksa fitur AWS Glue

Pelajari selengkapnya tentang fitur utama AWS Glue.

Pelajari selengkapnya

Daftar untuk akun gratis

Dapatkan akses cepat ke AWS Tingkat Gratis.

Daftar

Mulai membangun di konsol

Mulai membangun dengan AWS Glue di AWS Management Console.

Masuk