AWS Glue adalah layanan ekstrak, transformasi, dan beban (ETL) yang dikelola sepenuhnya yang memudahkan pelanggan untuk mempersiapkan dan memuat data mereka untuk analisis. Anda dapat membuat dan menjalankan pekerjaan ETL dengan beberapa klik di AWS Management Console. Anda cukup mengarahkan AWS Glue ke data Anda yang tersimpan di AWS, dan AWS Glue menemukan data Anda dan menyimpan metadata yang terkait (misalnya definisi dan skema tabel) di Katalog Data AWS Glue. Setelah dimasukkan ke katalog, data Anda segera dapat dicari, dapat dibuat query, dan tersedia untuk ETL. AWS Glue menghasilkan kode untuk mengeksekusi transformasi data Anda dan proses pemuatan data.
AWS Glue menghasilkan kode yang dapat dikustom, digunakan kembali, dan portabel. Saat pekerjaan ETL Anda siap, Anda dapat menjadwalkannya untuk berjalan di AWS Glue terkelola penuh, menskalakan lingkungan Apache Spark. AWS Glue menyediakan penjadwal yang fleksibel dengan resolusi dependen, pengawasan pekerjaan, dan peringatan.
AWS Glue tidak memiliki server, sehingga tidak perlu membeli, membangun, atau mengelola infrastruktur. Ini secara otomatis menyediakan lingkungan yang dibutuhkan untuk menyelesaikan pekerjaan, dan pelanggan hanya membayar untuk sumber daya komputasi yang digunakan saat menjalankan pekerjaan ETL. Dengan AWS Glue, data dapat tersedia untuk analisis dalam hitungan menit.
Keuntungan
Mudah
AWS Glue mengotomatiskan banyak usaha dalam membangun, mempertahankan, dan menjalankan pekerjaan ETL. AWS Glue mengambil sumber data Anda, mengidentifikasi format data, dan menyarankan skema dan transformasi. AWS Glue secara otomatis menghasilkan kode untuk mengeksekusi transformasi data Anda dan proses pemuatan.
Terintegrasi
AWS Glue terintegrasi di banyak layanan AWS, artinya mengurangi kerepotan saat proses masuk. AWS Glue pada dasarnya mendukung data yang disimpan di Amazon Aurora dan mesin Amazon RDS lainnya, Amazon Redshift, dan Amazon S3, serta database MySQL, Oracle, Microsoft SQL Server, dan PostgreSQL dalam Virtual Private Cloud (Amazon VPC) Anda yang berjalan pada Amazon EC2. AWS Glue menyediakan integrasi luar biasa dengan Amazon Athena, Amazon EMR, Amazon Redshift Spectrum, dan aplikasi apa pun yang kompatibel dengan Apache Hive Metastore.
Tanpa Server
AWS Glue adalah tanpa server. Tidak ada infrastruktur yang perlu disediakan atau dikelola. AWS Glue menangani penyediaan, konfigurasi, dan penskalaan sumber daya yang diperlukan untuk menjalankan pekerjaan ETL Anda di lingkungan yang terkelola penuh dan berskala Apache Spark. Anda hanya membayar sumber daya yang digunakan saat pekerjaan Anda berjalan.
Ramah pengembang
AWS Glue menghasilkan kode ETL yang dapat dikustomisasi, dapat digunakan kembali, dan portabel, menggunakan teknologi yang telah dikenal yaitu Scala, Python, dan Apache Spark. Anda juga dapat mengimpor pembaca, penulis, dan transformasi kustom ke kode Glue ETL Anda. Karena kode yang dihasilkan AWS Glue berdasarkan pada kerangka kerja terbuka, tidak ada yang terkunci. Anda bisa menggunakannya di mana saja.
Cara kerja
Pilih sumber data dan target data. AWS Glue akan menghasilkan kode ETL dalam Scala atau Python untuk mengekstrak data dari sumber, mentransformasi data agar sesuai dengan skema target, dan memuat ke target. Anda dapat mengedit, melakukan debug, dan menguji kode ini melalui Console, di IDE favorit Anda, atau notebook apa pun.
Pertama, gunakan AWS Management Console untuk mendaftarkan sumber data Anda. AWS Glue akan mengambil sumber data Anda dan menyusun Katalog Data menggunakan pengklasifikasi yang dibuat sebelumnya untuk banyak format sumber dan jenis data yang dikenal, termasuk JSON, CSV, Parquet, dan lebih banyak lagi.
Selanjutnya, pilih sumber data dan target data. AWS Glue akan menghasilkan kode ETL dalam Scala atau Python untuk mengekstrak data dari sumber, mentransformasi data agar sesuai dengan skema target, dan memuat ke target. Anda dapat mengedit, melakukan debug, dan menguji kode ini melalui Console, di IDE favorit Anda, atau notebook apa pun.
AWS Glue mempermudah penjadwalan berulang pekerjaan ETL, menggabungkan beberapa pekerjaan, atau meminta pekerjaan pesanan dari layanan lain seperti AWS Lambda. AWS Glue mengelola dependensi antar pekerjaan Anda, secara otomatis menskalakan sumber daya yang mendasarinya, dan mencoba ulang pekerjaan jika gagal.
Kunjungi halaman fitur AWS Glue, atau lihat dokumentasi produk kami untuk mempelajari lebih lanjut.
Kasus penggunaan
Query terhadap Amazon S3 Data Lake
Data lake menjadi cara yang semakin dikenal untuk menyimpan dan menganalisis data terstruktur dan tidak terstruktur. Jika Anda menggunakan data lake Amazon S3, AWS Glue dapat membuat semua data Anda secara langsung tersedia untuk analisis tanpa memindahkan data.
Menganalisis Data Log di Warehouse Data Anda
Siapkan clickstream Anda atau proses data log untuk analisis dengan membersihkan, menormalkan, dan memperkaya set data Anda menggunakan AWS Glue. AWS Glue menghasilkan skema untuk data semi-terstruktur Anda, membuat kode ETL untuk mentransformasikan, mendatarkan, dan memperkaya data Anda, dan memuat gudang data Anda pada basis berulang.
Menyeragamkan Tampilan Data Anda antar Berbagai Penyimpanan Data
Anda dapat menggunakan AWS Glue Data Catalog untuk dengan cepat menemukan dan mencari antar berbagai set data AWS tanpa memindahkan data. Setelah data dimasukkan dalam katalog, data langsung tersedia untuk pencarian dan kueri menggunakan Amazon Athena, Amazon EMR, dan Amazon Redshift Spectrum.
ETL Pipelines yang berdasarkan acara
AWS Glue dapat menjalankan pekerjaan ETL Anda berdasarkan acara, seperti mendapatkan set data baru. Contohnya, Anda dapat menggunakan fungsi AWS Lambda untuk memicu pekerjaan ETL Anda agar berjalan segera setelah data baru tersedia di Amazon S3. Anda juga dapat mendaftarkan set data baru ini di AWS Glue Data Catalog sebagai bagian dari pekerjaan ETL Anda.
Mulai menggunakan AWS
Mulai membangun dengan AWS
Pelajari selengkapnya tentang AWS Glue