Skip to content

AWS Glue là gì

AWS Glue là dịch vụ ETL (Extract, Transform, Load) dạng serverless do AWS quản lý. Nó giúp bạn chuẩn bị, biến đổi, tích hợp và tải dữ liệu từ nhiều nguồn khác nhau vào các dịch vụ lưu trữ dữ liệu hoặc phân tích như Amazon S3, Amazon Redshift, Amazon Athena, Amazon OpenSearch.

AWS Glue là gì

Tại sao cần AWS Glue?

Trong hệ thống hiện đại, dữ liệu thường nằm ở nhiều nơi khác nhau:

  • CSDL quan hệ (RDS, Aurora, MySQL, PostgreSQL, Oracle…)
  • Data lakes (Amazon S3)
  • Streaming data (Kinesis, Kafka)
  • Logs, files (JSON, CSV, Parquet, Avro…)

Để phân tích dữ liệu, bạn cần:

  1. Extract: Lấy dữ liệu từ nguồn.
  2. Transform: Làm sạch, chuẩn hóa, biến đổi dữ liệu.
  3. Load: Đưa dữ liệu vào nơi phân tích (Redshift, S3, Athena…).

👉 AWS Glue tự động hóa quy trình này với chi phí thấp và không cần quản lý hạ tầng.

Thành phần chính của AWS Glue

  1. Glue Data Catalog
  • Metadata Repository trung tâm.
  • Lưu thông tin schema của dữ liệu (database, tables, partitions).
  • Được dùng chung bởi Glue, Athena, Redshift Spectrum, EMR.
    • Athena sẽ dựa vào Schema phân tích bởi Data Catalog, sau đó sẽ query dữ liệu tới S3
  1. Glue Crawler

    • Tự động scan dữ liệu trong S3, RDS, DynamoDB…
    • Nhận diện định dạng (CSV, JSON, Parquet, Avro, ORC, …).
    • Tự động tạo schema trong Data Catalog.
  2. Glue Jobs

    • Nơi chạy các script ETL để biến đổi dữ liệu.
    • Có thể viết bằng PySpark (Python + Apache Spark) hoặc Scala.
    • Chạy hoàn toàn serverless (AWS quản lý cluster Spark).
  3. Glue Triggers

    • Tự động chạy jobs theo lịch hoặc khi có sự kiện (event-driven).
  4. Glue Studio

    • Giao diện drag-and-drop giúp xây dựng và giám sát jobs mà không cần code.
  5. Glue DataBrew

    • Công cụ no-code để data analyst làm sạch và chuẩn bị dữ liệu.

Luồng xử lý dữ liệu với AWS Glue

Kiến trúc AWS Glue

Ví dụ Use Case

  • Data Lake:
    • Crawl dữ liệu từ S3 → Tự động tạo schema → Query bằng Athena.
  • ETL cho Redshift:
    • Extract dữ liệu từ RDS → Transform (chuẩn hóa) → Load vào Redshift để phân tích BI.
  • Log Analytics:
    • Glue đọc log JSON từ S3 → Chuyển thành Parquet (nén, tối ưu query) → Query bằng Athena.
  • Machine Learning:
    • Làm sạch dữ liệu với Glue DataBrew → Lưu về S3 → Train ML model trên SageMaker.

So sánh Glue với EMR

Cả 2 dịch vụ này đều mạnh mẽ trong xử lý dữ liệu, tuy nhiên mỗi dịch phụ phù hợp với bài toán riêng biệt. Hãy cùng so sánh và phân tích chúng.

Tiêu chíAWS GlueAWS EMR
Mô hình triển khaiServerlessCluster-based
Use case chínhETL, Data Lake, Data CatalogBig Data Processing, ML, Streaming
Công cụ hỗ trợPySpark, Glue Studio, DataBrewSpark, Hadoop, Hive, Flink, HBase
Độ phức tạpĐơn giản, ít setupPhức tạp, nhiều tùy chỉnh
Chi phíTrả tiền theo job runtimeTrả tiền cho EC2 + EMR fee
Quy mô dữ liệuTBTB - PB
Đối tượng phù hợpData Analyst, Data Engineer muốn ETL nhanh gọnData Scientist, Big Data Engineer cần phân tích nâng cao