AWS DataSync là gì?
Trong thực tế, doanh nghiệp thường cần truyền tải khối lượng dữ liệu lớn (từ vài TB đến hàng PB) giữa:
- On-premises ↔ AWS (ví dụ: từ NAS hoặc file server lên Amazon S3). -> Cần Agent cài đặt tại on-premises.
- AWS ↔ AWS (giữa S3, EFS, FSx). -> Không cần Agent, sử dụng API trực tiếp.
- AWS ↔ dịch vụ lưu trữ bên ngoài (NFS, SMB, Hadoop cluster). -> Cần Agent cài đặt.
Nếu thực hiện bằng cách copy thủ công (rsync, scp, FTP), quá trình sẽ chậm, khó quản lý, dễ lỗi và khó mở rộng.
👉 AWS DataSync là dịch vụ Managed Data Transfer cho phép tự động hóa, tăng tốc và giám sát việc truyền dữ liệu, với hiệu năng cao hơn đến 10 lần so với công cụ truyền tải truyền thống.
Cách hoạt động
- DataSync Agent: phần mềm cài đặt tại on-premises (VMware, Hyper-V, hoặc EC2). Agent kết nối đến nguồn dữ liệu như NFS, SMB, hoặc các file system khác.
- AWS DataSync Service: quản lý quá trình truyền dữ liệu, tối ưu hóa bằng giao thức chuyên biệt của AWS.
- Destination: dữ liệu được di chuyển đến S3, EFS, FSx, hoặc ngược lại.
Quy trình:
- Cài đặt Agent tại on-premises.
- Tạo Task trong DataSync để định nghĩa nguồn (source) và đích (destination).
- DataSync sẽ tự động hóa việc truyền tải, theo lịch định sẵn hoặc theo nhu cầu.
- Có thể theo dõi tiến trình, tốc độ, lỗi ngay trong AWS Console hoặc CloudWatch.
Sync trong môi AWS:
Ưu điểm nổi bật
- Nhanh hơn 10 lần so với rsync/FTP nhờ giao thức tối ưu hóa băng thông, nén, song song hóa.
- Managed Service: không cần tự xây dựng pipeline truyền tải.
- Bảo mật cao: dữ liệu truyền đi được mã hóa TLS, và dữ liệu lưu trữ được mã hóa bằng KMS.
- Linh hoạt: hỗ trợ một lần (one-time migration) hoặc đồng bộ định kỳ (scheduled sync).
- Tích hợp giám sát: CloudWatch, CloudTrail để theo dõi và audit.
Trường hợp sử dụng (Use Cases)
- Di chuyển dữ liệu sang Cloud: chuyển hàng trăm TB dữ liệu từ NAS/SMB sang Amazon S3 để xây dựng Data Lake.
- Đồng bộ dữ liệu định kỳ: sao lưu hoặc replicate dữ liệu on-premises sang AWS theo lịch.
- Tối ưu lưu trữ: chuyển dữ liệu cũ lên S3 Glacier để giảm chi phí lưu trữ on-premises.
- Big Data & Analytics: ingest dữ liệu liên tục từ hệ thống tại chỗ vào AWS để phân tích bằng Athena, Redshift, EMR.
So sánh với các dịch vụ liên quan
| Dịch vụ | Mục đích chính |
|---|---|
| AWS Transfer Family | Truyền tải dữ liệu qua FTP/SFTP/FTPS trực tiếp vào S3/EFS. |
| AWS Storage Gateway | Hybrid Cloud: kết nối storage on-premises ↔ AWS (file/block/tape gateway). |
| AWS Snow Family | Truyền dữ liệu siêu lớn (PB) bằng thiết bị vật lý (offline). |
| AWS DataSync | Tối ưu cho online transfer tự động, tốc độ cao, có thể định kỳ. |
👉 Có thể hiểu:
- Nếu chuyển vài GB-TB qua FTP → Transfer Family.
- Nếu kết nối NAS như một volume ảo → Storage Gateway.
- Nếu dữ liệu cực lớn (PB) và mạng không đáp ứng → Snow Family.
- Nếu truyền dữ liệu online, nhanh, nhiều TB/PB, có thể định kỳ → DataSync.