Tổng quan về Disaster Recovery trên AWS
Trong môi trường điện toán đám mây, Disaster Recovery (DR) là khả năng phục hồi hệ thống và dữ liệu sau sự cố, đảm bảo tính sẵn sàng và liên tục cho các dịch vụ quan trọng. AWS cung cấp một tập hợp các dịch vụ và công cụ giúp doanh nghiệp xây dựng các chiến lược DR linh hoạt, phù hợp với yêu cầu Recovery Time Objective (RTO) và Recovery Point Objective (RPO).
Các khái niệm quan trọng
- RPO (Recovery Point Objective): Lượng dữ liệu tối đa (tính theo thời gian) có thể mất trong trường hợp xảy ra sự cố.
- Hiểu đơn giản: Khi hệ thống khôi phục, dữ liệu sẽ được quay về thời điểm nào?
- RTO (Recovery Time Objective): Thời gian tối đa chấp nhận được để khôi phục hệ thống sau sự cố.
- Hiểu đơn giản: Mất bao lâu để chạy lại?
Các chiến lược DR thường được lựa chọn dựa trên cân bằng giữa chi phí và mức độ sẵn sàng.
Các chiến lược DR trên AWS
1. Backup & Restore
-
Mô tả: Đây là chiến lược đơn giản nhất. Dữ liệu và cấu hình hệ thống được sao lưu định kỳ (backup) sang AWS. Khi có sự cố, hệ thống sẽ được khôi phục (restore) từ bản backup.
-
Tầm quan trọng của Backup:
- Đảm bảo dữ liệu không bị mất hoàn toàn khi có sự cố xảy ra.
- Giúp khôi phục hệ thống về trạng thái trước khi xảy ra sự cố.
-
Đặc điểm:
- RTO: cao (vài giờ đến vài ngày)
- RPO: phụ thuộc tần suất backup
- Chi phí: thấp
-
Dịch vụ liên quan: Amazon S3, Amazon S3 Glacier, AWS Backup, Amazon EBS Snapshots…
2. Pilot Light
Pilot Light là một phiên bản thu nhỏ (lightweight) của hệ thống được chạy thường trực trên AWS, bao gồm các thành phần cốt lõi như cơ sở dữ liệu hoặc dịch vụ quan trọng. Khi xảy ra sự cố, hệ thống đầy đủ sẽ được mở rộng dựa trên hạ tầng “pilot” này.
-
Đặc điểm:
- RTO: trung bình (vài giờ)
- RPO: tương đối thấp (dữ liệu được đồng bộ thường xuyên)
- Chi phí: trung bình
-
Dịch vụ liên quan: Amazon RDS Multi-AZ, EC2 AMI, Auto Scaling, Elastic Load Balancing.
3. Warm Standby
Warm Standby là một hệ thống thu nhỏ nhưng có khả năng chạy production ở mức giới hạn luôn hoạt động trong AWS. Khi có sự cố, hệ thống có thể mở rộng nhanh chóng để thay thế môi trường chính.
-
Đặc điểm:
- RTO: thấp hơn Pilot Light (vài phút đến 1 giờ)
- RPO: thấp
- Chi phí: cao hơn Pilot Light do cần duy trì hệ thống thường trực
-
Dịch vụ liên quan: Amazon RDS Read Replica, Elastic Load Balancing, Auto Scaling, Amazon Route 53.
4. Multi-Site (Active-Active)
Multi-Site là mô hình mà cả hai môi trường (on-premises và AWS, hoặc nhiều region AWS) đều chạy song song và chia tải (load balancing). Nếu một site gặp sự cố, site còn lại có thể tiếp tục phục vụ mà không gián đoạn.
-
Đặc điểm:
- RTO: gần như bằng 0
- RPO: gần như bằng 0
- Chi phí: cao nhất (do phải duy trì hạ tầng song song)
-
Dịch vụ liên quan: Amazon Route 53 (DNS Failover), Elastic Load Balancing, Amazon Aurora Global Database, DynamoDB Global Tables.
So sánh tổng quan các chiến lược DR
| Chiến lược | RTO | RPO | Chi phí | Độ phức tạp triển khai |
|---|---|---|---|---|
| Backup & Restore | Vài giờ - vài ngày | Phụ thuộc backup | Thấp | Đơn giản |
| Pilot Light | Vài giờ | Thấp | Trung bình | Trung bình |
| Warm Standby | Vài phút - 1 giờ | Thấp | Cao | Khá phức tạp |
| Multi-Site | Gần như 0 | Gần như 0 | Rất cao | Phức tạp |
Kết luận
Không có chiến lược DR nào là “tốt nhất” cho mọi trường hợp. Doanh nghiệp cần cân nhắc chi phí, yêu cầu RTO/RPO, và mức độ quan trọng của ứng dụng để lựa chọn giải pháp phù hợp. Với sự linh hoạt của AWS, bạn có thể bắt đầu với Backup & Restore chi phí thấp, rồi nâng cấp dần lên Warm Standby hoặc Multi-Site khi ứng dụng và nhu cầu phát triển.