Sự cố AWS nghiêm trọng: Gián đoạn Cloud và Multi-AZ cần thiết

Vào ngày 1 tháng 3 năm 2026, khu vực AWS me-central-1 (Trung Đông) đã trải qua một sự cố AWS mất điện nghiêm trọng. Nguyên nhân được xác định là một sự cố vật lý bất thường. Các vật thể bên ngoài đã va chạm vào một trung tâm dữ liệu, gây ra tia lửa và dẫn đến hỏa hoạn.

Sự kiện này đã tạo ra sự gián đoạn đáng kể đối với các dịch vụ Amazon Elastic Compute Cloud (EC2). Các API mạng và khả năng cung cấp tài nguyên trong một Vùng sẵn sàng duy nhất (mec1-az2) bị ảnh hưởng nghiêm trọng.

Nội dung

Gián đoạn Dịch vụ Cloud và Nguyên nhân Thực tế

Diễn biến Sự cố và Phản ứng ban đầu

Thách thức với API Mạng EC2 trong Sự cố AWS

Chiến lược Khắc phục và Phục hồi API

Kiến trúc Đa Availability Zone: Giải pháp Giảm thiểu Rủi ro

Lợi ích của Thiết kế Đa Vùng sẵn sàng

Khuyến nghị và Tình hình Cập nhật về Sự cố AWS

Gián đoạn Dịch vụ Cloud và Nguyên nhân Thực tế

Theo báo cáo sự cố của AWS, lực lượng cứu hỏa đã yêu cầu ngừng hoàn toàn nguồn điện. Điều này bao gồm cả máy phát điện dự phòng tại cơ sở bị ảnh hưởng. Yêu cầu này được đưa ra để họ có thể kiểm soát an toàn tình hình hỏa hoạn.

Việc mất điện sau đó đã làm tê liệt các EC2 Instances, các ổ đĩa Amazon Elastic Block Store (EBS). Đồng thời, các cơ sở dữ liệu Amazon Relational Database Service (RDS) nằm trong vùng bị ảnh hưởng cũng ngừng hoạt động. Điều này dẫn đến tình trạng không thể truy cập và xử lý dữ liệu.

Diễn biến Sự cố và Phản ứng ban đầu

Sự cố bắt đầu vào khoảng 4:30 AM PST. Đến 4:51 AM PST, AWS đã chính thức bắt đầu điều tra các vấn đề về kết nối và nguồn điện. Đây là dấu hiệu đầu tiên về quy mô của sự việc.

Vào lúc 6:09 AM PST, AWS xác nhận đã xảy ra sự cố mất điện cục bộ. Vấn đề này được giới hạn trong Vùng sẵn sàng mec1-az2. Thông báo này cung cấp thông tin chi tiết hơn về khu vực bị ảnh hưởng trực tiếp.

Để giảm thiểu tác động, AWS đã triển khai các chiến lược cân bằng tải traffic. Các yêu cầu đã được chuyển hướng khỏi cơ sở bị hư hại. Thay vào đó, tải được dịch chuyển sang các Vùng sẵn sàng không bị ảnh hưởng khác trong cùng khu vực.

Thách thức với API Mạng EC2 trong Sự cố AWS

Các kỹ sư của AWS phát hiện ra rằng sự cố mất điện đã tác động nghiêm trọng đến các API mạng của EC2. Khách hàng đã báo cáo lỗi điều tiết (throttling errors) và lỗi trên diện rộng. Các lỗi này xảy ra khi gọi các chức năng mạng quan trọng. Điều này gây khó khăn trong việc quản lý tài nguyên mạng.

Các chức năng bị ảnh hưởng bao gồm AllocateAddress, AssociateAddress, DescribeRouteTable và DescribeNetworkInterfaces. Việc không thể sử dụng các API này đã cản trở khả năng của khách hàng trong việc quản lý và khôi phục hạ tầng mạng.

Chiến lược Khắc phục và Phục hồi API

Trong suốt buổi chiều, AWS đã triển khai nhiều thay đổi cấu hình. Mục tiêu là để giảm thiểu các lỗi API. Điều này cho thấy nỗ lực liên tục để khôi phục các dịch vụ thiết yếu.

Đến 2:28 PM PST, API AllocateAddress bắt đầu cho thấy những dấu hiệu phục hồi tích cực. Đây là một bước tiến quan trọng trong việc khôi phục khả năng cấp phát địa chỉ IP.

Tuy nhiên, API AssociateAddress lại chứng tỏ là một thách thức lớn hơn. Khách hàng không thể gán lại các địa chỉ Elastic IP (EIP) từ các tài nguyên bị ngừng hoạt động. Điều này đã ngăn cản việc chuyển đổi sang các tài nguyên đang hoạt động trong các vùng khỏe mạnh.

Vào lúc 6:01 PM PST, AWS xác nhận đã phục hồi thành công các yêu cầu API AssociateAddress. Đội ngũ kỹ thuật đã triển khai một bản cập nhật quan trọng. Bản cập nhật này cho phép khách hàng buộc phải hủy liên kết địa chỉ Elastic IP. Điều này áp dụng cho các tài nguyên bị kẹt trong trung tâm dữ liệu mất điện. Để biết thêm thông tin về tình trạng dịch vụ AWS, có thể truy cập AWS Health Dashboard.

Biện pháp khắc phục này đã giúp các tổ chức khôi phục kết nối. Họ có thể liên kết các địa chỉ IP hiện có của mình với các tài nguyên mới được khởi chạy. Những tài nguyên này đặt tại các Vùng sẵn sàng không bị ảnh hưởng.

Kiến trúc Đa Availability Zone: Giải pháp Giảm thiểu Rủi ro

Mặc dù chức năng API đã được khôi phục, cơ sở hạ tầng vật lý cơ bản vẫn ngoại tuyến. AWS cho biết họ vẫn đang chờ sự cho phép từ chính quyền địa phương. Việc này là để khôi phục nguồn điện một cách an toàn cho cơ sở bị hư hại.

“Chúng tôi vẫn đang chờ cấp phép để bật lại nguồn điện. Một khi có, chúng tôi sẽ đảm bảo khôi phục nguồn điện và kết nối một cách an toàn,” một đại diện của AWS tuyên bố trong bản cập nhật lúc 9:41 AM PST. Sự cố này đặc biệt nhấn mạnh tầm quan trọng của kiến trúc đa Availability Zone.

Lợi ích của Thiết kế Đa Vùng sẵn sàng

AWS đã nhấn mạnh rằng các khách hàng triển khai ứng dụng dự phòng. Những ứng dụng này chạy trên nhiều Vùng sẵn sàng đã được cách ly phần lớn khỏi gián đoạn dịch vụ cloud. Điều này chứng minh hiệu quả của việc phân tán tài nguyên.

Đối với các tổ chức yêu cầu phục hồi ngay lập tức. Cụ thể là các tải công việc bị ảnh hưởng. AWS khuyến nghị khởi chạy các tài nguyên thay thế. Các tài nguyên này nên được đặt tại các vùng không bị ảnh hưởng. Hoặc, họ có thể sử dụng các Khu vực AWS thay thế. Việc khôi phục dữ liệu từ các bản sao lưu hoặc EBS snapshots gần nhất là rất quan trọng.

Khuyến nghị và Tình hình Cập nhật về Sự cố AWS

Do lượng traffic lớn được chuyển từ vùng bị ngừng hoạt động. AWS lưu ý rằng khách hàng có thể trải nghiệm thời gian cung cấp dài hơn. Hoặc, họ có thể cần thử lại khi khởi chạy các loại phiên bản cụ thể. Điều này xảy ra trong các vùng khỏe mạnh của ME-CENTRAL-1.

Tính đến bản cập nhật cuối cùng lúc 6:01 PM PST. AWS vẫn chưa có ước tính thời gian cụ thể để khôi phục nguồn điện vật lý. Việc này diễn ra tại cơ sở mec1-az2. Công ty tiếp tục khuyến cáo khách hàng. Họ nên hoạt động từ các Vùng sẵn sàng hoặc Khu vực thay thế.

Việc này nên được thực hiện khi có thể. Trong khi đó, các nỗ lực phục hồi vẫn đang được tiến hành. Điều này đảm bảo tính liên tục của các hoạt động trong bối cảnh sự cố AWS này.