Sự cố dịch vụ Cloudflare nghiêm trọng: 6 giờ gián đoạn toàn cầu

Vào ngày 20 tháng 2 năm 2026, sự cố dịch vụ Cloudflare toàn cầu đã diễn ra kéo dài sáu giờ đồng hồ. Sự cố này gây ra gián đoạn nghiêm trọng cho các khách hàng sử dụng dịch vụ Bring Your Own IP (BYOIP) của Cloudflare.
Sự cố bắt đầu lúc 17:48 UTC và kéo dài sáu giờ bảy phút. Hậu quả là các định tuyến BGP của khách hàng bị rút khỏi Internet một cách không chủ ý. Điều này khiến nhiều dịch vụ và ứng dụng không thể truy cập được, trở thành một trong những tin tức bảo mật đáng chú ý.
Tổng quan về sự cố gián đoạn
Cloudflare đã xác nhận sự cố gián đoạn hoàn toàn do một bản cập nhật cấu hình nội bộ. Đây không phải là một cuộc tấn công mạng hay hoạt động độc hại.
Sự kiện này ảnh hưởng đến 25% tổng số tiền tố BYOIP trên toàn cầu. Nó cũng gây ra các lỗi HTTP 403 trên trang web bộ phân giải DNS công cộng 1.1.1.1.
- Tham khảo về lỗi HTTP 403: HTTP Status Codes (4xx Client Error) – Cloudflare.
Phân tích nguyên nhân gốc rễ
Nguyên nhân gốc rễ của sự cố dịch vụ Cloudflare được xác định là một lỗi nội bộ trong API Addressing của Cloudflare. Lỗi này phát sinh trong quá trình triển khai một tác vụ phụ dọn dẹp tự động.
Tác vụ này được thiết kế để thay thế các quy trình loại bỏ tiền tố BYOIP thủ công. Đây là một phần của sáng kiến phục hồi “Code Orange: Fail Small” của công ty.
Các kỹ sư đã triển khai một hệ thống định kỳ kiểm tra và loại bỏ các đối tượng đang chờ xử lý khỏi mạng. Tuy nhiên, hệ thống này đã thực thi một truy vấn API truyền cờ pending_delete mà không gán giá trị.
Điều này khiến máy chủ hiểu chuỗi rỗng là lệnh để đưa tất cả các tiền tố BYOIP được trả về vào hàng đợi xóa. Thay vì chỉ những tiền tố được lên kế hoạch loại bỏ.
- Tìm hiểu thêm về tiền tố địa chỉ IP tùy chỉnh: Custom IP address prefix – Azure Virtual Network.
Chi tiết kỹ thuật về việc xóa tiền tố
Sai sót trong mã hóa này đã tự động xóa khoảng 1.100 tiền tố BYOIP và các ràng buộc dịch vụ phụ thuộc của chúng. Sự cố chỉ dừng lại khi một kỹ sư chủ động chấm dứt quá trình này.
Các kết nối bị ảnh hưởng ngay lập tức rơi vào trạng thái được gọi là BGP Path Hunting. Trong trạng thái này, các kết nối của người dùng cuối liên tục tìm kiếm các định tuyến đích cho đến khi hết thời gian chờ và thất bại.
- Khám phá sâu hơn về BGP Path Hunting: Going BGP Zombie Hunting – Cloudflare Blog.
Phạm vi ảnh hưởng của sự cố lan rộng ra nhiều sản phẩm cốt lõi dựa vào cấu hình BYOIP để quảng bá Internet.
Thách thức trong quá trình phục hồi
Quá trình phục hồi sự cố dịch vụ Cloudflare bị trì hoãn nghiêm trọng. Việc rút định tuyến hàng loạt đã ảnh hưởng đến các tiền tố của khách hàng theo những cách khác nhau. Điều này đòi hỏi các hoạt động phục hồi dữ liệu chuyên sâu và đa dạng.
Trong khi một số người dùng có khả năng tự khắc phục bằng cách bật lại quảng cáo của họ qua bảng điều khiển Cloudflare, khoảng 300 tiền tố đã bị xóa hoàn toàn các ràng buộc dịch vụ của chúng.
Các tài khoản bị ảnh hưởng nghiêm trọng này yêu cầu khôi phục thủ công bởi các kỹ sư. Họ phải đẩy các bản cập nhật cấu hình toàn cầu để áp dụng lại cài đặt trên mọi máy trong mạng biên (edge network).
Biện pháp ngăn chặn và cải thiện hệ thống
Để ngăn chặn các triển khai thảm khốc trong tương lai, Cloudflare đang đẩy nhanh một số thay đổi kiến trúc quan trọng theo chỉ thị Code Orange.
Nhóm kỹ sư đã lên kế hoạch chuẩn hóa lược đồ API. Mục tiêu là ngăn chặn các lỗi diễn giải cờ và tăng cường an toàn thông tin cho hệ thống. Ngoài ra, họ sẽ triển khai các bộ ngắt mạch (circuit breakers) để phát hiện việc xóa tiền tố BGP bất thường nhanh chóng.
- Tìm hiểu về các công cụ bảo vệ API tốt nhất: Best API Protection Tools – Cybersecurity News.
Cloudflare cũng sẽ thiết lập các bản ghi trạng thái hoạt động theo dõi sức khỏe (health-mediated operational state snapshots). Điều này nhằm tách biệt cấu hình của khách hàng khỏi các bản phát hành sản xuất, giảm thiểu rủi ro bảo mật tiềm tàng.
Cloudflare đã kết thúc báo cáo sự cố chính thức của mình với lời xin lỗi trực tiếp đến người dùng và cộng đồng Internet toàn cầu về sự gián đoạn ngày 20 tháng 2. Công ty công khai thừa nhận rằng sự cố gián đoạn lan rộng này đã làm suy yếu lời hứa cốt lõi của họ về việc cung cấp một mạng lưới có khả năng phục hồi cao.







