AI phát hiện lỗ hổng Zero-day: Khả năng vượt trội nguy hiểm

Mô hình AI mới nhất của Anthropic đã tự động nhận diện thành công các lỗ hổng zero-day nghiêm trọng trong các codebase có tuổi đời hàng thập kỷ, nâng cao đáng kể năng lực cho cả người phòng thủ và kẻ tấn công trong lĩnh vực an ninh mạng.
Anthropic đã phát hành Claude Opus 4.6 vào ngày 5 tháng 2 năm 2026, với khả năng an ninh mạng được tăng cường đáng kể. Mô hình này đã xác định được hơn 500 lỗ hổng nghiêm trọng chưa từng được biết đến trước đây trong phần mềm mã nguồn mở.
Khả Năng Phát Hiện Lỗ Hổng Zero-Day Vượt Trội của Claude Opus 4.6
Mô hình AI này đã khám phá các lỗ hổng zero-day mà không cần các công cụ chuyên biệt hay cấu trúc hỗ trợ tùy chỉnh. Điều này chứng tỏ rằng các mô hình ngôn ngữ lớn (LLM) hiện có thể sánh ngang hoặc vượt trội so với các phương pháp phát hiện lỗ hổng truyền thống về cả tốc độ và mức độ tinh vi.
Không giống như các công cụ fuzzing truyền thống thường tấn công mã nguồn bằng các đầu vào ngẫu nhiên, Claude Opus 4.6 sử dụng khả năng suy luận giống con người để xác định các lỗ hổng. Mô hình đọc lịch sử commit của Git, phân tích các mẫu mã và hiểu logic lập trình để xây dựng các khai thác mục tiêu.
Trong các thử nghiệm đối với một số dự án codebase được fuzzing kỹ lưỡng nhất với hàng triệu giờ CPU đầu tư vào thử nghiệm tự động, Claude đã phát hiện ra các lỗ hổng nghiêm trọng mà đã không được phát hiện trong nhiều thập kỷ.
Phương Pháp Phân Tích Độc Đáo và Các Nghiên Cứu Điển Hình
Nhóm nghiên cứu của Anthropic đã đặt Claude vào môi trường máy ảo với quyền truy cập vào các tiện ích phát triển tiêu chuẩn và công cụ phân tích lỗ hổng, nhưng không cung cấp hướng dẫn chuyên biệt nào. Phương pháp thử nghiệm “out-of-the-box” này đã cho thấy khả năng vốn có của mô hình trong việc suy luận về an ninh mạng mà không cần đào tạo chuyên biệt theo tác vụ.
Nghiên Cứu Điển Hình: GhostScript
Khi fuzzing và phân tích thủ công không mang lại kết quả trong GhostScript (một trình xử lý PostScript và PDF được sử dụng rộng rãi), Claude đã chuyển sang kiểm tra lịch sử commit của dự án Git. Mô hình đã xác định một commit liên quan đến bảo mật về kiểm tra giới hạn stack cho việc xử lý font chữ. Claude sau đó suy luận rằng nếu việc kiểm tra giới hạn được thêm vào, mã trước commit đó sẽ dễ bị tấn công.
Claude tiếp tục tìm thấy các lỗ hổng tương tự chưa được vá trong các đường dẫn mã khác, cụ thể là một lời gọi hàm trong gdevpsfx.c thiếu kiểm tra giới hạn đã được thêm vào ở nơi khác. Điều này minh họa khả năng của AI trong việc nhận diện các mẫu lỗi dựa trên lịch sử phát triển.
Nghiên Cứu Điển Hình: OpenSC
Đối với OpenSC, một tiện ích xử lý dữ liệu thẻ thông minh, Claude đã xác định nhiều hoạt động strcat nối chuỗi mà không có xác thực độ dài phù hợp. Mô hình nhận ra rằng một bộ đệm 4096-byte có thể bị tràn khi các điều kiện cụ thể được đáp ứng, cho thấy khả năng suy luận về an toàn bộ nhớ trong mã C.
Các công cụ fuzzing truyền thống hiếm khi kiểm tra đường dẫn mã này do có nhiều điều kiện tiên quyết, nhưng Claude tập trung trực tiếp vào đoạn mã dễ bị tổn thương. Đây là một ví dụ rõ ràng về việc AI bảo mật có thể tối ưu hóa quy trình kiểm thử.
Nghiên Cứu Điển Hình: Thư Viện CGIF
Đáng chú ý nhất, Claude đã phát hiện một lỗ hổng trong thư viện CGIF yêu cầu hiểu sâu sắc về thuật toán nén LZW được sử dụng trong các tệp GIF. Mô hình nhận ra rằng CGIF giả định dữ liệu nén sẽ luôn nhỏ hơn dữ liệu gốc, đây thường là một giả định an toàn. Tuy nhiên, Claude đã suy luận cách kích hoạt trường hợp cạnh (edge case) mà nén LZW tạo ra đầu ra lớn hơn đầu vào.
Claude đã tạo ra một bằng chứng về khái niệm (PoC) bằng cách cố tình tối đa hóa bảng ký hiệu LZW để buộc chèn các token “clear”, gây ra tràn bộ đệm. Lỗ hổng này đặc biệt quan trọng vì ngay cả khi đạt 100% độ phủ dòng và nhánh từ kiểm thử truyền thống cũng không thể phát hiện ra nó. Lỗ hổng đòi hỏi một chuỗi hoạt động rất cụ thể, yêu cầu hiểu biết khái niệm về thuật toán.
Quy Trình Xác Thực và Vá Lỗi Chặt Chẽ
Để ngăn chặn các lỗi dương tính giả (false positives) có thể gây gánh nặng cho các nhà bảo trì mã nguồn mở, Anthropic đã triển khai các quy trình xác thực rộng rãi. Nhóm nghiên cứu tập trung vào các lỗ hổng liên quan đến hỏng bộ nhớ vì chúng có thể được xác thực tương đối dễ dàng bằng cách sử dụng giám sát sự cố (crash monitoring) và trình khử trùng địa chỉ (address sanitizers).
Bản thân Claude đã phê bình, loại bỏ trùng lặp và ưu tiên lại các sự cố, trong khi các nhà nghiên cứu bảo mật của Anthropic đã xác thực từng lỗ hổng và ban đầu tự viết các bản vá. Khi số lượng phát hiện tăng lên, các nhà nghiên cứu bảo mật bên ngoài đã được mời hỗ trợ xác thực và phát triển bản vá.
Tất cả hơn 500 lỗ hổng được phát hiện đều đã được xác thực là thật (không phải “ảo giác”) và các bản vá hiện đang được áp dụng cho các dự án bị ảnh hưởng. Anthropic đã bắt đầu báo cáo các lỗ hổng cho các nhà bảo trì và tiếp tục làm việc để vá các vấn đề còn lại.
Quản Lý Rủi Ro Kép và An Toàn AI Bảo Mật
Nhận thức được rủi ro kép (dual-use risk) của các khả năng an ninh mạng nâng cao, Anthropic đã giới thiệu các lớp phát hiện mới cùng với việc phát hành Claude Opus 4.6. Công ty đã phát triển sáu đầu dò (probe) chuyên biệt về an ninh mạng mới để đo lường các hoạt động của mô hình trong quá trình tạo phản hồi nhằm phát hiện khả năng lạm dụng ở quy mô lớn.
Các quy trình thực thi được cập nhật có thể bao gồm can thiệp theo thời gian thực để chặn lưu lượng truy cập được phát hiện là độc hại. Anthropic thừa nhận điều này sẽ tạo ra ma sát cho nghiên cứu bảo mật hợp pháp và công việc phòng thủ, và đã cam kết làm việc với cộng đồng nghiên cứu bảo mật để giải quyết những thách thức này. Thông tin chi tiết hơn về các rủi ro kép được Anthropic công bố tại đây.
Công ty đã đào tạo mô hình trên hơn 10 triệu lời nhắc đối kháng và triển khai các giao thức từ chối cho các hoạt động bị cấm, bao gồm đánh cắp dữ liệu (data exfiltration), triển khai phần mềm độc hại (malware deployment) và kiểm thử xâm nhập trái phép (unauthorized penetration testing).
Tác Động và Triển Vọng Tương Lai đối với An Ninh Mạng
Nghiên cứu của Anthropic chứng minh rằng các mô hình AI giờ đây có thể tìm thấy các lỗ hổng zero-day có ý nghĩa trong các codebase đã được kiểm thử kỹ lưỡng, có khả năng vượt qua tốc độ và quy mô của các nhà nghiên cứu con người chuyên nghiệp.
Công ty đã chấm điểm hiệu suất của Claude Opus 4.6 trên 40 cuộc điều tra an ninh mạng, với mô hình tạo ra kết quả tốt nhất trong 38/40 trường hợp so với các mô hình Claude 4.5 trước đó trong các bảng xếp hạng mù.
Sự phát triển này cho thấy rằng các cửa sổ công bố lỗ hổng 90 ngày theo tiêu chuẩn ngành có thể trở nên không phù hợp với khối lượng và tốc độ của các lỗi được phát hiện bởi LLM. Các đội an ninh mạng sẽ cần các quy trình làm việc mới để bắt kịp với việc phát hiện lỗ hổng tự động ở quy mô lớn.
Anthropic đang ưu tiên phần mềm mã nguồn mở để phát hiện lỗ hổng vì nó chạy trên các hệ thống doanh nghiệp và cơ sở hạ tầng quan trọng, với các lỗ hổng có thể lan rộng khắp internet. Nhiều dự án mã nguồn mở được duy trì bởi các nhóm nhỏ hoặc tình nguyện viên thiếu nguồn lực bảo mật chuyên dụng, làm cho các báo cáo lỗi được xác thực và các bản vá được xem xét trở nên đặc biệt có giá trị.
Công ty nhấn mạnh rằng đây là một điểm uốn (inflection point) nơi các nhà phòng thủ phải hành động nhanh chóng để bảo mật mã nguồn trong khi cửa sổ lợi thế vẫn còn tồn tại. Nghiên cứu trước đây của Anthropic đã chứng minh rằng các mô hình Claude có thể thực hiện các cuộc tấn công đa giai đoạn trên các mạng với hàng chục máy chủ bằng cách tìm và khai thác các lỗ hổng đã biết, nhấn mạnh tầm quan trọng của việc vá lỗi kịp thời.
Anthropic coi công việc này chỉ là sự khởi đầu của những nỗ lực quy mô lớn để tận dụng AI cho an ninh mạng phòng thủ. Công ty có kế hoạch tiếp tục tự động hóa việc phát triển bản vá để khắc phục lỗi một cách đáng tin cậy ngay khi chúng được phát hiện.
Khi khả năng của mô hình ngôn ngữ tiếp tục phát triển, cộng đồng bảo mật phải đối mặt với nhu cầu cấp bách là đẩy nhanh việc áp dụng AI phòng thủ đồng thời quản lý các rủi ro từ việc lạm dụng tấn công.







