Mật khẩu LLM: Rủi ro nghiêm trọng cho An toàn thông tin

Các mô hình ngôn ngữ lớn (LLM) ngày càng được yêu cầu tạo ra mật khẩu, tuy nhiên, nghiên cứu mới đây đã chỉ ra rằng mật khẩu được tạo bởi LLM yếu hơn nhiều so với vẻ ngoài của chúng. Một mật khẩu như G7$kL9#mQ2&xP4!w có thể trông ngẫu nhiên một cách thuyết phục, nhưng nó tiềm ẩn một lỗi cơ bản mà các công cụ đánh giá độ mạnh mật khẩu thông thường không thể phát hiện.

Nội dung

Bản Chất Kỹ Thuật của Mật Khẩu được Tạo bởi LLM

Phân Tích Thực Nghiệm: Các Mô Hình LLM Tạo Mật Khẩu Yếu Kém

Mẫu Lặp Lại và Độ Phân Bố Không Đồng Đều

Đánh Giá Độ Mạnh của Mật Khẩu qua Entropy và Nguy Cơ Khai Thác

Entropy Thấp: Mối Đe Dọa Nghiêm Trọng

Mật Khẩu LLM Trong Môi Trường Phát Triển và Sản Xuất

Biện Pháp Khắc Phục và Tăng Cường An Toàn Thông Tin

Bản Chất Kỹ Thuật của Mật Khẩu được Tạo bởi LLM

Vấn đề cốt lõi nằm ở cách LLM hoạt động. Việc tạo mật khẩu an toàn đòi hỏi một bộ sinh số ngẫu nhiên an toàn mật mã (CSPRNG – Cryptographically-Secure Pseudorandom Number Generator).

CSPRNG chọn các ký tự từ một phân bố thực sự đồng nhất, nghĩa là mỗi ký tự có cơ hội được chọn như nhau. Điều này là nền tảng để đảm bảo tính ngẫu nhiên và khó đoán của mật khẩu.

Ngược lại, LLM được huấn luyện để dự đoán mã thông báo (token) tiếp theo có khả năng xảy ra nhất dựa trên những gì đã xuất hiện trước đó. Quá trình dự đoán này, theo thiết kế, về cơ bản không tương thích với tính ngẫu nhiên thực sự.

Do đó, mật khẩu được tạo bởi LLM luôn mang trong mình những mẫu hình tiềm ẩn, có thể bị khai thác bởi kẻ tấn công.

Phân Tích Thực Nghiệm: Các Mô Hình LLM Tạo Mật Khẩu Yếu Kém

Các nhà phân tích từ Irregular đã tiến hành kiểm tra khả năng tạo mật khẩu trên nhiều mô hình LLM chính, bao gồm các phiên bản mới nhất của GPT, Claude và Gemini.

Nghiên cứu đã xác định các mẫu hình rõ ràng, có thể lặp lại trên tất cả các kết quả. Điều này cho thấy sự thiếu ngẫu nhiên cố hữu trong quá trình tạo mật khẩu được tạo bởi LLM. Chi tiết nghiên cứu có thể tham khảo tại Irregular Analysts.

Mẫu Lặp Lại và Độ Phân Bố Không Đồng Đều

Trong 50 lần chạy độc lập với Claude Opus 4.6, chỉ có 30 mật khẩu duy nhất được tạo ra. Đáng chú ý, một chuỗi mật khẩu cụ thể, G7$kL9#mQ2&xP4!w, đã được tạo ra 18 lần, tương đương với xác suất 36%.

Mô hình GPT-5.2 tạo ra các mật khẩu mà gần như tất cả đều bắt đầu bằng chữ cái "v". Tương tự, Gemini 3 Flash luôn tạo ra các mật khẩu bắt đầu bằng "K" hoặc "k".

Đây không phải là những điểm kỳ lạ nhỏ. Chúng phản ánh các thiên kiến có thể dự đoán được, mà kẻ tấn công có thể trực tiếp khai thác để suy luận và phá vỡ mật khẩu được tạo bởi LLM.

Đánh Giá Độ Mạnh của Mật Khẩu qua Entropy và Nguy Cơ Khai Thác

Để định lượng mức độ yếu kém của các mật khẩu này, các nhà nghiên cứu đã áp dụng công thức Shannon entropy và sử dụng dữ liệu log-xác suất được lấy trực tiếp từ các mô hình.

Entropy là một thước đo về độ mạnh của mật khẩu, cho biết mức độ ngẫu nhiên và khó đoán. Một mật khẩu 16 ký tự được tạo đúng cách dự kiến sẽ có khoảng 98 bit entropy.

Mức entropy này khiến việc tấn công brute-force trở nên gần như không thể trong bất kỳ khung thời gian thực tế nào, đảm bảo an toàn thông tin cho người dùng.

Entropy Thấp: Mối Đe Dọa Nghiêm Trọng

Tuy nhiên, các mật khẩu được tạo bởi Claude Opus 4.6 chỉ cho thấy ước tính khoảng 27 bit entropy. Các mật khẩu 20 ký tự được tạo bởi GPT-5.2 thậm chí còn đáng lo ngại hơn, chỉ đạt khoảng 20 bit entropy.

Với mức entropy thấp như vậy, một mật khẩu có thể bị phá vỡ chỉ trong vài giây trên một máy tính tiêu chuẩn. Đây là một rủi ro bảo mật nghiêm trọng đối với bất kỳ hệ thống nào sử dụng những mật khẩu này.

Việc thay đổi cài đặt nhiệt độ (temperature) của LLM cũng không mang lại giải pháp. Chạy Claude ở nhiệt độ tối đa 1.0 vẫn tạo ra các mẫu lặp lại tương tự. Giảm xuống 0.0 khiến cùng một mật khẩu xuất hiện mọi lúc.

Mật Khẩu LLM Trong Môi Trường Phát Triển và Sản Xuất

Vấn đề không chỉ giới hạn ở người dùng thông thường yêu cầu chatbot tạo mật khẩu. Các tác nhân lập trình (coding agents) như Claude Code, Codex và Gemini-CLI đã được phát hiện tạo ra mật khẩu được tạo bởi LLM trong quá trình phát triển phần mềm.

Điều này đôi khi xảy ra mà không cần nhà phát triển yêu cầu trực tiếp. Trong các môi trường "vibe-coding" – nơi mã được xây dựng và triển khai mà không qua xem xét kỹ lưỡng – những thông tin xác thực yếu kém này có thể đi thẳng vào hệ thống sản xuất mà không bị phát hiện.

Các nhà nghiên cứu cũng phát hiện ra rằng các tiền tố mật khẩu do LLM tạo ra, ví dụ như K7#mP9 và k9#vL, xuất hiện trong các kho lưu trữ GitHub công khai và các tài liệu kỹ thuật trực tuyến.

Biện Pháp Khắc Phục và Tăng Cường An Toàn Thông Tin

Để giảm thiểu rủi ro bảo mật từ mật khẩu được tạo bởi LLM, các đội ngũ an ninh cần thực hiện các biện pháp sau:

Kiểm tra và xoay vòng định kỳ: Tất cả các thông tin xác thực (credentials) có thể đã được tạo bởi các công cụ AI hoặc tác nhân lập trình cần được kiểm tra và xoay vòng ngay lập tức.
Cấu hình tác nhân lập trình: Các nhà phát triển nên cấu hình các tác nhân để sử dụng các phương pháp an toàn mật mã để tạo mật khẩu dựa trên CSPRNG.
Kiểm tra mã nguồn: Rà soát tất cả mã được tạo bởi AI để tìm kiếm các mật khẩu được mã hóa cứng (hardcoded passwords) trước khi triển khai.

Ví dụ về lệnh CLI để tạo mật khẩu an toàn bằng CSPRNG:

openssl rand -base64 16

Hoặc sử dụng nguồn entropy từ hệ thống:

head /dev/urandom | tr -dc A-Za-z0-9_&#@%+-= | head -c 16 ; echo

Việc tuân thủ các nguyên tắc này sẽ giúp nâng cao an toàn thông tin cho các ứng dụng và hệ thống, tránh được những lỗ hổng tiềm ẩn từ việc sử dụng mật khẩu được tạo bởi LLM không an toàn.