Shai Hulud 2.0: Đánh cắp dữ liệu nghiêm trọng qua chuỗi cung ứng

Vào ngày 24 tháng 11 năm 2025, một biến thể mới của mã độc, được gọi là Shai Hulud 2.0, đã được phát hiện và nhanh chóng trở thành mối đe dọa nghiêm trọng. Ban đầu, các báo cáo mô tả đây chỉ là một cuộc tấn công chuỗi cung ứng npm thông thường, chủ yếu phát tán các kho lưu trữ GitHub chứa nội dung rác. Tuy nhiên, phân tích sâu hơn đã hé lộ một hoạt động tấn công mạng phức tạp hơn nhiều, dẫn đến việc đánh cắp dữ liệu nhạy cảm từ hàng nghìn tổ chức.

Mã độc này đã xâm phạm gần 1.200 tổ chức trên toàn cầu, bao gồm các ngân hàng lớn, cơ quan chính phủ và các công ty công nghệ nằm trong danh sách Fortune 500. Quy mô và mức độ tinh vi của Shai Hulud 2.0 đã đặt ra những thách thức đáng kể về an ninh mạng.

Nội dung

Phân Tích Kỹ Thuật về Phương Thức Xâm Nhập

Tấn Công Chuỗi Cung Ứng npm và Quy Trình CI/CD

Kỹ Thuật Trích Xuất Bộ Nhớ Runtime

Phạm Vi và Ảnh Hưởng của Cuộc Tấn Công

Các Nghiên Cứu Điển Hình về Rò Rỉ Dữ Liệu Nhạy Cảm

Chỉ Số Gây Nguy Hiểm (IoC) và Biện Pháp Khắc Phục

Các Loại Dữ Liệu Bị Đánh Cắp

Khuyến Nghị Bảo Mật Khẩn Cấp

Phân Tích Kỹ Thuật về Phương Thức Xâm Nhập

Tấn Công Chuỗi Cung Ứng npm và Quy Trình CI/CD

Các nhà nghiên cứu bảo mật tại Entro Security đã quan sát thấy rằng Shai Hulud 2.0 không chỉ tạo ra các kho lưu trữ GitHub giả mạo. Mục tiêu chính của mã độc là trích xuất bộ nhớ runtime và thông tin xác thực nhạy cảm từ sâu bên trong các quy trình CI/CD (Continuous Integration/Continuous Delivery) của doanh nghiệp.

Hàng nghìn kho lưu trữ GitHub do kẻ tấn công kiểm soát chỉ là “lớp thu thập” dữ liệu ban đầu. Thiệt hại thực sự xảy ra trong các môi trường của nạn nhân, bao gồm các điểm cuối của nhà phát triển, máy chủ xây dựng trên đám mây và các GitHub runner tự host.

Tại các môi trường này, mã độc đã thực thi các script độc hại trong giai đoạn “preinstall” của các gói npm bị xâm nhập. Đây là một điểm yếu phổ biến trong chuỗi cung ứng phần mềm, nơi các script có thể được chạy tự động mà không cần sự can thiệp trực tiếp của người dùng.

Kỹ Thuật Trích Xuất Bộ Nhớ Runtime

Điểm độc đáo của Shai Hulud 2.0 là khả năng thu thập toàn bộ môi trường runtime, thay vì chỉ quét các tệp tĩnh. Phân tích của Entro Security đã chỉ ra rằng các tệp tin được tạo ra, như environment.json, chứa các ảnh chụp bộ nhớ được mã hóa kép bằng base64.

Những ảnh chụp bộ nhớ này cho phép kẻ tấn công tái tạo chính xác trạng thái của các máy bị xâm nhập. Từ đó, chúng có thể truy cập vào các bí mật nằm trong bộ nhớ (in-memory secrets) mà không bao giờ xuất hiện trong các kho mã nguồn.

// Ví dụ về cấu trúc dữ liệu bị exfiltrate (giả định) và được mã hóa:{ "timestamp": "2025-11-25T10:30:00Z", "hostname": "build-server-01", "user": "ci_user", "memory_snapshot_b64": "Qm91...", // Double-base64 encoded memory data "environment_vars_b64": "RVZJ..." // Double-base64 encoded environment variables}

Phạm Vi và Ảnh Hưởng của Cuộc Tấn Công

Quy mô của cuộc xâm phạm là rất lớn. Các nhà nghiên cứu tại Entro đã xác định được 1.195 tổ chức riêng biệt. Việc này được thực hiện thông qua phân tích các tên miền email, tên máy chủ nội bộ và các định danh tenant được tìm thấy trong dữ liệu bị đánh cắp dữ liệu.

Các công ty công nghệ và SaaS bị ảnh hưởng nặng nề nhất, chiếm hơn một nửa số nạn nhân được xác định. Điều này nhấn mạnh tầm quan trọng của việc bảo vệ các chuỗi cung ứng phần mềm và môi trường phát triển.

Các Nghiên Cứu Điển Hình về Rò Rỉ Dữ Liệu Nhạy Cảm

Hai trường hợp cụ thể đã làm nổi bật mức độ nghiêm trọng của cuộc tấn công:

Công ty bán dẫn lớn nhất thế giới: Một GitHub Actions runner tự host của công ty này đã bị xâm nhập. Dữ liệu bộ nhớ được giải mã đã phơi bày GitHub Personal Access Tokens (PATs) đang hoạt động và các tên máy chủ nội bộ. Điều này chứng minh rằng kẻ tấn công đã có được các điểm truy cập hợp lệ vào hạ tầng nội bộ của công ty.
Nhà cung cấp dịch vụ lưu trữ tài sản kỹ thuật số cấp 1: Trong trường hợp này, mã độc đã tấn công một pipeline GitLab CI. Dữ liệu bị exfiltrate bao gồm AWS secret keys đang hoạt động, các token sản xuất blockchain và các khóa API Slack.

Điều đáng báo động là các cuộc quét được tiến hành vào ngày 27 tháng 11, ba ngày sau khi tiết lộ ban đầu, cho thấy một số thông tin xác thực có giá trị cao này, bao gồm cả Google Cloud Service Account keys, vẫn còn hiệu lực và chưa bị thu hồi. Đây là một rủi ro bảo mật nghiêm trọng.

Các kho lưu trữ GitHub liên quan đến Shai Hulud 2.0 đang được gỡ bỏ. Tuy nhiên, các thông tin xác thực bị đánh cắp dữ liệu vẫn nằm trong tay kẻ tấn công. Chiến dịch này cho thấy bất kỳ môi trường nào mà mã được thực thi, dù là máy tính xách tay cục bộ hay CI runner trên đám mây, đều là mục tiêu tiềm năng cho việc trích xuất bộ nhớ.

Chỉ Số Gây Nguy Hiểm (IoC) và Biện Pháp Khắc Phục

Dù không có các IoC truyền thống như địa chỉ IP hay hash file, các loại dữ liệu bị đánh cắp chính là chỉ số quan trọng về mức độ xâm phạm và nguy cơ tiềm ẩn.

Các Loại Dữ Liệu Bị Đánh Cắp

GitHub Personal Access Tokens (PATs) đang hoạt động
Tên máy chủ nội bộ (Internal hostnames)
AWS Secret Keys đang hoạt động
Token sản xuất blockchain (Blockchain production tokens)
Khóa API Slack (Slack API keys)
Google Cloud Service Account keys

Khuyến Nghị Bảo Mật Khẩn Cấp

Với các bí mật hợp lệ vẫn đang lưu hành sau nhiều ngày kể từ cuộc tấn công, các tổ chức được khuyến nghị mạnh mẽ phải thực hiện các biện pháp sau:

Xoay vòng tất cả các danh tính không phải con người (non-human identities): Bao gồm PATs, khóa API, secret keys của các dịch vụ đám mây và các thông tin xác thực tương tự.
Coi môi trường runtime là đã bị xâm phạm hoàn toàn: Thực hiện đánh giá toàn diện và tái cấu hình bảo mật.
Tăng cường giám sát CI/CD pipeline: Triển khai các công cụ giám sát nâng cao để phát hiện hoạt động bất thường trong các giai đoạn xây dựng và triển khai.
Đánh giá bảo mật chuỗi cung ứng: Kiểm tra kỹ lưỡng các gói npm và các thành phần bên thứ ba được sử dụng trong dự án. Tham khảo thêm về phân tích chuyên sâu tại Entro Security để hiểu rõ hơn về Shai Hulud 2.0.

Việc không thực hiện các biện pháp này kịp thời có thể dẫn đến hậu quả nghiêm trọng hơn, bao gồm việc kẻ tấn công tiếp tục đánh cắp dữ liệu và kiểm soát hệ thống.