Một nghiên cứu về việc phân loại mã độc PE bằng học liên kết
Một nghiên cứu về việc phân loại mã độc PE bằng học liên kết
220201025 - Nguyễn Vương Thịnh
Trong thời đại công nghệ số ngày nay, các mối đe dọa mã độc và tấn công mạng đang ngày càng trở nên phức tạp và khó kiểm soát. Việc phân loại mã độc một cách chính xác và nhanh chóng là yêu cầu cấp thiết nhằm bảo vệ hệ thống mạng và dữ liệu của các tổ chức. Mặc dù các phương pháp học máy hiện tại đã chứng minh giá trị của chúng trong việc phát hiện và phân loại mã độc. Nhưng chúng thường yêu cầu tập hợp tất cả dữ liệu từ nhiều nguồn khác nhau về một chỗ mới có thể bắt đầu quá trình huấn luyện. Điều này dẫn đến việc xử lý và lưu trữ dữ liệu tập trung, có thể gây rủi ro cao về rò rỉ thông tin cá nhân người dùng. Việc tập trung dữ liệu ở một chỗ không chỉ làm tăng nguy cơ lộ lọt thông tin mà còn đặt ra thách thức về bảo mật dữ liệu và tuân thủ các quy định về quyền riêng tư của người dùng. Các giải pháp huấn luyện mô hình tập trung dữ liệu khó có thể đảm bảo quyền riêng tư cho người dùng trong quá trình xử lý dữ liệu, đặc biệt là khi dữ liệu có thể bao gồm thông tin nhạy cảm.
Nghiên cứu này đã đề xuất một khung phân loại mã độc PE toàn diện, kết hợp mô hình học sâu tiên tiến ResNet101 và kỹ thuật học liên kết (federated learning). Qua quá trình thực nghiệm, ResNet101 được xác định là mô hình hiệu quả nhất, đạt điểm F1 ấn tượng 92% trên tập dữ liệu hình ảnh của mã độc PE. Khi tích hợp mô hình ResNet101 vào thiết lập học liên kết, kết quả thực nghiệm cho thấy tiềm năng triển khai đáng kể, đặc biệt trong trường hợp dữ liệu IID, với chỉ số F1-score đạt 91.80%. Điều này phản ánh khả năng tổng quát hóa tốt của mô hình khi dữ liệu được phân phối đồng đều giữa các thiết bị khách. Tuy nhiên, trong môi trường dữ liệu non-IID, mô hình gặp phải những thách thức đáng kể, khi F1-score chỉ đạt 54.87%. Sự chênh lệch đáng kể này chủ yếu xuất phát từ sự phân bố không đồng đều của các mẫu mã độc giữa các thiết bị khách, dẫn đến hiện tượng thiên lệch trong quá trình cập nhật trọng số cục bộ. Đặc biệt, các lớp mã độc có sự mất cân bằng về tần suất xuất hiện khiến mô hình khó khăn trong việc học và tổng quát hóa trên toàn bộ tập dữ liệu.
Trân trọng.