Để sử dụng máy học để phân loại các file thực thi như sự xâm nhập hoặc lành tính, người ta phải đầu tiên Êđê dựng bộ dữ liệu cho đào tạo nhãn. Một bộ hồ sơ-một cho mỗi tập tin lành tính và xâm nhập bao gồm các cơ sở dữ liệu. Mỗi bản ghi có chứa một tập hợp các tính năng và một nhãn (còn gọi là các lớp). Các tính năng của mỗi tập tin có nguồn gốc từ một số đặc điểm cụ thể của tập tin, chẳng hạn như kích thước của tập tin hoặc tần số của một đoạn mã nào đó trong các tập tin; nhãn là một giá trị nhị phân thể hiện hay không tập là sự xâm nhập. thuật toán học phân tích hồ sơ dành riêng cho đào tạo để tạo ra một mô hình toán học mà các bản đồ các mối quan hệ của các tính năng tập tin và nhãn. Đó là mô hình, được gọi là phân loại, được sử dụng để dự đoán các lớp của mỗi bản ghi trong các dữ liệu thử nghiệm, hoặc các hồ sơ được chỉ định để thử nghiệm. Bộ phân loại không thể đọc được các nhãn khi đưa ra dự đoán; nhãn dữ liệu thử nghiệm chỉ được sử dụng khi dự đoán được so sánh với các nhãn đúng trong phân tích tiếp theo của hiệu suất.
đang được dịch, vui lòng đợi..