1999 DARPA ID dữ liệu thiết lập được thu thập tại MIT Lincoln Labs để đánh giá hệ thống phát hiện xâm nhập. Tất cả mạng lưới giao thông bao gồm toàn bộ tải trọng của mỗi gói tin được ghi lại ở định dạng tcpdump và cung cấp đánh giá. Ngoài ra, còn có Nhật ký kiểm tra, hàng ngày tập tin hệ thống bãi và bản ghi BSM (Solaris hệ thống gọi). Các dữ liệu bao gồm ba tuần đào tạo dữ liệu và hai tuần của dữ liệu thử nghiệm. Trong dữ liệu đào tạo có được hai tuần tấn công miễn phí dữ liệu và dữ liệu với một tuần gắn nhãn cuộc tấn công. Số liệu này đã được sử dụng trong nhiều nghiên cứu những nỗ lực và kết quả của cuộc thử nghiệm đối với dữ liệu này đã được báo cáo trong nhiều ấn phẩm. Mặc dù có những vấn đề do tính chất của môi trường mô phỏng tạo dữ liệu, nó vẫn còn một bộ các dữ liệu để so sánh các kỹ thuật hữu ích. Đầu trang kết quả đã được báo cáo bởi [39]. Trong thử nghiệm của chúng tôi về tải trọng bất thường phát hiện chúng tôi chỉ sử dụng bên trong mạng dữ liệu giao thông mà bị bắt giữa router và các nạn nhân. Vì khu vực đặt các ứng dụng trên Internet sử dụng TCP (web, email, telnet và ftp), và để làm giảm sự phức tạp của thử nghiệm, chúng tôi chỉ kiểm tra trong nước lưu thông TCP đến cổng 0-1023 của 172.016.xxx.xxx máy chủ chứa hầu hết các nạn nhân, và các cảng 0-1023 nằm trên một phần của dịch vụ mạng. Đối với các dữ liệu DARPA 99, chúng tôi tiến hành thí nghiệm bằng cách sử dụng mỗi gói như là đơn vị dữ liệu và mỗi kết nối như là đơn vị dữ liệu. Chúng tôi sử dụng tcptrace để tái tạo lại các kết nối TCP từ các gói dữ liệu mạng trong các tập tin tcpdump. Chúng tôi cũng đã thử ý tưởng của "trọng tải cắt ngắn", cả hai đều cho mỗi gói tin và mỗi kết nối. Cho các gói dữ liệu cắt ngắn, chúng tôi đã cố gắng N byte đầu tiên và byte đuôi N riêng, N là tham số. Bằng cách sử dụng cắt bớt trọng tải tiết kiệm đáng kể tính toán thời gian và không gian. Chúng tôi báo cáo các kết quả cho mỗi của các mô hình này. Chúng tôi đào tạo mô hình phân phối tải trọng trên số liệu DARPA sử dụng tuần 1 (5 ngày, tấn công miễn phí) và tuần 3 (7 ngày, tấn công miễn phí), sau đó đánh giá các máy dò trên tuần 4 và 5, chứa 201 trường hợp của các cuộc tấn công khác nhau 58, 177 trong đó có thể nhìn thấy ở bên trong tcpdump dữ liệu. Bởi vì chúng tôi giới hạn các nạn nhân IP và port range, có 14 người khác chúng ta bỏ qua trong thử nghiệm này. Trong thử nghiệm này, chúng tôi tập trung vào lưu thông TCP only, do đó, các cuộc tấn công bằng cách sử dụng UDP, ICMP, ARP (giao thức phân giải địa chỉ) và IP chỉ không thể phát hiện. Chúng bao gồm: smurf (ICMP echo-reply flood), ping-của-cái chết (ngoại cỡ ping túi), UDPstorm, arppoison (corrupts ARP cache mục của nạn nhân), selfping, ipsweep, teardrop (MIS-phân mảnh gói UDP). Cũng bởi vì chúng tôi mô hình tải trọng tính từ chỉ trọng phần của gói tin mạng, các cuộc tấn công mà không chứa bất kỳ tải trọng là không thể phát hiện với phát hiện bất thường được đề nghị. Vì vậy, không có ở tất cả các cuộc tấn công 97 để được phát hiện bởi mô hình tải trọng của chúng tôi trong tuần 4 và 5 đánh giá dữ liệu. Sau khi lọc không có ở tất cả các gói dữ liệu 2,444,591, và 49556 các kết nối, với chiều dài nonzero dữ liệu để đánh giá. Chúng tôi xây dựng một mô hình cho mỗi chiều dài trọng quan sát thấy trong dữ liệu đào tạo cho mỗi cổng giữa 0-1023 và cho mỗi máy chủ. Các yếu tố làm mịn được thiết lập để 0,001 đó sẽ cho kết quả tốt nhất cho số liệu này (xem các cuộc thảo luận trong phần 3.2). Điều này giúp tránh phù hợp hơn và làm giảm tỷ lệ sai tích cực. Cũng vì có một số lượng không đầy đủ các ví dụ huấn luyện trong dữ liệu DARPA99, chúng tôi áp dụng clustering để các mô hình miêu tả trước đó. Cụm các mô hình của nước láng giềng chiều dài thùng có nghĩa là tương tự như các mô hình có thể cung cấp dữ liệu đào tạo nhiều hơn cho một mô hình có dữ liệu đào tạo là quá thưa thớt do đó làm cho nó ít nhạy cảm và chính xác hơn.
đang được dịch, vui lòng đợi..
