The 1999 DARPA IDS data set was collected at MIT Lincoln Labs to evalu dịch - The 1999 DARPA IDS data set was collected at MIT Lincoln Labs to evalu Việt làm thế nào để nói

The 1999 DARPA IDS data set was col

The 1999 DARPA IDS data set was collected at MIT Lincoln Labs to evaluate intrusion
detection systems. All the network traffic including the entire payload of each packet was
recorded in tcpdump format and provided for evaluation. In addition, there are also audit
logs, daily file system dumps, and BSM (Solaris system call) logs. The data consists of
three weeks of training data and two weeks of test data. In the training data there are two
weeks of attack-free data and one week of data with labeled attacks.
This dataset has been used in many research efforts and results of tests against this data
have been reported in many publications. Although there are problems due to the nature
of the simulation environment that created the data, it still remains a useful set of data to
compare techniques. The top results were reported by [39].
In our experiment on payload anomaly detection we only used the inside network traffic
data which was captured between the router and the victims. Because most public applications on the Internet use TCP (web, email, telnet, and ftp), and to reduce the complexity
of the experiment, we only examined the inbound TCP traffic to the ports 0-1023 of the
hosts 172.016.xxx.xxx which contains most of the victims, and ports 0-1023 which covers
the majority of the network services. For the DARPA 99 data, we conducted experiments using each packet as the data unit and each connection as the data unit. We used tcptrace
to reconstruct the TCP connections from the network packets in the tcpdump files. We also
experimented the idea of “truncated payload”, both for each packet and each connection.
For truncated packets, we tried the first N bytes and the tail N bytes separately, where N is
a parameter. Using truncated payload saves considerable computation time and space. We
report the results for each of these models.
We trained the payload distribution model on the DARPA dataset using week 1 (5 days,
attack free) and week 3 (7 days, attack free), then evaluate the detector on weeks 4 and 5,
which contain 201 instances of 58 different attacks, 177 of which are visible in the inside
tcpdump data. Because we restrict the victims’ IP and port range, there are 14 others we
ignore in this test.
In this experiment, we focus on TCP traffic only, so the attacks using UDP, ICMP,
ARP (address resolution protocol) and IP only cannot be detected. They include: smurf
(ICMP echo-reply flood), ping-of-death (over-sized ping packets), UDPstorm, arppoison
(corrupts ARP cache entries of the victim), selfping, ipsweep, teardrop (mis-fragmented
UDP packets). Also because our payload model is computed from only the payload part of
the network packet, those attacks that do not contain any payload are impossible to detect
with the proposed anomaly detector. Thus, there are in total 97 attacks to be detected by
our payload model in weeks 4 and 5 evaluation data.
After filtering there are in total 2,444,591 packets, and 49556 connections, with nonzero length payloads to evaluate. We build a model for each payload length observed in the
training data for each port between 0-1023 and for every host machine. The smoothing factor is set to 0.001 which gives the best result for this dataset (see the discussion in Section
3.2). This helps avoid over-fitting and reduces the false positive rate. Also due to having an
inadequate number of training examples in the DARPA99 data, we apply clustering to the
models as described previously. Clustering the models of neighboring length bins means
that similar models can provide more training data for a model whose training data is too
sparse thus making it less sensitive and more accurate. But there is also the risk that the detection rate will be lower when the model allows more variance in the frequency distributions. Based on the models for each payload length, we did clustering with a threshold
of 0.5, which means if the two neighboring model’s byte frequency distribution has less
than 0.5 Manhattan distance we merge their models.
Because of the simplicity of the DARPA dataset, which contains very regular payload
content, multi-centroids modeling does not bring any benefit, which incur a more expensive
computation. We also experimented with both unclustered and clustered models. The
results indicate that the clustered model is always better than the unclustered model. So in
this section, we will only show the results of the clustered models using single centroid for
each length bin.
Different port traffic has different byte variability. For example, the payload to port
80 (HTTP requests) are usually less variable than that of port 25 (email). Hence, we set
different thresholds for each port and check the detector’s performance for each port. The
attacks used in the evaluation may target one or more ports. Hence, we calibrate a distinct
threshold for each port and generate the ROC curves including all appropriate attacks as
ground truth. The packets with distance scores higher than the threshold are detected as
anomalies.
Figure 3.11 shows the ROC curves for the four most commonly attacked ports: 21,
23, 25, and 80. For the other ports, eg. 53, 143, 513 etc., the DARPA99 data doesn’t
provide a large enough training and testing sample, so the results for those ports are not
very meaningful.
For each port, we used five different data units, for both training and testing. The legend
in the plots and their meaning are:
1. Per Packet Model, which uses the whole payload of each network packet;
2. First 100 Packet Model, which uses the first 100 bytes of each network packet;
3. Tail 100 Packet Model, which uses the last 100 bytes of each network packet;
4. Per Conn Model, which uses the whole payload of each connection;
38
5. Truncated Conn Model, which uses the first 1000 bytes of each connection.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
1999 DARPA ID dữ liệu thiết lập được thu thập tại MIT Lincoln Labs để đánh giá sự xâm nhậpHệ thống phát hiện. Tất cả mạng lưới giao thông bao gồm toàn bộ tải trọng của mỗi gói tinghi lại ở định dạng tcpdump và cung cấp để đánh giá. Ngoài ra, có cũng là kiểm toánNhật ký, hàng ngày tập tin hệ thống bãi, và các bản ghi BSM (Solaris hệ thống gọi). Các dữ liệu bao gồmba tuần đào tạo dữ liệu và hai tuần của dữ liệu thử nghiệm. Trong dữ liệu đào tạo có haituần miễn phí tấn công dữ liệu và dữ liệu với cuộc tấn công có nhãn của một tuần.Số liệu này đã được sử dụng trong nhiều nghiên cứu những nỗ lực và kết quả của cuộc thử nghiệm so với dữ liệu nàyđã được báo cáo trong nhiều ấn phẩm. Mặc dù có những vấn đề do tính chấtmôi trường mô phỏng tạo dữ liệu, nó vẫn còn một tập hữu ích của dữ liệuHãy so sánh các kỹ thuật. Đầu trang kết quả đã được báo cáo bởi [39].Trong thử nghiệm của chúng tôi về tải trọng bất thường phát hiện chúng chỉ sử dụng bên trong mạng lưới giao thôngdữ liệu mà bị lạc giữa các bộ định tuyến và các nạn nhân. Bởi vì các ứng dụng đặt công cộng trên Internet sử dụng TCP (web, email, telnet và ftp), và để làm giảm sự phức tạpcủa thử nghiệm, chúng tôi chỉ kiểm tra TCP đến lưu lượng truy cập đến các cảng 0-1023 của cáctổ chức 172.016.xxx.xxx chứa hầu hết các nạn nhân, và cổng 0-1023 nằm trên mộtphần lớn các dịch vụ mạng. Cho dữ liệu DARPA 99, chúng tôi tiến hành thí nghiệm bằng cách sử dụng mỗi gói như là các đơn vị dữ liệu và mỗi kết nối như các đơn vị dữ liệu. Chúng tôi sử dụng tcptraceđể tái tạo lại các kết nối TCP từ các gói dữ liệu mạng trong các tập tin tcpdump. Chúng tôi cũngthử nghiệm ý tưởng của "tải trọng cắt ngắn", cả hai đều cho mỗi gói tin và mỗi kết nối.Đối với gói cắt ngắn, chúng tôi cố N byte đầu tiên và đuôi N byte một cách riêng biệt, N ở đâumột tham số. Bằng cách sử dụng cắt bớt trọng tải tiết kiệm đáng kể tính toán thời gian và không gian. Chúng tôibáo cáo kết quả cho mỗi của các mô hình này.Chúng tôi đào tạo mô hình phân phối tải trọng trên số liệu DARPA sử dụng tuần 1 (5 ngày,tấn công miễn phí) và tuần 3 (7 ngày, tấn công miễn phí), sau đó đánh giá các máy dò vào tuần 4 và 5,có chứa các trường hợp 201 58 tấn công khác nhau, 177 trong đó có thể nhìn thấy ở bên trongtcpdump dữ liệu. Bởi vì chúng tôi giới hạn các nạn nhân IP và dải cổng, có là 14 người khác chúng tôibỏ qua trong thử nghiệm này.Trong thử nghiệm này, chúng tôi tập trung vào lưu thông TCP chỉ, vì vậy các cuộc tấn công bằng cách sử dụng UDP, ICMP,ARP (giao thức phân giải địa chỉ) và IP chỉ không thể được phát hiện. Chúng bao gồm: smurf(ICMP echo-trả lời lũ), ping-của-cái chết (cửa sổ cỡ lớn ping túi), UDPstorm, arppoison(corrupts ARP cache mục của nạn nhân), selfping, ipsweep, teardrop (MIS-phân mảnhGói UDP). Cũng bởi vì chúng tôi mô hình tải trọng được tính từ chỉ một phần trọng củagói tin mạng, các cuộc tấn công mà không chứa bất kỳ tải trọng là không thể phát hiệnvới các máy dò đề xuất bất thường. Vì vậy, không có trong tất cả các cuộc tấn công 97 để được phát hiện bởichúng tôi mô hình tải trọng chiến đấu trong tuần 4 và 5 đánh giá dữ liệu.Sau khi lọc không có trong tất cả các gói dữ liệu 2,444,591, và 49556 kết nối, với chiều dài nonzero dữ liệu để đánh giá. Chúng tôi xây dựng một mô hình cho mỗi chiều dài tải trọng quan sát thấy trong cácđào tạo dữ liệu cho mỗi cổng giữa 0-1023 và cho mỗi máy chủ. Các yếu tố làm mịn được thiết lập để 0,001 đó sẽ cho kết quả tốt nhất cho số liệu này (xem các cuộc thảo luận trong phần3.2). điều này giúp tránh phù hợp hơn và làm giảm tỷ lệ sai tích cực. Cũng nhờ có mộtkhông đủ số lượng đào tạo ví dụ trong dữ liệu DARPA99, chúng tôi áp dụng clustering để cácMô hình như mô tả trước đó. Cụm các mô hình của giáp ranh chiều dài thùng có nghĩa làtương tự như các mô hình có thể cung cấp thêm dữ liệu đào tạo cho một mô hình có dữ liệu đào tạo là quáthưa thớt do đó làm cho nó ít nhạy cảm và chính xác hơn. Nhưng cũng là nguy cơ rằng tỷ lệ phát hiện sẽ thấp hơn khi các mô hình cho phép nhiều phương sai trong bản phân phối tần số. Dựa trên mô hình cho mỗi chiều dài tải trọng, chúng tôi đã làm cụm với một ngưỡngcủa 0.5, có nghĩa là nếu hai lân cận mô hình của byte tần số phân phối có ít hơnhơn cách 0.5 Manhattan khoảng cách chúng tôi kết hợp mô hình của họ.Vì sự đơn giản của bộ dữ liệu DARPA, có tải trọng chiến đấu rất thường xuyênnội dung, đa centroids mô hình không mang lại bất kỳ lợi ích, mà phải chịu một đắt tiền hơntính toán. Chúng tôi cũng đã thử nghiệm với cả hai unclustered và nhóm các mô hình. Cáckết quả cho thấy rằng các mô hình nhóm luôn luôn là tốt hơn so với các mô hình unclustered. Vì vậy, trongphần này, chúng tôi sẽ chỉ hiển thị các kết quả của các mô hình nhóm bằng cách sử dụng duy nhất centroid chomỗi thùng chiều dài.Lưu lượng truy cập cổng khác nhau đã biến đổi khác nhau byte. Ví dụ, trọng đến cổng80 (yêu cầu HTTP) thường là thay đổi ít hơn so với cổng 25 (email). Do đó, chúng tôi thiết lậpngưỡng khác nhau cho mỗi cổng và kiểm tra các máy dò hiệu suất cho mỗi cổng. CácCác cuộc tấn công được sử dụng trong việc đánh giá có thể nhắm mục tiêu một hoặc nhiều cổng. Do đó, chúng tôi hiệu chỉnh một khác biệtngưỡng cho mỗi cổng và tạo ra các đường cong ROC bao gồm tất cả các cuộc tấn công thích hợp nhưđất thật. Các gói dữ liệu với khoảng cách điểm số cao hơn ngưỡng được phát hiện nhưdị thường.Con số 3,11 cho thấy đường cong ROC cho tối đa bốn thường tấn công cảng: 21,23, 25, và 80. Cho các cảng khác, ví dụ. 53, 143, 513 vv, DARPA99 dữ liệu khôngcung cấp đào tạo đủ lớn và thử nghiệm mẫu, do đó, các kết quả cho những cổng khôngrất có ý nghĩa.Cho mỗi cổng, chúng tôi sử dụng năm đơn vị dữ liệu khác nhau, đào tạo và thử nghiệm. Truyền thuyếttrong các lô và ý nghĩa của họ:1. cho mỗi mô hình gói, sử dụng toàn bộ tải trọng của mỗi gói tin mạng;2. lần đầu tiên 100 gói mô hình, sử dụng 100 byte đầu tiên của mỗi gói tin mạng;3. đuôi 100 gói mô hình, trong đó sử dụng 100 byte cuối của mỗi gói tin mạng;4. một mô hình Conn, sử dụng toàn bộ tải trọng của mỗi kết nối;385. cắt ngắn Conn mô hình, sử dụng 1000 byte đầu tiên của mỗi kết nối.
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: