The 1999 DARPA IDS data set was col

The 1999 DARPA IDS data set was collected at MIT Lincoln Labs to evaluate intrusion
detection systems. All the network traffic including the entire payload of each packet was
recorded in tcpdump format and provided for evaluation. In addition, there are also audit
logs, daily file system dumps, and BSM (Solaris system call) logs. The data consists of
three weeks of training data and two weeks of test data. In the training data there are two
weeks of attack-free data and one week of data with labeled attacks.
This dataset has been used in many research efforts and results of tests against this data
have been reported in many publications. Although there are problems due to the nature
of the simulation environment that created the data, it still remains a useful set of data to
compare techniques. The top results were reported by [39].
In our experiment on payload anomaly detection we only used the inside network traffic
data which was captured between the router and the victims. Because most public applications on the Internet use TCP (web, email, telnet, and ftp), and to reduce the complexity
of the experiment, we only examined the inbound TCP traffic to the ports 0-1023 of the
hosts 172.016.xxx.xxx which contains most of the victims, and ports 0-1023 which covers
the majority of the network services. For the DARPA 99 data, we conducted experiments using each packet as the data unit and each connection as the data unit. We used tcptrace
to reconstruct the TCP connections from the network packets in the tcpdump files. We also
experimented the idea of “truncated payload”, both for each packet and each connection.
For truncated packets, we tried the first N bytes and the tail N bytes separately, where N is
a parameter. Using truncated payload saves considerable computation time and space. We
report the results for each of these models.
We trained the payload distribution model on the DARPA dataset using week 1 (5 days,
attack free) and week 3 (7 days, attack free), then evaluate the detector on weeks 4 and 5,
which contain 201 instances of 58 different attacks, 177 of which are visible in the inside
tcpdump data. Because we restrict the victims’ IP and port range, there are 14 others we
ignore in this test.
In this experiment, we focus on TCP traffic only, so the attacks using UDP, ICMP,
ARP (address resolution protocol) and IP only cannot be detected. They include: smurf
(ICMP echo-reply flood), ping-of-death (over-sized ping packets), UDPstorm, arppoison
(corrupts ARP cache entries of the victim), selfping, ipsweep, teardrop (mis-fragmented
UDP packets). Also because our payload model is computed from only the payload part of
the network packet, those attacks that do not contain any payload are impossible to detect
with the proposed anomaly detector. Thus, there are in total 97 attacks to be detected by
our payload model in weeks 4 and 5 evaluation data.
After filtering there are in total 2,444,591 packets, and 49556 connections, with nonzero length payloads to evaluate. We build a model for each payload length observed in the
training data for each port between 0-1023 and for every host machine. The smoothing factor is set to 0.001 which gives the best result for this dataset (see the discussion in Section
3.2). This helps avoid over-fitting and reduces the false positive rate. Also due to having an
inadequate number of training examples in the DARPA99 data, we apply clustering to the
models as described previously. Clustering the models of neighboring length bins means
that similar models can provide more training data for a model whose training data is too
sparse thus making it less sensitive and more accurate. But there is also the risk that the

3754/5000

Từ: Anh

Sang: Việt

Kết quả (Việt) 1: [Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

1999 bộ dữ liệu DARPA IDS được thu thập tại MIT Lincoln Labs để đánh giá sự xâm nhập
hệ thống phát hiện. Tất cả các lưu lượng truy cập mạng bao gồm toàn bộ tải trọng của mỗi gói được
ghi ở định dạng tcpdump và cung cấp để đánh giá. Ngoài ra, cũng có những kiểm toán
nhật ký, bãi tập tin hệ thống hàng ngày, và BSM (Solaris hệ thống gọi) các bản ghi. Các số liệu gồm có
ba tuần tập huấn luyện và hai tuần kiểm tra dữ liệu. Trong dữ liệu huấn luyện có hai
tuần của dữ liệu tấn công miễn phí và một tuần của dữ liệu với các cuộc tấn công có nhãn.
Bộ dữ liệu này đã được sử dụng trong nhiều nỗ lực nghiên cứu và kết quả kiểm tra đối với các dữ liệu này
đã được báo cáo trong nhiều ấn phẩm. Mặc dù có những vấn đề do bản chất
của môi trường mô phỏng mà tạo ra các dữ liệu, nó vẫn còn là một tập hợp hữu ích của dữ liệu để
so sánh kỹ thuật. Các kết quả đầu đã được báo cáo bởi [39].
Trong thí nghiệm của chúng tôi phát hiện trên tải trọng bất thường chúng chỉ được sử dụng bên trong lưu lượng truy cập mạng
dữ liệu đó đã bị bắt giữa các bộ định tuyến và các nạn nhân. Bởi vì hầu hết các ứng dụng của công chúng về việc sử dụng Internet TCP (web, email, telnet, và ftp), và để giảm bớt sự phức tạp
của các thí nghiệm, chúng tôi chỉ kiểm tra lưu lượng TCP đến với cổng 0-1023 của
host 172.016.xxx.xxx trong đó có hầu hết các nạn nhân, và cổng 0-1023 trong đó bao gồm
phần lớn các dịch vụ mạng. Đối với các dữ liệu 99 DARPA, chúng tôi tiến hành thí nghiệm bằng cách sử dụng mỗi gói như các đơn vị dữ liệu và mỗi kết nối như các đơn vị dữ liệu. Chúng tôi sử dụng tcptrace
để tái tạo lại các kết nối TCP từ các gói mạng trong các tập tin tcpdump. Chúng tôi cũng
đã thử nghiệm các ý tưởng của "payload cắt ngắn", cả hai đều cho mỗi gói và mỗi kết nối.
Đối với gói cắt ngắn, chúng tôi đã thử các byte N đầu tiên và đuôi N byte riêng biệt, trong đó N là
một tham số. Sử dụng tải trọng cắt ngắn giúp tiết kiệm đáng kể thời gian tính toán và không gian. Chúng tôi
báo cáo kết quả cho từng mô hình này.
Chúng tôi đào tạo các mô hình phân bố tải trọng trên các bộ dữ liệu DARPA sử dụng 1 tuần (5 ngày,
tấn công miễn phí) và tuần 3 (7 ngày, tấn công miễn phí), sau đó đánh giá máy dò vào tuần 4 và 5 ,
trong đó có chứa 201 trường hợp của 58 cuộc tấn công khác nhau, 177 trong số đó có thể nhìn thấy ở bên trong
dữ liệu tcpdump. Bởi vì chúng ta hạn chế IP và port phạm vi của các nạn nhân, có 14 người khác chúng ta
bỏ qua trong thử nghiệm này.
Trong thí nghiệm này, chúng tôi chỉ tập trung vào giao thông TCP, vì vậy các cuộc tấn công bằng cách sử dụng UDP, ICMP,
ARP (địa chỉ giao thức phân giải) và IP duy nhất không thể được phát hiện. Chúng bao gồm: smurf
(ICMP echo-reply lũ), (quá cỡ gói tin ping) ping-of-chết, UDPstorm, arppoison
(corrupts ARP cache lỗi của nạn nhân), selfping, ipsweep, teardrop (mis-phân mảnh
gói tin UDP) . Cũng bởi vì mô hình tải trọng của chúng tôi là tính từ chỉ có một phần tải trọng của
các gói dữ liệu mạng, những cuộc tấn công mà không chứa bất kỳ tải trọng là không thể phát hiện
với máy dò bất thường đề xuất. Như vậy, có tổng cộng 97 cuộc tấn công được phát hiện bởi
mô hình tải trọng của chúng tôi trong tuần 4 và 5 dữ liệu đánh giá.
Sau khi lọc có tổng cộng 2.444.591 gói, và 49.556 kết nối, với trọng tải khác không dài để đánh giá. Chúng tôi xây dựng một mô hình cho mỗi chiều dài tải trọng quan sát thấy trong các
dữ liệu huấn luyện cho mỗi cổng giữa 0-1023 và cho tất cả các máy chủ. Các yếu tố làm mịn được thiết lập để 0.001 mà cho kết quả tốt nhất cho tập dữ liệu này (xem thảo luận trong mục
3.2). Điều này giúp tránh sự phù hợp và làm giảm tỷ lệ dương tính giả. Ngoài ra do có một
số lượng không đầy đủ các ví dụ huấn luyện trong các dữ liệu DARPA99, chúng tôi áp dụng clustering vào các
mô hình như mô tả trước đây. Clustering các mô hình của các thùng dài láng giềng có nghĩa
rằng các mô hình tương tự có thể cung cấp dữ liệu đào tạo cho một mô hình có dữ liệu huấn luyện là quá
thưa thớt do đó làm cho nó ít nhạy cảm hơn và chính xác hơn. Nhưng cũng có những rủi ro mà

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.