The 1999 DARPA IDS data set was col

The 1999 DARPA IDS data set was collected at MIT Lincoln Labs to evaluate intrusion
detection systems. All the network traffic including the entire payload of each packet was
recorded in tcpdump format and provided for evaluation. In addition, there are also audit
logs, daily file system dumps, and BSM (Solaris system call) logs. The data consists of
three weeks of training data and two weeks of test data. In the training data there are two
weeks of attack-free data and one week of data with labeled attacks.
This dataset has been used in many research efforts and results of tests against this data
have been reported in many publications. Although there are problems due to the nature
of the simulation environment that created the data, it still remains a useful set of data to
compare techniques. The top results were reported by [39].
In our experiment on payload anomaly detection we only used the inside network traffic
data which was captured between the router and the victims. Because most public applications on the Internet use TCP (web, email, telnet, and ftp), and to reduce the complexity
of the experiment, we only examined the inbound TCP traffic to the ports 0-1023 of the
hosts 172.016.xxx.xxx which contains most of the victims, and ports 0-1023 which covers
the majority of the network services. For the DARPA 99 data, we conducted experiments using each packet as the data unit and each connection as the data unit. We used tcptrace
to reconstruct the TCP connections from the network packets in the tcpdump files. We also
experimented the idea of “truncated payload”, both for each packet and each connection.
For truncated packets, we tried the first N bytes and the tail N bytes separately, where N is
a parameter. Using truncated payload saves considerable computation time and space. We
report the results for each of these models.
We trained the payload distribution model on the DARPA dataset using week 1 (5 days,
attack free) and week 3 (7 days, attack free), then evaluate the detector on weeks 4 and 5,
which contain 201 instances of 58 different attacks, 177 of which are visible in the inside
tcpdump data. Because we restrict the victims’ IP and port range, there are 14 others we
ignore in this test.
In this experiment, we focus on TCP traffic only, so the attacks using UDP, ICMP,
ARP (address resolution protocol) and IP only cannot be detected. They include: smurf
(ICMP echo-reply flood), ping-of-death (over-sized ping packets), UDPstorm, arppoison
(corrupts ARP cache entries of the victim), selfping, ipsweep, teardrop (mis-fragmented
UDP packets). Also because our payload model is computed from only the payload part of
the network packet, those attacks that do not contain any payload are impossible to detect
with the proposed anomaly detector. Thus, there are in total 97 attacks to be detected by
our payload model in weeks 4 and 5 evaluation data.
After filtering there are in total 2,444,591 packets, and 49556 connections, with nonzero length payloads to evaluate. We build a model for each payload length observed in the
training data for each port between 0-1023 and for every host machine. The smoothing factor is set to 0.001 which gives the best result for this dataset (see the discussion in Section
3.2). This helps avoid over-fitting and reduces the false positive rate. Also due to having an
inadequate number of training examples in the DARPA99 data, we apply clustering to the
models as described previously. Clustering the models of neighboring length bins means
that similar models can provide more training data for a model whose training data is too
sparse thus making it less sensitive and more accurate. But there is also the risk that the

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

1999 DARPA ID dữ liệu thiết lập được thu thập tại MIT Lincoln Labs để đánh giá sự xâm nhậpHệ thống phát hiện. Tất cả mạng lưới giao thông bao gồm toàn bộ tải trọng của mỗi gói tinghi lại ở định dạng tcpdump và cung cấp để đánh giá. Ngoài ra, có cũng là kiểm toánNhật ký, hàng ngày tập tin hệ thống bãi, và các bản ghi BSM (Solaris hệ thống gọi). Các dữ liệu bao gồmba tuần đào tạo dữ liệu và hai tuần của dữ liệu thử nghiệm. Trong dữ liệu đào tạo có haituần miễn phí tấn công dữ liệu và dữ liệu với cuộc tấn công có nhãn của một tuần.Số liệu này đã được sử dụng trong nhiều nghiên cứu những nỗ lực và kết quả của cuộc thử nghiệm so với dữ liệu nàyđã được báo cáo trong nhiều ấn phẩm. Mặc dù có những vấn đề do tính chấtmôi trường mô phỏng tạo dữ liệu, nó vẫn còn một tập hữu ích của dữ liệuHãy so sánh các kỹ thuật. Đầu trang kết quả đã được báo cáo bởi [39].Trong thử nghiệm của chúng tôi về tải trọng bất thường phát hiện chúng chỉ sử dụng bên trong mạng lưới giao thôngdữ liệu mà bị lạc giữa các bộ định tuyến và các nạn nhân. Bởi vì các ứng dụng đặt công cộng trên Internet sử dụng TCP (web, email, telnet và ftp), và để làm giảm sự phức tạpcủa thử nghiệm, chúng tôi chỉ kiểm tra TCP đến lưu lượng truy cập đến các cảng 0-1023 của cáctổ chức 172.016.xxx.xxx chứa hầu hết các nạn nhân, và cổng 0-1023 nằm trên mộtphần lớn các dịch vụ mạng. Cho dữ liệu DARPA 99, chúng tôi tiến hành thí nghiệm bằng cách sử dụng mỗi gói như là các đơn vị dữ liệu và mỗi kết nối như các đơn vị dữ liệu. Chúng tôi sử dụng tcptraceđể tái tạo lại các kết nối TCP từ các gói dữ liệu mạng trong các tập tin tcpdump. Chúng tôi cũngthử nghiệm ý tưởng của "tải trọng cắt ngắn", cả hai đều cho mỗi gói tin và mỗi kết nối.Đối với gói cắt ngắn, chúng tôi cố N byte đầu tiên và đuôi N byte một cách riêng biệt, N ở đâumột tham số. Bằng cách sử dụng cắt bớt trọng tải tiết kiệm đáng kể tính toán thời gian và không gian. Chúng tôibáo cáo kết quả cho mỗi của các mô hình này.Chúng tôi đào tạo mô hình phân phối tải trọng trên số liệu DARPA sử dụng tuần 1 (5 ngày,tấn công miễn phí) và tuần 3 (7 ngày, tấn công miễn phí), sau đó đánh giá các máy dò vào tuần 4 và 5,có chứa các trường hợp 201 58 tấn công khác nhau, 177 trong đó có thể nhìn thấy ở bên trongtcpdump dữ liệu. Bởi vì chúng tôi giới hạn các nạn nhân IP và dải cổng, có là 14 người khác chúng tôibỏ qua trong thử nghiệm này.Trong thử nghiệm này, chúng tôi tập trung vào lưu thông TCP chỉ, vì vậy các cuộc tấn công bằng cách sử dụng UDP, ICMP,ARP (giao thức phân giải địa chỉ) và IP chỉ không thể được phát hiện. Chúng bao gồm: smurf(ICMP echo-trả lời lũ), ping-của-cái chết (cửa sổ cỡ lớn ping túi), UDPstorm, arppoison(corrupts ARP cache mục của nạn nhân), selfping, ipsweep, teardrop (MIS-phân mảnhGói UDP). Cũng bởi vì chúng tôi mô hình tải trọng được tính từ chỉ một phần trọng củagói tin mạng, các cuộc tấn công mà không chứa bất kỳ tải trọng là không thể phát hiệnvới các máy dò đề xuất bất thường. Vì vậy, không có trong tất cả các cuộc tấn công 97 để được phát hiện bởichúng tôi mô hình tải trọng chiến đấu trong tuần 4 và 5 đánh giá dữ liệu.Sau khi lọc không có trong tất cả các gói dữ liệu 2,444,591, và 49556 kết nối, với chiều dài nonzero dữ liệu để đánh giá. Chúng tôi xây dựng một mô hình cho mỗi chiều dài tải trọng quan sát thấy trong cácđào tạo dữ liệu cho mỗi cổng giữa 0-1023 và cho mỗi máy chủ. Các yếu tố làm mịn được thiết lập để 0,001 đó sẽ cho kết quả tốt nhất cho số liệu này (xem các cuộc thảo luận trong phần3.2). điều này giúp tránh phù hợp hơn và làm giảm tỷ lệ sai tích cực. Cũng nhờ có mộtkhông đủ số lượng đào tạo ví dụ trong dữ liệu DARPA99, chúng tôi áp dụng clustering để cácMô hình như mô tả trước đó. Cụm các mô hình của giáp ranh chiều dài thùng có nghĩa làtương tự như các mô hình có thể cung cấp thêm dữ liệu đào tạo cho một mô hình có dữ liệu đào tạo là quáthưa thớt do đó làm cho nó ít nhạy cảm và chính xác hơn. Nhưng cũng có rủi ro mà các

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

1999 bộ dữ liệu DARPA IDS được thu thập tại MIT Lincoln Labs để đánh giá sự xâm nhập
hệ thống phát hiện. Tất cả các lưu lượng truy cập mạng bao gồm toàn bộ tải trọng của mỗi gói được
ghi ở định dạng tcpdump và cung cấp để đánh giá. Ngoài ra, cũng có những kiểm toán
nhật ký, bãi tập tin hệ thống hàng ngày, và BSM (Solaris hệ thống gọi) các bản ghi. Các số liệu gồm có
ba tuần tập huấn luyện và hai tuần kiểm tra dữ liệu. Trong dữ liệu huấn luyện có hai
tuần của dữ liệu tấn công miễn phí và một tuần của dữ liệu với các cuộc tấn công có nhãn.
Bộ dữ liệu này đã được sử dụng trong nhiều nỗ lực nghiên cứu và kết quả kiểm tra đối với các dữ liệu này
đã được báo cáo trong nhiều ấn phẩm. Mặc dù có những vấn đề do bản chất
của môi trường mô phỏng mà tạo ra các dữ liệu, nó vẫn còn là một tập hợp hữu ích của dữ liệu để
so sánh kỹ thuật. Các kết quả đầu đã được báo cáo bởi [39].
Trong thí nghiệm của chúng tôi phát hiện trên tải trọng bất thường chúng chỉ được sử dụng bên trong lưu lượng truy cập mạng
dữ liệu đó đã bị bắt giữa các bộ định tuyến và các nạn nhân. Bởi vì hầu hết các ứng dụng của công chúng về việc sử dụng Internet TCP (web, email, telnet, và ftp), và để giảm bớt sự phức tạp
của các thí nghiệm, chúng tôi chỉ kiểm tra lưu lượng TCP đến với cổng 0-1023 của
host 172.016.xxx.xxx trong đó có hầu hết các nạn nhân, và cổng 0-1023 trong đó bao gồm
phần lớn các dịch vụ mạng. Đối với các dữ liệu 99 DARPA, chúng tôi tiến hành thí nghiệm bằng cách sử dụng mỗi gói như các đơn vị dữ liệu và mỗi kết nối như các đơn vị dữ liệu. Chúng tôi sử dụng tcptrace
để tái tạo lại các kết nối TCP từ các gói mạng trong các tập tin tcpdump. Chúng tôi cũng
đã thử nghiệm các ý tưởng của "payload cắt ngắn", cả hai đều cho mỗi gói và mỗi kết nối.
Đối với gói cắt ngắn, chúng tôi đã thử các byte N đầu tiên và đuôi N byte riêng biệt, trong đó N là
một tham số. Sử dụng tải trọng cắt ngắn giúp tiết kiệm đáng kể thời gian tính toán và không gian. Chúng tôi
báo cáo kết quả cho từng mô hình này.
Chúng tôi đào tạo các mô hình phân bố tải trọng trên các bộ dữ liệu DARPA sử dụng 1 tuần (5 ngày,
tấn công miễn phí) và tuần 3 (7 ngày, tấn công miễn phí), sau đó đánh giá máy dò vào tuần 4 và 5 ,
trong đó có chứa 201 trường hợp của 58 cuộc tấn công khác nhau, 177 trong số đó có thể nhìn thấy ở bên trong
dữ liệu tcpdump. Bởi vì chúng ta hạn chế IP và port phạm vi của các nạn nhân, có 14 người khác chúng ta
bỏ qua trong thử nghiệm này.
Trong thí nghiệm này, chúng tôi chỉ tập trung vào giao thông TCP, vì vậy các cuộc tấn công bằng cách sử dụng UDP, ICMP,
ARP (địa chỉ giao thức phân giải) và IP duy nhất không thể được phát hiện. Chúng bao gồm: smurf
(ICMP echo-reply lũ), (quá cỡ gói tin ping) ping-of-chết, UDPstorm, arppoison
(corrupts ARP cache lỗi của nạn nhân), selfping, ipsweep, teardrop (mis-phân mảnh
gói tin UDP) . Cũng bởi vì mô hình tải trọng của chúng tôi là tính từ chỉ có một phần tải trọng của
các gói dữ liệu mạng, những cuộc tấn công mà không chứa bất kỳ tải trọng là không thể phát hiện
với máy dò bất thường đề xuất. Như vậy, có tổng cộng 97 cuộc tấn công được phát hiện bởi
mô hình tải trọng của chúng tôi trong tuần 4 và 5 dữ liệu đánh giá.
Sau khi lọc có tổng cộng 2.444.591 gói, và 49.556 kết nối, với trọng tải khác không dài để đánh giá. Chúng tôi xây dựng một mô hình cho mỗi chiều dài tải trọng quan sát thấy trong các
dữ liệu huấn luyện cho mỗi cổng giữa 0-1023 và cho tất cả các máy chủ. Các yếu tố làm mịn được thiết lập để 0.001 mà cho kết quả tốt nhất cho tập dữ liệu này (xem thảo luận trong mục
3.2). Điều này giúp tránh sự phù hợp và làm giảm tỷ lệ dương tính giả. Ngoài ra do có một
số lượng không đầy đủ các ví dụ huấn luyện trong các dữ liệu DARPA99, chúng tôi áp dụng clustering vào các
mô hình như mô tả trước đây. Clustering các mô hình của các thùng dài láng giềng có nghĩa
rằng các mô hình tương tự có thể cung cấp dữ liệu đào tạo cho một mô hình có dữ liệu huấn luyện là quá
thưa thớt do đó làm cho nó ít nhạy cảm hơn và chính xác hơn. Nhưng cũng có những rủi ro mà

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.