Khi dân số con người đã tăng về số lượng, do đó đã làm dữ liệu về họ. Các doanh nghiệp và các lĩnh vực khác nhau như y học và những người khác, cần thiết để phân tích dữ liệu này để hiểu rõ các yêu cầu của người dân và nâng cao dịch vụ của họ. Thống kê là một cách phân tích các dữ liệu có sẵn và có được kết quả. Nhưng với số lượng ngày càng tăng của dữ liệu và ra đời của máy tính trong các lĩnh vực khác nhau, trích xuất thông tin hữu ích từ dữ liệu này sử dụng nhiều mô hình toán học phức tạp và thống kê đã trở thành có thể. Khai thác thông tin này hữu ích từ cơ sở dữ liệu lớn chiều cao đã được biết đến như là "Data Mining". Khai thác dữ liệu là việc phân tích các số liệu quan sát để tìm mối quan hệ vốn bị nghi ngờ và để tóm tắt một lượng lớn dữ liệu trong cuốn tiểu thuyết cách mà cả hai đều hiểu và hữu ích cho dữ liệu chủ sở hữu trong việc ra quyết định chủ động. Khai thác dữ liệu bây giờ có thể do những tiến bộ về khoa học máy tính và máy tính học tập. Khai thác dữ liệu cung cấp các thuật toán mới có thể tự động chọn lọc sâu vào dữ liệu của bạn ở mức kỷ lục cá nhân để khám phá các mẫu, các mối quan hệ, các yếu tố, các cụm, các hiệp hội, hồ sơ, và predictions- mà trước đây "ẩn". Sử dụng các báo cáo thông thường, khai thác dữ liệu có thể sản xuất ra các quyết định và tạo ra các cảnh báo khi hành động được yêu cầu. Khai thác dữ liệu đang được sử dụng rộng rãi trong các lĩnh vực khác nhau, chẳng hạn như trong kinh doanh Quản lý quan hệ khách hàng, Marketing, vv, trong y học để nghiên cứu trong phòng thí nghiệm, thử nghiệm lâm sàng, dược học, vv, trong dự báo thời tiết, giao thông, vv, trong ngành hàng không hỗ trợ thí điểm và nghiên cứu trong các lĩnh vực vật lý thiên văn, y học, kinh doanh, an ninh, vv. Để áp dụng các kỹ thuật để bảo mật thông tin chúng tôi cần tập hợp dữ liệu. Chúng tôi sử dụng một tập dữ liệu thường được áp dụng trong nghiên cứu bảo mật thông tin: Các bộ dữ liệu xâm nhập mạng từ các kho lưu trữ KDD phổ biến được gọi là KDD 99 Cup bộ dữ liệu. Các KDD 99 Cup gồm 41 thuộc tính là 10% của tập dữ liệu ban đầu có nghĩa là 500.000 hàng.
đang được dịch, vui lòng đợi..
