Trước khi khai thác dữ liệu có thể được thực hiện, bộ dữ liệu phải lần đầu tiên được làm sạch và chuẩn bị từ trạng thái nguyên của họ. Trong khi vấn đề này thường là hiện nay với bất kỳ dữ liệu, dữ liệu thợ mỏ làm việc với các dữ liệu messier so với thống kê và psychometricians; thay vì dữ liệu thử nghiệm hoặc khảo sát ghi nhận có ý nghĩa, thợ mỏ dữ liệu thường xuyên làm việc với dữ liệu Nhật ký hoặc học tập quản lý hệ thống (LMS) dữ liệu ghi nhận trong các hình thức mà không phải là ngay lập tức amenable để phân tích.
đang được dịch, vui lòng đợi..
