Sử dụng các giá trị có thể xảy ra nhất để điền vào các giá trị bị mất tích: Điều này có thể được xác định
với hồi quy, công cụ suy luận dựa trên sử dụng một hình thức Bayes, hoặc cây quyết định
HAN 10 ch03-083-124-9780123814791 2011/06/01 03:16 Trang 89 # 7
3.2 dữ liệu sạch 89
cảm ứng. Ví dụ, bằng cách sử dụng của khách hàng các thuộc tính khác trong tập dữ liệu của bạn, bạn
có thể xây dựng một cây quyết định để dự đoán các giá trị bị mất thu nhập. Cây quyết định
và suy luận Bayes được mô tả chi tiết trong chương 8 và 9, tương ứng, trong khi
hồi quy được giới thiệu trong phần 3.4.5.
Phương pháp 3 đến 6 thiên vị các dữ liệu giá trị điền-in có thể không chính xác. Phương pháp 6,
tuy nhiên, là một chiến lược phổ biến. So với các phương pháp khác, nó sử dụng hầu hết các
thông tin từ các dữ liệu hiện tại để dự đoán giá trị bị mất. Bằng cách xem xét các khác
các giá trị thuộc tính trong dự toán của các giá trị thiếu cho thu nhập, có một lớn hơn
cơ hội mà các mối quan hệ giữa thu nhập và các thuộc tính khác được bảo lưu.
Điều quan trọng là cần lưu ý rằng, trong một số trường hợp, một giá trị thiếu có thể không hàm ý một lỗi
trong dữ liệu! Ví dụ, khi áp dụng cho một thẻ tín dụng, ứng viên có thể được yêu cầu
cung cấp số giấy phép lái xe của họ. Những thí sinh không có giấy phép lái xe có thể
tự nhiên để trống trường này. Các hình thức nên cho phép được hỏi để xác định giá trị như vậy
là "không được áp dụng." Thói quen phần mềm cũng có thể được sử dụng để phát hiện ra các giá trị null khác
(ví dụ, "không biết", "?" Hoặc "không"). Lý tưởng nhất, mỗi thuộc tính nên có một hoặc nhiều quy định
liên quan đến các điều kiện null. Các quy tắc có thể xác định có hay không null được phép
và / hoặc làm thế nào giá trị như vậy nên được xử lý hoặc chuyển đổi. Fields cũng có thể được cố ý để trống nếu chúng được cung cấp trong một bước sau của quá trình kinh doanh. Do đó,
mặc dù chúng ta có thể cố gắng hết sức để làm sạch các dữ liệu sau khi được thu giữ, cơ sở dữ liệu và số liệu
thiết kế thủ tục nhập cảnh sẽ giúp giảm thiểu số thiếu các giá trị hoặc các sai sót trong
những nơi đầu tiên.
đang được dịch, vui lòng đợi..
