XỬ LÝ DỮ LIỆU KHÔNG PHÙ HỢPDữ liệu không phù hợp là khác nhau từ dữ liệu bị thiếu. Không phù hợp dữ liệu xảy ra khi một giá trị không tồn tại, Tuy nhiên giá trị đó là không hợp lệ hoặc có ý nghĩa. Tham khảo trở lại để hình 3-25, một đóng lên các phiên bản của hình ảnh đó hiển thị ở đây là con số 3-29.Những gì là 99 làm vậy? Nó có vẻ rằng chỉ có hai giá trị hợp lệ cho thuộc tính Twitter nên 'Y' và 'N'. Đây là một giá trị đó là không phù hợp và do đó vô nghĩa. Như thợ mỏ dữ liệu, chúng tôi có thể quyết định nếu chúng ta muốn lọc quan sát này ra, như chúng tôi đã làm với các bản ghi Online_Shopping mất tích, hoặc chúng tôi có thể sử dụng một nhà điều hành được thiết kế để cho phép chúng tôi để thay thế một số giá trị với những người khác.1) quay trở lại để thiết kế quan điểm nếu bạn không phải đã có. Đảm bảo rằng bạn đã xoá của bạn lấy mẫu và nhà khai thác lọc từ dòng của bạn, để cho cửa sổ của bạn trông giống như hình 3-30.2) lưu ý rằng chúng tôi không cần phải loại bỏ các nhà điều hành thay thế các giá trị thiếu, bởi vì nó không phải loại bỏ bất kỳ quan sát trong thiết lập dữ liệu của chúng tôi. Nó chỉ thay đổi các giá trị trong các thuộc tính Online_Gaming, mà sẽ không ảnh hưởng đến chúng tôi nhà điều hành tiếp theo. Sử dụng tính năng tìm kiếm trong tab nhà khai thác để tìm một nhà điều hành được gọi là thay thế. Kéo nhà điều hành này vào dòng của bạn. Nếu splines của bạn đã bị ngắt kết nối trong loại bỏ việc lấy mẫu và lọc nước sử dụng, như là trường hợp trong hình 3-30, bạn sẽ thấy rằng splines của bạn được tự động kết nối lại khi bạn thêm các nhà điều hành thay thế cho dòng.3) trong cửa sổ thông số, thay đổi loại bộ lọc thuộc tính duy nhất, sau đó cho biết Twitter là các thuộc tính được thay đổi. Trong sự thật, trong này thiết lập dữ liệu có các trường hợp chỉ có một giá trị 99 trên tất cả các thuộc tính và quan sát, do đó, sự thay đổi này để một thuộc tính duy nhất là không thực sự cần thiết trong ví dụ này, nhưng nó là tốt để được chu đáo và cố ý với mỗi bước trong quá trình khai thác dữ liệu. Hầu hết các bộ dữ liệu sẽ được lớn hơn và phức tạp hơn rằng các thiết lập dữ liệu chương 3 chúng tôi hiện đang làm việc với. Trong trường 'thay thế những gì', nhập giá trị 99, do đây là giá trị mà chúng tôi đang tìm kiếm để thay thế. Cuối cùng, trong trường 'thay thế bằng', chúng ta phải quyết định những gì chúng tôi muốn có tại địa điểm của các 99. Nếu chúng tôi để trống trường này, sau đó các quan sát sẽ có một thiếu (?) khi chúng tôi chạy các mô hình và chuyển đến chế độ xem dữ liệu trong kết quả người. Chúng tôi cũng có thể chọn chế độ của 'N', và cho rằng 80% của những người trả lời khảo sát chỉ ra rằng họ đã không sử dụng Twitter, điều này sẽ có vẻ một khóa học an toàn của hành động. Bạn có thể chọn các giá trị bạn muốn sử dụng. Ví dụ của cuốn sách, chúng tôi sẽ nhập 'N' và sau đó chạy mô hình của chúng tôi. Bạn có thể nhìn thấy trong hình 3-31 mà chúng tôi bây giờ có giá trị chín của 'N', và hai trong số 'Y' cho thuộc tính Twitter của chúng tôi.Hãy nhớ rằng không phải tất cả không phù hợp dữ liệu sẽ dễ dàng để xử lý như thay thế một giá trị duy nhất. Nó sẽ là hoàn toàn có thể rằng ngoài giá trị không phù hợp của 99, giá trị của 87, 96, 101, hoặc những người khác có thể có mặt trong một tập hợp dữ liệu. Nếu đây là trường hợp, nó có thể mất nhiều thay thế và/hoặc thiếu các nhà khai thác dữ liệu để chuẩn bị các thiết lập dữ liệu cho khai thác mỏ. Trong số các dữ liệu chúng tôi có thể cũng đi qua dữ liệu đó được chính xác, nhưng mà cũng thống kê outliers. Chúng cũng có thể được coi là được dữ liệu không phù hợp, do đó, một ví dụ trong một chương sau này sẽ minh họa cho việc xử lý thống kê outliers. Đôi khi dữ liệu xử lý có thể trở nên tẻ nhạt, nhưng nó cuối cùng sẽ ảnh hưởng đến tính hữu dụng của các kết quả khai thác dữ liệu, do đó, các loại hoạt động rất quan trọng, và sự chú ý đến từng chi tiết là rất quan trọng.
đang được dịch, vui lòng đợi..