Trong hộp tìm kiếm trong tab vận hành, gõ vào từ 'lọc'. Điều này sẽ giúp bạn xác định vị trí các nhà điều hành 'Filter Ví dụ, đó là những gì chúng ta sẽ sử dụng trong ví dụ này. Kéo hành lọc ví dụ trên và kết nối nó vào dòng của bạn, ngay sau khi thay thế các giá trị Thiếu điều hành. Cửa sổ của bạn sẽ trông giống như hình 3-26.
2. Trong lớp điều kiện, chọn 'attribute_value_filter', và cho parameter_string, gõ như sau: Online_Shopping =. Hãy chắc chắn bao gồm các giai đoạn. Chuỗi tham số này đề cập đến thuộc tính của chúng tôi, Online_Shopping, và nó nói với RapidMiner để lọc ra tất cả các quan sát nơi các giá trị trong thuộc tính đó là mất tích. Đây là một chút bối rối, bởi vì trong dữ liệu xem kết quả trong phối cảnh, missings được biểu thị bằng một dấu chấm hỏi (?), Nhưng khi bước vào chuỗi tham số, missings được biểu thị bằng một dấu chấm (.). Một khi bạn đã gõ các giá trị tham số trong, màn hình của bạn sẽ trông giống như hình 3-27.
Đi trước và chạy mô hình của bạn bằng cách nhấn nút play. Trong kết quả quan điểm, bây giờ bạn sẽ thấy rằng dữ liệu của bạn đã được giảm từ mười một quan sát (hoặc ví dụ) để chín. Điều này là bởi vì hai quan sát nơi các thuộc tính Online_Shopping đã có một giá trị thiếu đã được gỡ bỏ. Bạn sẽ có thể thấy rằng họ đang đi bằng cách chọn nút Data Xem radio. Họ đã không được xóa từ các nguồn dữ liệu ban đầu, họ chỉ đơn giản là loại bỏ khỏi các dữ liệu đặt tại các điểm trong dòng mà các nhà điều hành bộ lọc nằm và sẽ không còn được xem xét trong bất kỳ hoạt động khai thác dữ liệu hạ lưu. Trong trường hợp các giá trị bị mất tích không thể được giả định hoặc tính một cách an toàn, cắt bỏ toàn bộ quan sát thường là những hành động tốt nhất. Khi thuộc tính là số tự nhiên, chẳng hạn như với lứa tuổi hoặc số lần đến một nơi nào đó, một biện pháp số học của xu hướng trung tâm, chẳng hạn như trung bình, trung bình hoặc chế độ có thể là một thay thế chấp nhận được cho giá trị bị mất, nhưng trong các thuộc tính chủ quan hơn, chẳng hạn là dù ta là một người mua sắm trực tuyến hay không, bạn có thể được tốt hơn chỉ đơn giản là lọc ra những quan sát nơi mốc là mất tích. (Một trong những trick mát mẻ, bạn có thể thử trong RapidMiner là sử dụng các tùy chọn Invert Lọc trong quan điểm thiết kế. Trong ví dụ này, nếu bạn kiểm tra xem hộp kiểm tra ở cửa sổ thông số của các nhà điều hành lọc Ví dụ, bạn sẽ giữ cho các quan sát mất tích, và lọc ra phần còn lại.)
Khai thác dữ liệu có thể gây nhầm lẫn và áp đảo, đặc biệt là khi các tập dữ liệu có được lớn. Nó không phải là mặc dù, nếu chúng ta quản lý dữ liệu của chúng tôi cũng. Ví dụ trước đây đã cho thấy làm thế nào để lọc ra các quan sát có chứa dữ liệu không mong muốn (hoặc dữ liệu bị mất tích) trong một thuộc tính, nhưng chúng ta cũng có thể làm giảm dữ liệu thử nghiệm một mô hình khai thác dữ liệu trên một tập hợp con nhỏ hơn của dữ liệu của chúng tôi. Điều này rất có thể làm giảm thời gian xử lý trong khi thử nghiệm một mô hình để xem nếu nó sẽ làm việc để trả lời câu hỏi của chúng tôi. Thực hiện theo các bước dưới đây để có một mẫu dữ liệu của chúng tôi đặt tại RapidMiner.
1) Sử dụng các kỹ thuật tìm kiếm chứng minh trước đây, sử dụng các tính năng khai thác tìm kiếm để tìm một nhà điều hành được gọi là 'mẫu', và thêm vào các dòng của bạn. Trong cửa sổ thông số, thiết lập mẫu để có được một 'tương đối' mẫu, và sau đó cho biết bạn muốn giữ lại 50% các quan sát của bạn trong kết quả dữ liệu thiết lập bằng cách gõ 0,5 vào trường tỷ lệ mẫu. Cửa sổ của bạn sẽ trông giống như hình 3-28.
2) Khi bạn chạy mô hình của bạn bây giờ, bạn sẽ thấy rằng kết quả của bạn chỉ có bốn hoặc năm quan sát, lựa chọn ngẫu nhiên từ chín đã được còn lại sau khi nhà điều hành của chúng tôi lọc loại bỏ các hồ sơ có thiếu Online_Shopping giá trị.
Vì vậy bạn có thể thấy rằng có rất nhiều cách, và các lý do khác nhau để giảm dữ liệu bằng cách giảm số lượng các quan sát trong tập dữ liệu của bạn. Bây giờ chúng ta sẽ chuyển sang xử lý dữ liệu không phù hợp, nhưng trước khi làm như vậy, nó sẽ là quan trọng để thiết lập lại dữ liệu của chúng tôi trở lại hình dạng ban đầu của nó. Trong khi lọc, chúng tôi loại bỏ một quan sát mà chúng ta sẽ cần để minh họa những gì dữ liệu không nhất quán, và để chứng minh làm thế nào để xử lý nó trong RapidMiner. Đây là thời điểm tốt để tìm hiểu làm thế nào để loại bỏ các nhà khai thác từ các dòng của bạn. Chuyển về thiết kế phối cảnh và click vào hành lấy mẫu của bạn. Tiếp theo, nhấp chuột phải và chọn Delete, hoặc đơn giản nhấn phím Delete trên bàn phím của bạn. Xóa điều hành lọc Ví dụ tại thời điểm này là tốt. Lưu ý rằng spline của bạn đã được kết nối với cổng res cũng bị xóa. Đây không phải là một vấn đề, bạn có thể kết nối lại các cổng exa từ các giá trị thay thế Thiếu vận hành cảng res, hoặc bạn sẽ thấy rằng các spline sẽ xuất hiện trở lại khi bạn hoàn tất các bước dưới Xử lý dữ liệu không nhất quán
đang được dịch, vui lòng đợi..
