In the search box within the Operat

In the search box within the Operators tab, type in the word ‘filter’. This will help you locate the ‘Filter Examples’ operator, which is what we will use in this example. Drag the Filter Examples operator over and connect it into your stream, right after the Replace Missing Values operator. Your window will look like Figure 3-26.
2. In the condition class, choose ‘attribute_value_filter’, and for the parameter_string, type the following: Online_Shopping=. Be sure to include the period. This parameter string refers to our attribute, Online_Shopping, and it tells RapidMiner to filter out all observations where the value in that attribute is missing. This is a bit confusing, because in Data View in results perspective, missings are denoted by a question mark (?), but when entering the parameter string, missings are denoted by a period (.). Once you’ve typed these parameter values in, your screen will look like Figure 3-27.
Go ahead and run your model by clicking the play button. In results perspective, you will now see that your data set has been reduced from eleven observations (or examples) to nine. This is because the two observations where the Online_Shopping attribute had a missing value have been removed. You’ll be able to see that they’re gone by selecting the Data View radio button. They have not been deleted from the original source data, they are simply removed from the data set at the point in the stream where the filter operator is located and will no longer be considered in any downstream data mining operations. In instances where the missing value cannot be safely assumed or computed, removal of the entire observation is often the best course of action. When attributes are numeric in nature, such as with ages or number of visits to a certain place, an arithmetic measure of central tendency, such as mean, median or mode might be an acceptable replacement for missing values, but in more subjective attributes, such as whether one is an online shopper or not, you may be better off simply filtering out observations where the datum is missing. (One cool trick you can try in RapidMiner is to use the Invert Filter option in design perspective. In this example, if you check that check box in the parameters pane of the Filter Examples operator, you will keep the missing observations, and filter out the rest.)
Data mining can be confusing and overwhelming, especially when data sets get large. It doesn’t have to be though, if we manage our data well. The previous example has shown how to filter out observations containing undesired data (or missing data) in an attribute, but we can also reduce data to test out a data mining model on a smaller subset of our data. This can greatly reduce processing time while testing a model to see if it will work to answer our questions. Follow the steps below to take a sample of our data set in RapidMiner.
1) Using the search techniques previously demonstrated, use the Operators search feature to find an operator called ‘Sample’ and add this to your stream. In the parameters pane, set the sample to be to be a ‘relative’ sample, and then indicate you want to retain 50% of your observations in the resulting data set by typing .5 into the sample ratio field. Your window should look like Figure 3-28.
2) When you run your model now, you will find that your results only contain four or five observations, randomly selected from the nine that were remaining after our filter operator removed records that had missing Online_Shopping values.
Thus you can see that there are many ways, and various reasons to reduce data by decreasing the number of observations in your data set. We’ll now move on to handling inconsistent data, but before doing so, it is going to be important to reset our data back to its original form. While filtering, we removed an observation that we will need in order to illustrate what inconsistent data is, and to demonstrate how to handle it in RapidMiner. This is a good time to learn how to remove operators from your stream. Switch back to design perspective and click on your Sampling operator. Next, right click and choose Delete, or simply press the Delete key on your keyboard. Delete the Filter Examples operator at this time as well. Note that your spline that was connected to the res port is also deleted. This is not a problem, you can reconnect the exa port from the Replace Missing Values operator to the res port, or you will find that the spline will reappear when you complete the steps under Handling Inconsistent Data

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Trong hộp tìm kiếm trong tab nhà khai thác, gõ từ 'bộ lọc'. Điều này sẽ giúp bạn xác định vị trí các nhà điều hành 'Lọc ví dụ', mà là những gì chúng tôi sẽ sử dụng trong ví dụ này. Kéo các nhà điều hành bộ lọc ví dụ trên và kết nối nó vào dòng của bạn, ngay sau khi các nhà điều hành thay thế các giá trị thiếu. Cửa sổ của bạn sẽ trông giống như hình 3-26.2. trong lớp điều kiện, hãy chọn 'attribute_value_filter', và cho parameter_string, gõ như sau: Online_Shopping =. Hãy chắc chắn để bao gồm các giai đoạn. Chuỗi tham số này là thuộc tính của chúng tôi, Online_Shopping, và nó cho biết RapidMiner để lọc ra tất cả quan sát nơi giá trị thuộc tính đó là mất tích. Đây là một chút khó hiểu, bởi vì ở chế độ xem dữ liệu trong quan điểm kết quả, missings được biểu hiện bằng một dấu chấm hỏi (?), nhưng khi nhập tham số chuỗi, missings được biểu hiện bằng một chấm (.). Một khi bạn đã nhập các giá trị tham số trong, màn hình của bạn sẽ trông giống như hình 3-27.Đi trước và chạy mô hình của bạn bằng cách nhấn vào nút phát. Trong quan điểm kết quả, bạn sẽ thấy rằng thiết lập dữ liệu của bạn đã bị giảm từ mười một quan sát (hoặc ví dụ) tới con số chín. Điều này là do các quan sát hai nơi mà các thuộc tính Online_Shopping đã có một giá trị thiếu đã được gỡ bỏ. Bạn sẽ có thể thấy rằng họ đang đi bằng cách chọn nút radio xem dữ liệu. Họ đã không được xóa từ dữ liệu nguồn gốc, họ chỉ đơn giản là được gỡ bỏ từ các thiết lập dữ liệu tại điểm trong dòng nơi các nhà điều hành bộ lọc có vị trí và sẽ không được xem xét trong bất kỳ hoạt động khai thác hạ lưu dữ liệu. Trong trường hợp nơi thiếu giá trị không thể được một cách an toàn giả định hoặc tính toán, loại bỏ toàn bộ quan sát thường là khóa học tốt nhất của hành động. Khi thuộc tính được số trong tự nhiên, chẳng hạn như với lứa tuổi hoặc số lần truy cập đến một nơi nào đó, một biện pháp số học của xu hướng trung tâm thành phố, chẳng hạn như có nghĩa là, Trung bình hoặc chế độ có thể là một thay thế chấp nhận được đối với thiếu giá trị, nhưng trong thuộc tính chủ quan hơn, chẳng hạn như xem một là một mua sắm trực tuyến hay không, bạn có phải là tốt hơn hết chỉ đơn giản là lọc ra những quan sát nơi mốc đo lường là mất tích. (Một trick mát mẻ, bạn có thể thử trong RapidMiner là để sử dụng tùy chọn lọc đảo ngược trong thiết kế người. Trong ví dụ này, nếu bạn kiểm tra rằng hộp kiểm trong ngăn các thông số của các nhà điều hành bộ lọc ví dụ, bạn sẽ giữ cho các quan sát thiếu, và lọc ra phần còn lại.)Khai thác dữ liệu có thể được khó hiểu và áp đảo, đặc biệt là khi tập dữ liệu lớn. Nó không phải là mặc dù, nếu chúng tôi quản lý dữ liệu của chúng tôi tốt. Ví dụ trước đó cho thấy làm thế nào để lọc ra các quan sát có chứa undesired dữ liệu (hoặc dữ liệu bị thiếu) trong một thuộc tính, nhưng chúng tôi cũng có thể làm giảm các dữ liệu thử nghiệm trên một mô hình khai thác dữ liệu vào một tập hợp con nhỏ của dữ liệu của chúng tôi. Điều này có thể làm giảm đáng kể thời gian xử lý trong khi thử nghiệm một mô hình để xem nếu nó sẽ làm việc để trả lời câu hỏi của chúng tôi. Làm theo các bước dưới đây để lấy mẫu của chúng tôi tập hợp dữ liệu tại RapidMiner.1) bằng cách sử dụng các kỹ thuật tìm kiếm trước đó đã chứng minh, sử dụng tính năng tìm kiếm nhà khai thác để tìm một nhà điều hành được gọi là 'Mẫu' và thêm phần này vào dòng của bạn. Trong cửa sổ thông số, thiết lập mẫu phải là một mẫu 'tương đối', và sau đó cho biết bạn muốn giữ lại 50% của các quan sát của bạn trong các thiết lập dữ liệu kết quả bằng cách gõ.5 vào trường tỷ lệ mẫu. Cửa sổ của bạn sẽ giống như hình 3-28.2) khi bạn chạy mô hình của bạn bây giờ, bạn sẽ tìm thấy kết quả của bạn chỉ chứa bốn hoặc năm quan sát, lựa chọn ngẫu nhiên từ chín mà đã còn lại sau khi chúng tôi điều hành bộ lọc loại bỏ hồ sơ có thiếu giá trị Online_Shopping.Do đó bạn có thể thấy rằng có rất nhiều cách, và các lý do khác nhau để giảm bớt dữ liệu bằng cách giảm số lượng quan sát trong thiết lập dữ liệu của bạn. Chúng tôi bây giờ sẽ di chuyển trên để xử lý dữ liệu không phù hợp, nhưng trước khi làm như vậy, nó sẽ được quan trọng để thiết lập lại dữ liệu của chúng tôi trở lại hình thức ban đầu của nó. Trong khi lọc, chúng tôi loại bỏ một quan sát mà chúng tôi sẽ cần để minh họa những gì dữ liệu không phù hợp, và để chứng minh làm thế nào để xử lý nó trong RapidMiner. Đây là thời điểm tốt để tìm hiểu làm thế nào để loại bỏ các nhà khai thác từ dòng của bạn. Chuyển trở lại để thiết kế quan điểm và nhấp vào nhaø ñieàu haønh maïng lấy mẫu. Tiếp theo, nhấp chuột phải và chọn xoá, hoặc chỉ đơn giản là nhấn phím Delete trên bàn phím của bạn. Xóa bỏ các nhà điều hành bộ lọc ví dụ tại thời điểm này. Lưu ý rằng bạn spline được kết nối với cổng res cũng sẽ bị xóa. Đây không phải là một vấn đề, bạn có thể kết nối lại cảng exa từ các nhà điều hành thay thế các giá trị thiếu cổng res, hoặc bạn sẽ tìm thấy rằng spline sẽ xuất hiện lại khi bạn hoàn tất các bước theo xử lý dữ liệu không phù hợp

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Trong hộp tìm kiếm trong tab vận hành, gõ vào từ 'lọc'. Điều này sẽ giúp bạn xác định vị trí các nhà điều hành 'Filter Ví dụ, đó là những gì chúng ta sẽ sử dụng trong ví dụ này. Kéo hành lọc ví dụ trên và kết nối nó vào dòng của bạn, ngay sau khi thay thế các giá trị Thiếu điều hành. Cửa sổ của bạn sẽ trông giống như hình 3-26.
2. Trong lớp điều kiện, chọn 'attribute_value_filter', và cho parameter_string, gõ như sau: Online_Shopping =. Hãy chắc chắn bao gồm các giai đoạn. Chuỗi tham số này đề cập đến thuộc tính của chúng tôi, Online_Shopping, và nó nói với RapidMiner để lọc ra tất cả các quan sát nơi các giá trị trong thuộc tính đó là mất tích. Đây là một chút bối rối, bởi vì trong dữ liệu xem kết quả trong phối cảnh, missings được biểu thị bằng một dấu chấm hỏi (?), Nhưng khi bước vào chuỗi tham số, missings được biểu thị bằng một dấu chấm (.). Một khi bạn đã gõ các giá trị tham số trong, màn hình của bạn sẽ trông giống như hình 3-27.
Đi trước và chạy mô hình của bạn bằng cách nhấn nút play. Trong kết quả quan điểm, bây giờ bạn sẽ thấy rằng dữ liệu của bạn đã được giảm từ mười một quan sát (hoặc ví dụ) để chín. Điều này là bởi vì hai quan sát nơi các thuộc tính Online_Shopping đã có một giá trị thiếu đã được gỡ bỏ. Bạn sẽ có thể thấy rằng họ đang đi bằng cách chọn nút Data Xem radio. Họ đã không được xóa từ các nguồn dữ liệu ban đầu, họ chỉ đơn giản là loại bỏ khỏi các dữ liệu đặt tại các điểm trong dòng mà các nhà điều hành bộ lọc nằm và sẽ không còn được xem xét trong bất kỳ hoạt động khai thác dữ liệu hạ lưu. Trong trường hợp các giá trị bị mất tích không thể được giả định hoặc tính một cách an toàn, cắt bỏ toàn bộ quan sát thường là những hành động tốt nhất. Khi thuộc tính là số tự nhiên, chẳng hạn như với lứa tuổi hoặc số lần đến một nơi nào đó, một biện pháp số học của xu hướng trung tâm, chẳng hạn như trung bình, trung bình hoặc chế độ có thể là một thay thế chấp nhận được cho giá trị bị mất, nhưng trong các thuộc tính chủ quan hơn, chẳng hạn là dù ta là một người mua sắm trực tuyến hay không, bạn có thể được tốt hơn chỉ đơn giản là lọc ra những quan sát nơi mốc là mất tích. (Một trong những trick mát mẻ, bạn có thể thử trong RapidMiner là sử dụng các tùy chọn Invert Lọc trong quan điểm thiết kế. Trong ví dụ này, nếu bạn kiểm tra xem hộp kiểm tra ở cửa sổ thông số của các nhà điều hành lọc Ví dụ, bạn sẽ giữ cho các quan sát mất tích, và lọc ra phần còn lại.)
Khai thác dữ liệu có thể gây nhầm lẫn và áp đảo, đặc biệt là khi các tập dữ liệu có được lớn. Nó không phải là mặc dù, nếu chúng ta quản lý dữ liệu của chúng tôi cũng. Ví dụ trước đây đã cho thấy làm thế nào để lọc ra các quan sát có chứa dữ liệu không mong muốn (hoặc dữ liệu bị mất tích) trong một thuộc tính, nhưng chúng ta cũng có thể làm giảm dữ liệu thử nghiệm một mô hình khai thác dữ liệu trên một tập hợp con nhỏ hơn của dữ liệu của chúng tôi. Điều này rất có thể làm giảm thời gian xử lý trong khi thử nghiệm một mô hình để xem nếu nó sẽ làm việc để trả lời câu hỏi của chúng tôi. Thực hiện theo các bước dưới đây để có một mẫu dữ liệu của chúng tôi đặt tại RapidMiner.
1) Sử dụng các kỹ thuật tìm kiếm chứng minh trước đây, sử dụng các tính năng khai thác tìm kiếm để tìm một nhà điều hành được gọi là 'mẫu', và thêm vào các dòng của bạn. Trong cửa sổ thông số, thiết lập mẫu để có được một 'tương đối' mẫu, và sau đó cho biết bạn muốn giữ lại 50% các quan sát của bạn trong kết quả dữ liệu thiết lập bằng cách gõ 0,5 vào trường tỷ lệ mẫu. Cửa sổ của bạn sẽ trông giống như hình 3-28.
2) Khi bạn chạy mô hình của bạn bây giờ, bạn sẽ thấy rằng kết quả của bạn chỉ có bốn hoặc năm quan sát, lựa chọn ngẫu nhiên từ chín đã được còn lại sau khi nhà điều hành của chúng tôi lọc loại bỏ các hồ sơ có thiếu Online_Shopping giá trị.
Vì vậy bạn có thể thấy rằng có rất nhiều cách, và các lý do khác nhau để giảm dữ liệu bằng cách giảm số lượng các quan sát trong tập dữ liệu của bạn. Bây giờ chúng ta sẽ chuyển sang xử lý dữ liệu không phù hợp, nhưng trước khi làm như vậy, nó sẽ là quan trọng để thiết lập lại dữ liệu của chúng tôi trở lại hình dạng ban đầu của nó. Trong khi lọc, chúng tôi loại bỏ một quan sát mà chúng ta sẽ cần để minh họa những gì dữ liệu không nhất quán, và để chứng minh làm thế nào để xử lý nó trong RapidMiner. Đây là thời điểm tốt để tìm hiểu làm thế nào để loại bỏ các nhà khai thác từ các dòng của bạn. Chuyển về thiết kế phối cảnh và click vào hành lấy mẫu của bạn. Tiếp theo, nhấp chuột phải và chọn Delete, hoặc đơn giản nhấn phím Delete trên bàn phím của bạn. Xóa điều hành lọc Ví dụ tại thời điểm này là tốt. Lưu ý rằng spline của bạn đã được kết nối với cổng res cũng bị xóa. Đây không phải là một vấn đề, bạn có thể kết nối lại các cổng exa từ các giá trị thay thế Thiếu vận hành cảng res, hoặc bạn sẽ thấy rằng các spline sẽ xuất hiện trở lại khi bạn hoàn tất các bước dưới Xử lý dữ liệu không nhất quán

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.