HANDLING INCONSISTENT DATAInconsistent data is different from missing  dịch - HANDLING INCONSISTENT DATAInconsistent data is different from missing  Việt làm thế nào để nói

HANDLING INCONSISTENT DATAInconsist



HANDLING INCONSISTENT DATA
Inconsistent data is different from missing data. Inconsistent data occurs when a value does exist, however that value is not valid or meaningful. Refer back to Figure 3-25, a close up version of that image is shown here as Figure 3-29.

What is that 99 doing there? It seems that the only two valid values for the Twitter attribute should be ‘Y’ and ‘N’. This is a value that is inconsistent and is therefore meaningless. As data miners, we can decide if we want to filter this observation out, as we did with the missing Online_Shopping records, or, we could use an operator designed to allow us to replace certain values with others.
1) Return to design perspective if you are not already there. Ensure that you have deleted your sampling and filter operators from your stream, so that your window looks like Figure 3-30.
2) Note that we don’t need to remove the Replace Missing Values operator, because it is not removing any observations in our data set. It only changes the values in the Online_Gaming attribute, which won’t affect our next operator. Use the search feature in the Operators tab to find an operator called Replace. Drag this operator into your stream. If your splines had been disconnected during the deletion of the sampling and filtering operators, as is the case in Figure 3-30, you will see that your splines are automatically reconnected when you add the Replace operator to the stream.
3) In the parameters pane, change the attribute filter type to single, then indicate Twitter as the attribute to be modified. In truth, in this data set there is only one instance of the value 99 across all attributes and observations, so this change to a single attribute is not actually necessary in this example, but it is good to be thoughtful and intentional with every step in a data mining process. Most data sets will be far larger and more complex that the Chapter 3 data set we are currently working with. In the ‘replace what’ field, type the value 99, since this is the value we’re looking to replace. Finally, in the ‘replace by’ field, we must decide what we want to have in the place of the 99. If we leave this field blank, then the observation will have a missing (?) when we run the model and switch to Data View in results perspective. We could also choose the mode of ‘N’, and given that 80% of the survey respondents indicated that they did not use Twitter, this would seem a safe course of action. You may choose the value you would like to use. For the book’s example, we will enter ‘N’ and then run our model. You can see in Figure 3-31 that we now have nine values of ‘N’, and two of ‘Y’ for our Twitter attribute.
Keep in mind that not all inconsistent data is going to be as easy to handle as replacing a single value. It would be entirely possible that in addition to the inconsistent value of 99, values of 87, 96, 101, or others could be present in a data set. If this were the case, it might take multiple replacements and/or missing data operators to prepare the data set for mining. In numeric data we might also come across data which are accurate, but which are also statistical outliers. These might also be considered to be inconsistent data, so an example in a later chapter will illustrate the handling of statistical outliers. Sometimes data scrubbing can become tedious, but it will ultimately affect the usefulness of data mining results, so these types of activities are important, and attention to detail is critical.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
XỬ LÝ DỮ LIỆU KHÔNG PHÙ HỢPDữ liệu không phù hợp là khác nhau từ dữ liệu bị thiếu. Không phù hợp dữ liệu xảy ra khi một giá trị không tồn tại, Tuy nhiên giá trị đó là không hợp lệ hoặc có ý nghĩa. Tham khảo trở lại để hình 3-25, một đóng lên các phiên bản của hình ảnh đó hiển thị ở đây là con số 3-29.Những gì là 99 làm vậy? Nó có vẻ rằng chỉ có hai giá trị hợp lệ cho thuộc tính Twitter nên 'Y' và 'N'. Đây là một giá trị đó là không phù hợp và do đó vô nghĩa. Như thợ mỏ dữ liệu, chúng tôi có thể quyết định nếu chúng ta muốn lọc quan sát này ra, như chúng tôi đã làm với các bản ghi Online_Shopping mất tích, hoặc chúng tôi có thể sử dụng một nhà điều hành được thiết kế để cho phép chúng tôi để thay thế một số giá trị với những người khác.1) quay trở lại để thiết kế quan điểm nếu bạn không phải đã có. Đảm bảo rằng bạn đã xoá của bạn lấy mẫu và nhà khai thác lọc từ dòng của bạn, để cho cửa sổ của bạn trông giống như hình 3-30.2) lưu ý rằng chúng tôi không cần phải loại bỏ các nhà điều hành thay thế các giá trị thiếu, bởi vì nó không phải loại bỏ bất kỳ quan sát trong thiết lập dữ liệu của chúng tôi. Nó chỉ thay đổi các giá trị trong các thuộc tính Online_Gaming, mà sẽ không ảnh hưởng đến chúng tôi nhà điều hành tiếp theo. Sử dụng tính năng tìm kiếm trong tab nhà khai thác để tìm một nhà điều hành được gọi là thay thế. Kéo nhà điều hành này vào dòng của bạn. Nếu splines của bạn đã bị ngắt kết nối trong loại bỏ việc lấy mẫu và lọc nước sử dụng, như là trường hợp trong hình 3-30, bạn sẽ thấy rằng splines của bạn được tự động kết nối lại khi bạn thêm các nhà điều hành thay thế cho dòng.3) trong cửa sổ thông số, thay đổi loại bộ lọc thuộc tính duy nhất, sau đó cho biết Twitter là các thuộc tính được thay đổi. Trong sự thật, trong này thiết lập dữ liệu có các trường hợp chỉ có một giá trị 99 trên tất cả các thuộc tính và quan sát, do đó, sự thay đổi này để một thuộc tính duy nhất là không thực sự cần thiết trong ví dụ này, nhưng nó là tốt để được chu đáo và cố ý với mỗi bước trong quá trình khai thác dữ liệu. Hầu hết các bộ dữ liệu sẽ được lớn hơn và phức tạp hơn rằng các thiết lập dữ liệu chương 3 chúng tôi hiện đang làm việc với. Trong trường 'thay thế những gì', nhập giá trị 99, do đây là giá trị mà chúng tôi đang tìm kiếm để thay thế. Cuối cùng, trong trường 'thay thế bằng', chúng ta phải quyết định những gì chúng tôi muốn có tại địa điểm của các 99. Nếu chúng tôi để trống trường này, sau đó các quan sát sẽ có một thiếu (?) khi chúng tôi chạy các mô hình và chuyển đến chế độ xem dữ liệu trong kết quả người. Chúng tôi cũng có thể chọn chế độ của 'N', và cho rằng 80% của những người trả lời khảo sát chỉ ra rằng họ đã không sử dụng Twitter, điều này sẽ có vẻ một khóa học an toàn của hành động. Bạn có thể chọn các giá trị bạn muốn sử dụng. Ví dụ của cuốn sách, chúng tôi sẽ nhập 'N' và sau đó chạy mô hình của chúng tôi. Bạn có thể nhìn thấy trong hình 3-31 mà chúng tôi bây giờ có giá trị chín của 'N', và hai trong số 'Y' cho thuộc tính Twitter của chúng tôi.Hãy nhớ rằng không phải tất cả không phù hợp dữ liệu sẽ dễ dàng để xử lý như thay thế một giá trị duy nhất. Nó sẽ là hoàn toàn có thể rằng ngoài giá trị không phù hợp của 99, giá trị của 87, 96, 101, hoặc những người khác có thể có mặt trong một tập hợp dữ liệu. Nếu đây là trường hợp, nó có thể mất nhiều thay thế và/hoặc thiếu các nhà khai thác dữ liệu để chuẩn bị các thiết lập dữ liệu cho khai thác mỏ. Trong số các dữ liệu chúng tôi có thể cũng đi qua dữ liệu đó được chính xác, nhưng mà cũng thống kê outliers. Chúng cũng có thể được coi là được dữ liệu không phù hợp, do đó, một ví dụ trong một chương sau này sẽ minh họa cho việc xử lý thống kê outliers. Đôi khi dữ liệu xử lý có thể trở nên tẻ nhạt, nhưng nó cuối cùng sẽ ảnh hưởng đến tính hữu dụng của các kết quả khai thác dữ liệu, do đó, các loại hoạt động rất quan trọng, và sự chú ý đến từng chi tiết là rất quan trọng.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!


XỬ LÝ DỮ LIỆU nhất quán
dữ liệu không nhất quán là khác nhau từ các dữ liệu bị mất. Dữ liệu không phù hợp xảy ra khi một giá trị không tồn tại, tuy nhiên giá trị đó là không hợp lệ hoặc có ý nghĩa. Xin tham khảo Hình 3-25, một phiên bản đóng lên hình ảnh được hiển thị ở đây như hình 3-29. là gì mà 99 làm gì ở đó? Dường như hai giá trị chỉ có giá trị cho các thuộc tính Twitter nên được 'Y' và 'N'. Đây là một giá trị không phù hợp và do đó là vô nghĩa. Như thợ mỏ dữ liệu, chúng ta có thể quyết định nếu chúng ta muốn lọc ra quan sát này, như chúng ta đã làm với các hồ sơ Online_Shopping mất tích, hoặc, chúng ta có thể sử dụng một nhà điều hành được thiết kế để cho phép chúng tôi thay thế các giá trị nhất định với những người khác. 1) Trở về thiết kế quan điểm nếu bạn chưa có. Đảm bảo rằng bạn đã xóa lấy mẫu và bộ lọc điều hành của bạn từ dòng của bạn, do đó cửa sổ của bạn trông giống như hình 3-30. 2) Chú ý rằng chúng ta không cần phải loại bỏ các giá trị thay thế Thiếu điều hành, bởi vì nó không phải là loại bỏ bất kỳ quan sát trong thiết lập dữ liệu của chúng tôi. Nó chỉ thay đổi các giá trị trong thuộc tính Online_Gaming, đó sẽ không ảnh hưởng đến điều hành tiếp theo của chúng tôi. Sử dụng tính năng tìm kiếm trong tab khai thác để tìm một nhà điều hành được gọi thay thế. Kéo điều hành này vào các dòng của bạn. Nếu splines của bạn đã được ngắt kết nối trong việc xoá các nhà khai thác và lọc lấy mẫu, như là trường hợp trong hình 3-30, bạn sẽ thấy rằng splines của bạn sẽ được tự động kết nối lại khi bạn thêm các nhà điều hành thay thế cho các dòng. 3) Trong các thông số cửa sổ, thay đổi kiểu bộ lọc thuộc tính duy nhất, sau đó cho thấy Twitter như là thuộc tính phải được sửa đổi. Trong sự thật, trong tập dữ liệu này chỉ có một thể hiện của giá trị 99 trên tất cả các thuộc tính và quan sát, vì vậy thay đổi này đến một thuộc tính duy nhất không phải là thực sự cần thiết trong ví dụ này, nhưng nó là tốt để được chu đáo và có chủ ý với tất cả các bước trong một quá trình khai thác dữ liệu. Hầu hết các bộ dữ liệu sẽ được xa hơn và phức tạp hơn mà các bộ dữ liệu Chương 3 chúng tôi hiện đang làm việc với. Trong 'thay thế what ", gõ giá trị 99, vì đây là những giá trị chúng tôi đang tìm kiếm để thay thế. Cuối cùng, trong 'thay thế bằng' lĩnh vực, chúng ta phải quyết định những gì chúng ta muốn có ở nơi của 99. Nếu chúng ta bỏ trống trường này, sau đó các quan sát sẽ có một mất tích (?) Khi chúng tôi chạy mô hình và chuyển sang Xem dữ liệu trong các kết quả quan điểm. Chúng tôi cũng có thể chọn các chế độ của 'N', và cho rằng 80% số người trả lời khảo sát cho rằng họ không sử dụng Twitter, điều này có vẻ như một khóa học an toàn của hành động. Bạn có thể lựa chọn các giá trị mà bạn muốn sử dụng. Ví dụ của cuốn sách, chúng ta sẽ nhập 'N' và sau đó chạy mô hình của chúng tôi. Bạn có thể thấy trong hình 3-31 mà bây giờ chúng ta có chín giá trị của 'N', và hai trong 'Y' cho thuộc tính Twitter của chúng tôi. Hãy nhớ rằng không phải tất cả các dữ liệu không phù hợp sẽ được dễ dàng để xử lý như thay thế một đơn giá trị. Nó sẽ là hoàn toàn có thể thêm vào các giá trị không phù hợp là 99, giá trị của 87, 96, 101, hoặc những người khác có thể có mặt trong một bộ dữ liệu. Nếu đây là trường hợp, nó có thể mất nhiều thay thế và / hoặc mất tích khai thác dữ liệu để chuẩn bị các dữ liệu thiết cho khai thác mỏ. Trong dữ liệu số chúng ta cũng có thể đi qua các dữ liệu đó là chính xác, nhưng đó cũng là những giá trị ngoại lai thống kê. Đây cũng có thể được coi là dữ liệu không phù hợp, do đó, một ví dụ trong chương sau sẽ minh họa việc xử lý của kẻ xuất thống kê. Đôi khi dữ liệu chà có thể trở nên tẻ nhạt, nhưng cuối cùng nó sẽ ảnh hưởng đến tính hữu dụng của các kết quả khai thác dữ liệu, do đó, những loại hoạt động rất quan trọng, và sự chú ý đến từng chi tiết là rất quan trọng.





đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: