Recall that there is much overlap b

Recall that there is much overlap between the major data preprocessing tasks. The first three of these strategies were discussed earlier in this chapter.
Smoothing is a form of data cleaning and was addressed in Section 3.2.2. Section 3.2.3 on the data cleaning process also discussed ETL tools, where users specify transformations to correct data inconsistencies. Attribute construction and aggregation were discussed in Section 3.4 on data reduction. In this section, we, therefore, concentrate on the latter three strategies.
Discretization techniques can be categorized based on how the discretization is per- formed, such as whether it uses class information or which direction it proceeds (i.e., top-down vs. bottom-up). If the discretization process uses class information, then we say it is supervised discretization. Otherwise, it is unsupervised. If the process starts by first finding one or a few points (called split points or cut points) to split the entire attribute range, and then repeats this recursively on the resulting intervals, it is called top-down discretization or splitting. This contrasts with bottom-up discretization or merging, which starts by considering all of the continuous values as potential split-points, removes some by merging neighborhood values to form intervals, and then recursively applies this process to the resulting intervals.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Hãy nhớ rằng có rất nhiều chồng chéo giữa các dữ liệu lớn tiền xử lý tác vụ. Ba đầu tiên của những chiến lược đã được thảo luận trước đó trong chương này.Làm mịn là một dạng dữ liệu sạch và đã được đề cập trong phần 3.2.2. Phần 3.2.3 về quá trình làm sạch dữ liệu cũng thảo luận về công cụ ETL, nơi người dùng xác định biến đổi để khắc phục mâu thuẫn của dữ liệu. Tập hợp và xây dựng thuộc tính đã được thảo luận ở phần 3,4 trên dữ liệu giảm. Trong phần này, chúng tôi, do đó, tập trung vào ba chiến lược sau.Discretization kỹ thuật có thể được phân loại dựa trên làm thế nào discretization là mỗi - được hình thành, chẳng hạn như việc sử dụng thông tin lớp học hoặc hướng nó tiền (tức là, từ trên xuống so với dưới lên). Nếu quá trình discretization thông tin lớp học, sau đó chúng tôi nói nó là discretization giám sát. Nếu không, nó là không có giám sát. Nếu quá trình bắt đầu bằng cách đầu tiên tìm kiếm một hoặc một vài điểm (được gọi là phân chia điểm hoặc cắt điểm) phân chia phạm vi toàn bộ các thuộc tính, và sau đó lặp đi lặp lại đệ quy này vào các đoạn kết quả, nó được gọi là trên xuống discretization hoặc chia tách. Điều này tương phản với dưới lên discretization hoặc sáp nhập, mà bắt đầu bằng cách xem xét tất cả các giá trị liên tục như là tiềm năng split-điểm, loại bỏ một số bằng việc sáp nhập vùng lân cận giá trị hình thức khoảng, và sau đó đệ quy áp dụng quy trình này cho các đoạn kết quả.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Nhớ lại rằng có nhiều chồng chéo giữa các nhiệm vụ dữ liệu tiền xử lý lớn. Ba đầu tiên của các chiến lược đã được thảo luận trước đó trong chương này.
Smoothing là một hình thức làm sạch dữ liệu và đã được đề cập trong mục 3.2.2. Mục 3.2.3 về quá trình làm sạch dữ liệu cũng thảo luận về các công cụ ETL, nơi người dùng có thể chỉ định các biến đổi để sửa chữa sự thiếu nhất quán dữ liệu. Thuộc tính xây dựng và tập hợp đã được thảo luận trong Phần 3.4 về giảm dữ liệu. Trong phần này, chúng tôi, do đó, tập trung vào ba chiến lược sau.
Kỹ thuật rời rạc có thể được phân loại dựa vào cách rời rạc được mỗi hình thành, chẳng hạn như cho dù nó sử dụng thông tin lớp học hoặc hướng nào tiến (tức là, từ trên xuống vs. từ dưới lên). Nếu quá trình rời rạc sử dụng thông tin lớp học, sau đó chúng ta nói nó là giám sát rời rạc. Nếu không, nó là không có giám sát. Nếu quá trình này bắt đầu bằng cách đầu tiên tìm kiếm một hoặc một vài điểm (gọi là chia điểm hoặc điểm cắt) để chia phạm vi toàn bộ thuộc tính, và sau đó lặp đi lặp lại điều này đệ quy trên các khoảng kết quả, nó được gọi là top-down rời rạc, tách. Điều này trái ngược với rời rạc từ dưới lên hoặc sáp nhập, mà bắt đầu bằng cách xem xét tất cả các giá trị liên tục như chia điểm tiềm năng, loại bỏ một số bằng cách kết hợp các giá trị khu phố để tạo khoảng thời gian, và sau đó đệ quy áp dụng quy trình này để các khoảng kết quả.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.