Hãy nhớ rằng có rất nhiều chồng chéo giữa các dữ liệu lớn tiền xử lý tác vụ. Ba đầu tiên của những chiến lược đã được thảo luận trước đó trong chương này.Làm mịn là một dạng dữ liệu sạch và đã được đề cập trong phần 3.2.2. Phần 3.2.3 về quá trình làm sạch dữ liệu cũng thảo luận về công cụ ETL, nơi người dùng xác định biến đổi để khắc phục mâu thuẫn của dữ liệu. Tập hợp và xây dựng thuộc tính đã được thảo luận ở phần 3,4 trên dữ liệu giảm. Trong phần này, chúng tôi, do đó, tập trung vào ba chiến lược sau.Discretization kỹ thuật có thể được phân loại dựa trên làm thế nào discretization là mỗi - được hình thành, chẳng hạn như việc sử dụng thông tin lớp học hoặc hướng nó tiền (tức là, từ trên xuống so với dưới lên). Nếu quá trình discretization thông tin lớp học, sau đó chúng tôi nói nó là discretization giám sát. Nếu không, nó là không có giám sát. Nếu quá trình bắt đầu bằng cách đầu tiên tìm kiếm một hoặc một vài điểm (được gọi là phân chia điểm hoặc cắt điểm) phân chia phạm vi toàn bộ các thuộc tính, và sau đó lặp đi lặp lại đệ quy này vào các đoạn kết quả, nó được gọi là trên xuống discretization hoặc chia tách. Điều này tương phản với dưới lên discretization hoặc sáp nhập, mà bắt đầu bằng cách xem xét tất cả các giá trị liên tục như là tiềm năng split-điểm, loại bỏ một số bằng việc sáp nhập vùng lân cận giá trị hình thức khoảng, và sau đó đệ quy áp dụng quy trình này cho các đoạn kết quả.
đang được dịch, vui lòng đợi..
