3.5.1 Dữ liệu chuyển đổi chiến lược Tổng quan
Trong chuyển đổi dữ liệu, dữ liệu được chuyển đổi, hợp nhất thành các hình thức thích hợp
cho khai thác mỏ. Chiến lược để chuyển đổi dữ liệu bao gồm những điều sau đây:
1. Smoothing, whichworkstoremovenoisefromthedata.Techniquesincludebinning, hồi quy, và clustering.
2. Thuộc tính xây dựng (hoặc xây dựng tính năng), nơi mà các thuộc tính mới là con- structed và thêm vào từ tập hợp các thuộc tính để giúp quá trình khai thác.
3. Tập hợp, nơi tóm tắt hoặc tập hợp các hoạt động được áp dụng cho các dữ liệu. Ví dụ, các dữ liệu bán hàng hàng ngày có thể được tổng hợp để tính toán tổng số tiền hàng tháng và hàng năm. Bước này thường được sử dụng trong việc xây dựng một khối dữ liệu để phân tích dữ liệu ở nhiều cấp độ trừu tượng.
4. Bình thường, wheretheattributedataarescaledsoastofallwithinasmallerrange, như -1.0 đến 1.0, hoặc 0.0 đến 1.0.
5. Rời rạc, wheretherawvaluesofanumericattribute (ví dụ, tuổi) arereplacedby nhãn khoảng thời gian (ví dụ, 0-10, 11-20, vv) hoặc các khái niệm nhãn (ví dụ, thanh niên, người lớn, cao cấp). Các nhãn, lần lượt, có thể được đệ quy tổ chức thành các khái niệm cấp độ cao hơn, dẫn đến một hệ thống phân cấp khái niệm cho các thuộc tính số. Hình 3.12 cho thấy một hệ thống phân cấp khái niệm cho giá thuộc tính. Hơn một hệ thống phân cấp khái niệm có thể được định nghĩa cho thuộc tính tương tự để đáp ứng nhu cầu của người sử dụng khác nhau.
6. Hệ thống phân cấp khái niệm cho dữ liệu danh nghĩa, nơi mà các thuộc tính như đường phố có thể được khái quát các khái niệm cấp cao hơn, như thành phố hoặc quốc gia. Nhiều phân cấp cho các thuộc tính danh nghĩa là tiềm ẩn trong giản đồ cơ sở dữ liệu và có thể tự động xác định ở mức định nghĩa giản đồ.
đang được dịch, vui lòng đợi..
