3.5.1 Dữ liệu chuyển đổi chiến lược Tổng quan
Trong chuyển đổi dữ liệu, dữ liệu được chuyển đổi, hợp nhất thành các hình thức thích hợp
cho khai thác mỏ. Chiến lược để chuyển đổi dữ liệu bao gồm những điều sau đây:
1. Smoothing, công việc làm việc tiếng ồn cửa hàng di chuyển từ dữ liệu. Các kỹ thuật gồm di chuyển chuột, hồi quy, và clustering.
2. Thuộc tính xây dựng (hoặc xây dựng tính năng), nơi mà các thuộc tính mới là con-cấu trúc và bổ sung từ các thiết lập cho các thuộc tính để giúp cho quá trình khai thác mỏ.
3. Tập hợp, nơi tóm tắt hoặc tập hợp các hoạt động được áp dụng cho các dữ liệu. Ví dụ, các dữ liệu bán hàng hàng ngày có thể được tổng hợp để tính toán tổng số tiền hàng tháng và hàng năm. Bước này thường được sử dụng trong việc xây dựng một khối dữ liệu để phân tích dữ liệu ở nhiều cấp độ trừu tượng.
4. Bình thường, nơi mà các dữ liệu thuộc tính được thu nhỏ để nằm trong một phạm vi nhỏ hơn, chẳng hạn như -1.0 đến 1.0, hoặc 0.0 đến 1.0.
5. Rời rạc, nơi các giá trị nguyên của một thuộc tính số (ví dụ, tuổi) được thay thế bằng nhãn khoảng thời gian (ví dụ, 0-10, 11-20, vv) hoặc nhãn khái niệm (ví dụ, thanh niên, người lớn, cao cấp). Các nhãn, lần lượt, có thể được đệ quy tổ chức thành các khái niệm cấp độ cao hơn, dẫn đến một hệ thống phân cấp khái niệm cho các thuộc tính số. Hình 3.12 cho thấy một hệ thống phân cấp khái niệm cho giá thuộc tính. Hơn một hệ thống phân cấp khái niệm có thể được định nghĩa cho thuộc tính tương tự để đáp ứng nhu cầu của người sử dụng khác nhau.
6. Hệ thống phân cấp khái niệm cho dữ liệu danh nghĩa, nơi mà các thuộc tính như đường phố có thể được khái quát các khái niệm cấp cao hơn, như thành phố hoặc quốc gia. Nhiều phân cấp cho các thuộc tính danh nghĩa là tiềm ẩn trong giản đồ cơ sở dữ liệu và có thể tự động xác định ở mức định nghĩa giản đồ.
đang được dịch, vui lòng đợi..
