Dữ liệu rời rạc và hệ thống phân cấp khái niệm cũng là hình thức nén dữ liệu. Các dữ liệu thô được thay thế bởi một số lượng nhỏ các nhãn khoảng thời gian hay khái niệm. Điều này giúp đơn giản hoá các dữ liệu ban đầu và làm cho việc khai thác hiệu quả hơn. Các mô hình kết quả khai thác thường dễ hiểu hơn. Phân cấp khái niệm này cũng có ích cho khai thác ở nhiều cấp độ trừu tượng.
Phần còn lại của phần này được tổ chức như sau. Đầu tiên, các kỹ thuật bình thường được trình bày trong mục 3.5.2. Sau đó chúng tôi mô tả một số kỹ thuật để rời rạc hóa dữ liệu, mỗi trong số đó có thể được sử dụng để tạo ra hệ thống phân cấp khái niệm cho các thuộc tính số. Các kỹ thuật bao gồm các ràng buộc (mục 3.5.3) và phân tích biểu đồ (mục 3.5.4), cũng như phân tích cụm, phân tích cây quyết định, và phân tích tương quan (mục 3.5.5). Cuối cùng, mục 3.5.6 mô tả các thế hệ tự động của hệ thống phân cấp khái niệm cho dữ liệu danh nghĩa.
đang được dịch, vui lòng đợi..
