Thiết kế
dựa trên các nguyên tắc và sự kiện được miêu tả trong chương trước, chúng tôi sẽ phác thảo hình thức cụ thể của các thuật toán và phương pháp được sử dụng trong khuôn khổ clustering. Những ý tưởng đã hình thành một phần trước khi thực hiện, nhưng thay đổi trong quá trình mã hóa dựa trên các vấn đề phát sinh và ngay cả sau khi khuôn khổ đã được hoàn thành.
4.1 Hierarchical Clustering agglomerative
Từ nhiều ứng cử viên cho các thuật toán clustering, chúng tôi đã lựa chọn các phân nhóm theo thứ bậc. Nguyên tắc của nó có thể được thực hiện khá dễ dàng, nó sẽ cho phép phân nhóm gia tăng và cách nó hoạt động sẽ cho phép chúng tôi để cache nhiều các giá trị trung gian nó produces.We đã quyết định cho các biến thể agglomerative của thuật toán. Mỗi trường hợp có mũi bắt đầu với cụm và phân nhóm cá nhân riêng của mình lặp lại hợp nhất đối clusters.With gần nhất với mục đích của các phân nhóm, chúng ta phải xem quá trình phân nhóm như liên tục và không bao giờ kết thúc. Nó sẽ không được thực hiện một lần nữa và một lần nữa, mà là bắt đầu một lần và sau đó từ từ tiến hành như trường hợp dữ liệu mới sẽ được thêm vào dataset.When quá trình được bắt đầu lần đầu tiên fi, xử lý ban đầu phải được thực hiện. Tất cả các trường hợp có mặt trong tập dữ liệu phải được phân tích, giá trị cần thiết tính toán, screat cluster mới và khoảng cách giữa các cụm tính. Sau đó, một khi tất cả các trường hợp đã được xử lý, clustering trên các số liệu phải được thực hiện. Chúng tôi gọi quá trình thuật toán initialclustering.The này có một số cấu trúc dữ liệu có chứa các thông tin cần thiết để thực hiện các phân nhóm có hiệu quả. Một số trong những cấu trúc có thể bị bỏ rơi, nhưng việc thực hiện các thuật toán sau đó sẽ giảm xuống dưới ngưỡng có thể sử dụng. Các cấu trúc cơ bản là:
•
ma trận khoảng cách thẩm
chứa một ma trận khoảng cách giữa tất cả các trường được nhóm. Ma trận này được cập nhật mỗi khi một trường hợp mới được thêm vào bằng cách chèn các giá trị trả về của hàm khoảng cách. Tất cả các hoạt động tiếp theo sử dụng một giá trị khoảng cách lấy giá trị tính toán từ ma trận này. Các ma trận sử dụng một từ điển hai chiều
đang được dịch, vui lòng đợi..
