3.2. CLUSTERING11A có nghĩa là dữ liệu trường hợp có thể được tính. Đối với trường hợp dữ liệu phức tạp hơn, mà không phải là chỉ đơn giản vectơ, tình trạng này không thể được đáp ứng. Nó có thể được over-đến bằng cách tránh centroid hoàn toàn một xác định khoảng cách ví dụ từ cụm của các khoảng cách trung bình từ thành viên của cụm. Mặc dù một phương pháp khả thi, tính toán phức tạp sẽ tăng rất nhiều. Mặc dù K có nghĩa là một thuật toán đơn giản, linh hoạt và nhanh chóng chúng tôi đã quyết định không sử dụng nó ở dạng tiêu chuẩn của nó như là một thuật toán kết cụm cho dự án của chúng tôi.3.2.1.2 hierarchical clusteringCác thuật toán kết cụm phân cấp là cùng với K-phương tiện kỹ thuật kết cụm phổ biến nhất. Phương pháp này hoạt động bằng cách xây dựng một hệ thống phân cấp các cụm dựa trên sự tương tự trong trường hợp dữ liệu họ có chứa. Quá trình xây dựng hệ thống phân cấp có thể chấm dứt khi một specified điều kiện được đáp ứng, kết quả là cụm của mong muốn giống nhau và kích thước. Số liệu được sử dụng để đo lường sự tương tự giữa các trường hợp có thể được lựa chọn độc lập với các thuật toán, nhưng một biện pháp thứ hai sử dụng nó để xác định cách khoảng cách giữa hai cụm tính từ khoảng cách giữa các trường hợp thành các cụm. Có 3 biện pháp cơ bản được sử dụng
đang được dịch, vui lòng đợi..