3.2 clusteringCụm là một chi nhánh của kỷ luật khai thác mỏ dữ liệu nhằm mục đích nhóm các dữ liệu tương tự như trường hợp với nhau thành bộ gọi là cụm. Để có thể đưa ra một quá trình kết cụm phù hợp, chúng ta cần đến tổng quan kiến thức sẵn có liên quan sẽ được cần thiết. Xem của chúng tôi về kỹ thuật phải cũng phản ánh chi tiết cụ thể của dữ liệu và môi trường chúng tôi là về để nhúng các công nghệ trong. Cụm các thông điệp email có thể được hiểu như là một trường hợp đặc biệt của tài liệu cụm với rất nhiều siêu dữ liệu bổ sung, tham gia vào quá trình kết cụm. Có là cũng là các chi tiết cụ thể như các bản chất trực tuyến của các cụm, thực tế là kết quả mục tiêu một số lượng lớn các cụm tương đối nhỏ với các nhu cầu để liên tục phát hiện những cái mới và sự cần thiết cho các hoạt động không có giám sát của các thuật toán. Ở phần sau, chúng tôi sẽ mô tả thuật toán, đại diện dữ liệu, khoảng cách chức năng và nguyên tắc khai thác kiến thức liên quan đến vấn đề của chúng tôi. Cho mỗi liên kết trong chuỗi kết cụm, chúng tôi cũng sẽ phân tích những gì các tính năng và khả năng nó cần phải có trong việc thực hiện của chúng tôi và tại sao.3.2.1 các thuật toánĐã là rất nhiều các thuật toán clustering và mới những người đang liên tục được nghĩ ra. Điều này chủ yếu là vì mỗi quấn có cụ thể các tính năng tùy chỉnh các thuật toán có thể tận dụng lợi thế. Cho các nhiệm vụ kết cụm của chúng tôi, chúng tôi đã nghiên cứu các một số phổ biến và tương đối linh hoạt kết cụm thuật toán như chúng được biết đến để thực hiện khá tốt trên tài liệu clustering nhiệm vụ và một số người trong số họ có thuận lợi các tính năng có thể địa chỉ một số nhu cầu của chúng tôi. Chúng tôi sẽ mô tả những thuật toán bao gồm cả lợi thế hay bất lợi và nhà nước của họ cho dù chúng tôi đã chọn thuật toán cho dự án của chúng tôi
đang được dịch, vui lòng đợi..