Khi cụm các thư điện tử, lĩnh vực phong bì và nội dung thư phải được đưa vào tài khoản. Do đó một số số liệu cho lĩnh vực phong bì phải được kết hợp với số liệu của tài liệu cụm các thành phần để có được hàm khoảng cách cuối cùng sử dụng kết hợp, như được diễn tả trong phần trước.3.2.5 các tài liệu clusteringTài liệu kết cụm nhằm mục đích nhóm các tài liệu tương tự dựa trên phân tích các văn bản của họ. Nó là một lĩnh vực khai thác mỏ văn bản, có nhiều khái niệm từ thông tin tra cứu và thống kê. Tồn tại nhiều cách tiếp cận để xác định sự tương tự giữa các văn bản, nhưng quá trình này có thường có hai phần: tài liệu xử lý và sự tương tự tính toán. Tài liệu chế biến mất diễn ra lúc bắt đầu của văn bản clustering quá trình và có thể được chia thành một vài bước:•Phân hủy các văn bản duy nhất thẻ - trong hầu hết trường hợp từ. Áp dụng tiền xử lý từ, chẳng hạn như việc ngăn chặn, trường hợp chuyển đổi hoặc dừng từ loại trừ. Preprocessed từ bây giờ được coi là điều khoản.•Phân tích các điều khoản trong bối cảnh của tài liệu mà họ đã được chiết xuất từ và tính toán giá trị cần thiết để xác định mức độ phù hợp của thuật ngữ điểm sau đó. Mức độ liên quan điểm không phải là thường tính trong quá trình xử lý tài liệu, như các tham số công thức thay đổi khi các tài liệu khác được tập trung. Vì vậy, nó là thích hợp hơn để lưu trữ các giá trị trung gian có liên quan chỉ cho tài liệu này.•Cập Nhật giá trị toàn cầu liên quan đến mỗi thời hạn xử lý trong các tài liệu phân tích. Khi các cụm chính nó diễn ra, cặp khôn ngoan tài liệu tương tự đang được tính toán. Lý tưởng nhất, trong quá trình tính toán này tài liệu văn bản không được xử lý, như tất cả thông tin cần thiết - các điều khoản có chứa các tài liệu liên kết với các giá trị cần thiết để tính toán mức độ phù hợp của nhiệm kỳ - đã được biết đến từ phân tích các tài liệu ban đầu. Tài liệu tương tự tính toán iterates thông qua các điều khoản của tài liệu, xác định một mức độ liên quan được ghi cho mỗi nhiệm kỳ và sử dụng các biện pháp được chọn để tính toán các giá trị tương tự từ tất cả cụm từ scorings từ cả hai tài liệu. Ở phần sau, chúng tôi sẽ mô tả các bộ phận có liên quan của quá trình này chi tiết hơn
đang được dịch, vui lòng đợi..
