4.2 thưĐể có thể làm việc với email và trích xuất nội dung của các khuôn khổ phải có khả năng phân tích họ. Mặc dù các chức năng cơ bản để làm như vậy là tương đối dễ dàng để thực hiện một thư viện đầy đủ, thuận tiện mà sẽ cung cấp cho tất cả các chức năng cần thiết là một thời gian dài effort. Rất may, khi tích hợp, khuôn khổ có thể làm cho việc sử dụng các thư viện được sử dụng trong eM khách hàng làm việc với thư điện tử. Cho mục đích thử nghiệm thư viện này có thể được sử dụng độc lập với eM khách hàng.4.3 dữ liệu ví dụ tính năngCác tính năng được sử dụng như một cơ sở cho việc tính toán khoảng cách là như nhau, nếu không phải cao hơn, tầm quan trọng, như là các thuật toán kết cụm chính nó. Số lượng lớn các tính năng có thể được tạo ra từ các thuộc tính thư email. Trong phân tích của những gì là quan trọng khi quyết định các mục thảo luận về chủ đề này, nhiều sự lựa chọn rõ ràng đã đưa ra. Chúng tôi cũng đã rút ra từ nghiên cứu khác, chủ yếu là công việc của Cselle [3]. Mỗi người trong số các thuộc tính cũng có các phương pháp cụ thể so sánh và tính toán giá trị số khoảng cách. Chúng tôi đưa ra các tính toán của mỗi tính năng để thể hiện sự tương đồng về khoảng thời gian từ 0 đến 1. Tính năng sau đây tham gia trong các tính toán khoảng cách:•Hầu hết các khách hàng email thêm tiêu đề cho thông báo duy nhất identification và cho các mục mà trả lời một tiêu đề có chứa identification chuỗi thư được trả lời. Tiêu đề nhận dạng độc đáo này được đặt tênId thông báovà các tiêu đề trong trả lời tin nhắnTrong-lời-cho. Giá trị của các tiêu đề đã không có ý nghĩa cụ thể và thường ngẫu nhiên được tạo ra. Sử dụng duy nhất của nó là operand trong chuỗi so sánh để xác định nếu bài viết có liên quan. Nó là có thể xảy ra liên quan đến tin nhắn sẽ thảo luận về các chủ đề tương tự. Giá trị số tính năng từ các thuộc tính là 1 nếu một thư trả lời khác (hoặc ngược lại) và 0 nếu không có mối quan hệ giữa các tin nhắn.•Dựa trên các tiêu đề tương tự như ở trên, chúng tôi kiểm tra cho dù hai thư trả lời các email tương tự. Điều này sẽ là một trường hợp điển hình khi nhiều người dùng được thảo luận về một chủ đề. Khi các thư chia sẻ trong-lời-cho giá trị, tính năng này là 1, nếu không nó là 0.•Người gửi cũng mang một giá trị thông tin. Nó được lưu trữ trongTừtiêu đề của email. Khi người gửi thư so sánh là giống hệt nhau tính năng này là 1.•Nhận bộ (xuất hiện trong tiêu đề quấnĐể) email thư được so sánh để xác định có bao nhiêu người nhận email chia sẻ. Kích thước của các thiết lập giao nhau liên quan đến kích thước của công đoàn của cả hai bộ nhận được tính.•Mỗi email cũng có một ngày nguyên trong tiêu đềNgày. Email liên quan đến cùng một chủ đề thường sẽ gần nhau trên một dòng thời gian. Chúng tôi đã quyết định để bình thường hóa cho một khoảng thời gian hai tháng thời gian, khoảng cách. Các tính năng giá trị tính toán tính thời gian difference trong giờ chia cho tổng số giờ trong 2 tháng và thực hiện bình thường hoá và đảo ngược, do đó giá trị là 1 đại diện cho hàng không khác nhau trong thời gian và các mặt hàng giá trị 0 thêm đi hơn 1 tháng.
đang được dịch, vui lòng đợi..