các thuật toán phân nhóm để xử lý. Các chức năng khoảng cách xa hơn qua các trường hợp mới cho thành phần phân tích văn bản phụ. Khi một thuật toán phân nhóm gọi hàm từ xa, tương tự tính năng mục tử được chọn sẽ được đánh giá và cũng là một email văn bản cơ thể giống nhau được tính toán. Những vài điểm sau đó được sáp nhập vào một giá trị khoảng cách đó được trả lại cho các thuật toán clustering. Văn bản phân tích tiểu hợp phần xử lý văn bản email cơ thể của các trường hợp mới và cập nhật nó là cấu trúc dữ liệu nội bộ lưu trữ phù hợp của những từ riêng lẻ. Khi một hàm khoảng cách được yêu cầu tính toán tương tự, phân tích văn bản thực hiện so sánh sự giống nhau của hai tử trường hợp văn bản và tính toán điểm số văn bản tương tự sử dụng công thức phân nhóm văn bản được biết đến.
Cấu trúc dữ liệu 3.1.3
Chuyên cấu trúc dữ liệu là cần thiết để lưu trữ tất cả các dữ liệu được sử dụng trong toàn bộ quá trình phân nhóm. Ngoại trừ danh sách đơn giản sử dụng để lưu trữ các cụm hiện và dụ dữ liệu, từ điển được sử dụng để tính toán trước khi phân tích dữ liệu văn bản và từ điển hai chiều được sử dụng cho các giá trị khoảng cách giữa các trường hợp cửa hàng và từng nhóm. Mặc dù danh sách và từ điển một chiều tồn tại trong môi trường mục tiêu cho các hoạt động trong bộ nhớ, họ đã phải được thực hiện như các lớp trên một cơ sở dữ liệu quan hệ sử dụng để tồn tại dữ liệu. Hai chiều từ điển đã được thực hiện cho cả hai, trong bộ nhớ và hoạt động cơ sở dữ liệu. Khi các cấu trúc dữ liệu được sử dụng rất nhiều trong quá trình phân nhóm, họ cần phải được tối ưu hóa cao cũng như các CSDL phía dưới
đang được dịch, vui lòng đợi..
