Chủ đề tương tự là một tính năng rất quan trọng. Đối tượng của cả hai thư là tokenizedand số thẻ hiện diện ở cả hai đối tượng chia cho tổng số thẻ trong cả hai văn bản.•Các tính năng cuối cùng, quan trọng nhất, là sự giống nhau của văn bản. Hàm khoảng cách của chúng tôi lấy sự giống nhau của văn bản từ thành phần phân tích văn bản, được mô tả sau này trong phần sau đây. Giá trị bình thường trên đoạn 0 đến 1. Listed tính năng được kết hợp trong một hàm khoảng cách như được mô tả insection 4,5.4.4 phân tích văn bảnThực hiện một phân tích văn bản chất lượng và tính toán tương tự sau đó sẽ mang lại lợi ích cao nhất thông tin giá trị của hàm khoảng cách. Các văn bản phân tích thành phần hoạt động có thể được chia thành tokenization, thuật ngữ tương tự và xếp hạng tính toán như mô tả trong tiểu mục 3.2.5.Tokenization trong khuôn khổ của chúng tôi chỉ đơn giản là chia tách từ cách nhau bằng bất kỳ ký tự thư. Biểu thức thông thường được sử dụng để đạt điều này và mặc dù không cần thiết, điều này sẽ cho phép để cải thiện tokenizer trong tương lai. Các biểu hiện thường xuyên được sử dụng là ")S +)s". Trước khi mô tả hai bước, nó là cần thiết để cấu trúc dữ liệu danh sách sử dụng các bước sau:•Điều khoảnlà một từ điển thuật ngữ tất cả trong tất cả các tài liệu, mỗi thuật ngữ có giá trị liên quan đến xác định trong các tài liệu có bao nhiêu là một thuật ngữ hiện nay. Cấu trúc này được cập nhật khi trở lại trường hợp đang được xử lý bởi hàm khoảng cách. Giá trị tính phổ biến được sử dụng khi tính toán coefficient của IDF.•Lưu trữ IDF stừ điển được sử dụng để bộ nhớ cache Inverse tài liệu tần số giá trị của các điều khoản để tránh tính toán họ mỗi khi một tài liệu tương tự là đang được tính toán.•Tài liệucũng là một từ điển, điều này có chứa thông tin về thuật ngữ tần số của các điều khoản được chứa trong một trường hợp dữ liệu - tài liệu. Mỗi tài liệu có một từ điển liên kết-Thuật ngữ TFsCác điều khoản trong tài liệu đó. Từ điển lồng này cửa hàng một giá trị tần số hạn cho mỗi cụm từ. Thứ hạng thuật ngữ iterates qua tất cả giá trị trả lại từ tokenization và cập nhật các mục cần thiết trong các cấu trúc. Từ điển thuật ngữ kiểm tra cho sự hiện diện của thuật ngữ-nếu nó là hiện nay xuất hiện tính incremented, thuật ngữ khác được thêm vào với giá trị là 1. Giá trị IDF ẩn cho cụm từ phải được Cập Nhật trong cache IDF s để phản ánh các giá trị phổ biến đã thay đổi. Lần cập nhật mới mối quan tâm tài liệu nơi mục tài liệu mới phải được thêm và mọi hạn chế biến chèn vào bên trong từ điển. Có thể nhìn thấy từ các cấu trúc dữ liệu được sử dụng, lực lượng đặc nhiệm-IDF điểm cuối cùng là không lưu trữ bất kỳ ở đâu. Điều này là bởi vì một bổ sung tài liệu mới sẽ cần phải tính toán lại số điểm cho mỗi cụm từ chứa trong mỗi tài liệu có chứa các thuật ngữ tương tự sẽ đánh giá cao
đang được dịch, vui lòng đợi..