3.2.5.1 tokenizationTokenization là một quá trình chia tách một chuỗi ký tự vào thẻ dựa trên ngữ pháp từ vựng predefined. Trong trường hợp tài liệu clustering một ngữ pháp đơn giản xác định một mã thông báo bao gồm các chữ cái và tách biệt nhau bởi một nhân vật thư có thể được đầy đủ.3.2.5.2 hạn xếp hạng và lực lượng đặc nhiệm-IDFMô tả mỗi thuật ngữ cần phải có một mức độ liên quan ghi được sử dụng trong tính toán tương tự. Có sau đây là lý do yêu cầu ghi như vậy để tồn tại và công thức được sử dụng để tính toán các điểm có đến địa chỉ:•Tài liệu khác nhau về chiều dài. Thậm chí nếu một trong những tài liệu có thêm các sự kiện của cụm từ hơn so với tài liệu khác, nó không có nghĩa là nó có nhiều liên quan đến cụm từ. Documentmay chính chỉ là một vài lần nữa và nó thậm chí có thể đối phó với chủ đề hoàn toàn không liên quan. Do đó các thuật ngữ số lần xuất hiện phải được đặt trong mối quan hệ với các tài liệu slength.•Điều khoản cá nhân rất khác nhau về tầm quan trọng của họ. Một số từ là rất thường xuyên và có thể được tìm thấy trong phần lớn của một tập hợp tài liệu, trong khi những người khác có ý nghĩa rất cụ thể và xuất hiện chỉ trong vài tài liệu. Một thực tế rằng hai tài liệu chia sẻ aspecific, thuật ngữ không thường xuyên có do đó là nhiều trọng lượng hơn hơn nếu họ chia sẻ một thuật ngữ đó có thể được tìm thấy trong hầu hết các tài liệu khác. Do đó một khái niệm về sự liên quan toàn cầu của một thuật ngữ phải được duy trì và sử dụng một cách thích hợp trong các tính toán tương tự. Cả hai người trong số những vấn đề được đề cập trong một thuật ngữ phổ biến, xếp hạng các biện pháp đặt tên là "lực lượng đặc nhiệm-IDF" (thuật ngữ tần số - nghịch đảo tài liệu tần số). Nó là một sản phẩm của tần số của thuật ngữ với trong một tài liệu và một tần số nghịch đảo của một thuật ngữ hiện diện trong tất cả các tài liệu. Lực lượng đặc nhiệm-IDF giá trị
đang được dịch, vui lòng đợi..