nơi
t
ij
là số lần xuất hiện của hạn
i
trong tài liệu
j
,
m
t
mj
là tổng của tất cả các điều khoản trong tài liệu
j
,
|
D
|
là số tài liệu trong tập hợp và
m
i
là số tài liệu, nơi hạn
i
appears.As có thể được nhìn thấy từ công thức, số điểm tăng lên khi thời hạn là thường xuyên trong các tài liệu, nhưng giảm với số lượng tài liệu nó hiện diện trong. biện pháp này đã được chứng minh để cung cấp sản lượng đạt yêu cầu và chúng tôi đã quyết định sử dụng nó trong khung làm việc phân nhóm của chúng tôi.
3.2.5.3 Cosine đo
Một số tùy chỉnh là cần thiết để tính toán giống nhau của hai tài liệu dựa trên relevances hạn lõi. Các số liệu phải trung hòa các số từ ngữ các tài liệu chứa và nó nên được bình thường vào khoảng ned de fi. Cosine Đo là một biện pháp thường xuyên được lựa chọn sử dụng
với biện pháp TF-IDF. Đối với giống nhau của tài liệu
j
và
k
bằng cách tổng hợp điểm số hạn, nó đã theo mẫu:
đang được dịch, vui lòng đợi..