nơi
t
ij
là số lần xuất hiện của hạn
i
trong tài liệu
j
,
m
t
mj
là tổng allterms trong tài liệu
j
,
|
D
|
là số tài liệu trong tập hợp và
m
i
là số tài liệu, nơi hạn
i
appears.As có thể được nhìn thấy từ công thức, điểm số tăng lên khi thời hạn là thường xuyên trong vòng thedocument, nhưng giảm với số lượng tài liệu nó hiện diện trong. biện pháp này đã được chứng minh hasbeen để cung cấp sản lượng đạt yêu cầu và chúng tôi đã quyết định sử dụng nó trong của chúng tôi clusteringframework.
3.2.5.3 Cosine đo
Một số tùy chỉnh là cần thiết để tính toán giống nhau của hai tài liệu dựa trên relevancescores hạn. Các số liệu phải trung hòa các số từ ngữ các tài liệu chứa và nó shouldbe bình thường vào de fi khoảng ned. Cosine Đo là một biện pháp thường xuyên được lựa chọn sử dụng
với biện pháp TF-IDF. Đối với giống nhau của tài liệu
j
và
k
bằng cách tổng hợp điểm số hạn, nó hasfollowing hình thức:
đang được dịch, vui lòng đợi..
