Thành tích xuất sắc của DF, IG và CHÍ chỉ ra rằng thuật ngữ phổ biến là thông tin thực sự cho các nhiệm vụ phân loại văn bản. Nếu một lượng đáng kể các thông tin đã bị mất ở mức cao (ví dụ 98%) giảm từ vựng nó sẽ không được có thể cho kNN hoặc LLSF đã được cải thiện phân loại preformance. Để được chính xác hơn, trong lý thuyết, IG đo lường số lượng bit của thông tin thu được bằng cách biết sự hiện diện hay vắng mặt của một thuật ngữ trong tài liệu. Các mối tương quan DF-IF mạnh mẽ có nghĩa là thuật ngữ phổ biến thường thông tin, và ngược lại (chính khách này t tất nhiên không mở rộng để ngăn chặn từ). Điều này là trái với một niềm tin được tổ chức rộng rãi trong thông tin thu hồi mà thuật ngữ phổ biến là không chứa thông tin. Experimen ts của chúng tôi cho rằng giả định này có thể không áp dụng cho phân loại văn bản.
đang được dịch, vui lòng đợi..
