Chúng tôi phát hiện rằng điểm số DF, IG và chí của một thuật ngữ đặc biệt tương quan, tiết lộ một thực tế trước đây không rõ về tầm quan trọng của các thuật ngữ phổ biến trong phân loại văn bản. Điều này cho thấy rằng thresholding DF đó không phải là chỉ là một cách tiếp cận lâm thời nhằm e ciency (như nó đã được giả định trong các tài liệu văn bản phân loại và thu hồi), nhưng một biện pháp đáng tin cậy cho các tính năng thông tin seleting. Nó có thể được sử dụng thay vì IG hoặc chí khi tính toán (bậc hai) của những biện pháp này là quá đắt. Sự sẵn có của một đơn giản nhưng hiệu quả có nghĩa là cho aggressiv e tính năng space giảm có thể signi cantly dễ dàng áp dụng mạnh mẽ hơn và computationally chuyên sâu học phương pháp, chẳng hạn như thần kinh lưới công trình, vấn đề phân loại văn bản rất lớn được bằng cách khác trong nhiều.
đang được dịch, vui lòng đợi..