Văn bản phân loại - các ấn định tự động của văn bản ngôn ngữ tự nhiên để loại được xác định trước dựa trên nội dung của họ là một nhiệm vụ ngày càng quan trọng. Các ứng dụng của nó bao gồm các văn bản chỉ mục để hỗ trợ tài liệu tái trieval 1], giải nén dữ liệu từ văn bản 2], và giúp đỡ hu-mans trong những nhiệm vụ.
Các ngôn ngữ lập chỉ mục được sử dụng để đại diện cho văn bản ảnh hưởng như thế nào một cách dễ dàng và hiệu quả một hệ thống phân loại văn bản có thể được xây dựng, cho dù hệ thống được xây dựng bởi kỹ thuật của con người, đào tạo thống kê, hoặc kết hợp cả hai.
Các ngôn ngữ lập chỉ mục đơn giản nhất được hình thành bằng cách xử lý mỗi từ như một tính năng. Tuy nhiên, lời nói có tính chất, chẳng hạn như đồng nghĩa và đa nghĩa, mà làm cho họ một ít hơn lý tưởng ngôn ngữ lập chỉ mục. Những điều này đã thúc đẩy at-cám dỗ để sử dụng các phương pháp khai thác tính năng phức tạp hơn trong hồi văn bản và phân loại văn bản nhiệm vụ.
đang được dịch, vui lòng đợi..
