Bài viết này đề xuất một cách tiếp cận mới đối với văn bản
phân loại, dựa trên một chiếu tính năng
kỹ thuật. Trong cách tiếp cận của chúng tôi, dữ liệu huấn luyện được
đại diện là các dự báo về đào
tạo, tài liệu về mỗi tính năng. Việc biểu quyết cho một
phân loại được xử lý trên cơ sở
dự báo tính năng cá nhân. Các thức
phân loại các tài liệu kiểm tra được
xác định bởi một biểu quyết đa số từ các
phân loại riêng biệt của mỗi tính năng.
Kết quả thực nghiệm của chúng tôi cho thấy rằng các đề xuất
cách tiếp cận, Text Phân loại sử dụng tính năng
dự (TCFP), nhanh hơn so với k-NN,
Rocchio, và Naïve Bayes. Hầu hết tất cả,
TCFP là nhanh hơn so với khoảng một trăm lần
k-NN. Vì thuật toán TCFP là rất đơn giản,
quá trình thực hiện và đào tạo của nó có thể
được thực hiện rất dễ dàng. Đối với những lý do này,
TCFP có thể là một phân loại hữu ích trong các lĩnh vực,
trong đó cần có một văn bản nhanh chóng và hiệu suất cao
công tác phân loại
đang được dịch, vui lòng đợi..
