Kể từ khi phân phối dữ liệu không được biết đến, kỹ thuật khác nhau có thể được sử dụng để đánh giá các tập con khác nhau với một loại được chọn. Bài kiểm tra thống kê khác tìm thấy trong văn học có thể được sử dụng cho tính năng xếp hạng. Trong [13] mười hai tính năng lựa chọn số liệu được coi là cho vấn đề phân loại văn bản [1,13,18]. Tất cả các tính năng được xếp hạng bằng cách sử dụng số liệu mỗi và một ngưỡng được thiết lập mà sẽ chọn 100 từ mà sau đó được áp dụng cho dự báo. Phương pháp tiếp cận bộ lọc được áp dụng cho các ứng dụng có thể được tìm thấy trong [19-21,18,5]. Các so sánh trước đó để phân loại văn bản bằng cách sử dụng phương pháp xếp hạng có thể được tìm thấy trong [22]. [23,24] các tác giả phát triển một tiêu chí xếp hạng dựa trên lớp mật độ cho dữ liệu nhị phân. Một thuật toán hai giai đoạn sử dụng một phương pháp lọc ít tốn kém để xếp hạng các tính năng và một phương pháp đắt tiền wrapper để tiếp tục loại bỏ các biến không liên quan được sử dụng.Thuật toán cứu trợ [25,26] là một bộ lọc dựa trên phương pháp tiếp cận mà trong đó một tiêu chí mức độ phù hợp tính năng được sử dụng để xếp hạng các tính năng. Bằng cách sử dụng một ngưỡng một tập hợp con của tính năng được chọn. Nhược điểm của các thuật toán cứu trợ là trong việc lựa chọn một ngưỡng.Các tác giả trong [26] so sánh sự cứu trợ và các phương pháp khác của wrapper cho datasets khác nhau. Trong [19] biến bị loại bỏ được sử dụng để thực hiện multitask học (MTL). [27] một biến ngẫu nhiên được gọi là thăm dò được sử dụng để xếp hạng các tính năng sử dụng gam-Schmidt orthogonalization.
đang được dịch, vui lòng đợi..
