Như chúng ta thấy trong Bảng 7-2, FS không loại bỏ tính năng vô dụng hơn các đối thủ cạnh tranh tham lam hơn, ngoại trừ một siêu tham lam. Tuy nhiên, sự tham lam hơn một thuật toán, dễ dàng hơn nó được nhầm lẫn bởi các tính năng liên quan, nhưng bị hỏng.
Kể từ khi tính năng đầu vào có thể phụ thuộc lẫn nhau, các thuật toán khác nhau có thể tìm thấy bộ tính năng khác nhau. Để đo lường sự tốt lành của các bộ tính năng lựa chọn, chúng tôi tính toán số điểm 20 lần bình. Như đã mô tả trong phần 7-2, điểm của chúng tôi được thiết kế một cách cẩn thận để tránh overfitting, vì vậy mà nhỏ hơn điểm số, thì tốt hơn các tính năng thiết lập tương ứng là. Để khẳng định sự nhất quán, chúng tôi kiểm tra bốn thuật toán trong tất cả các lĩnh vực từ mười hai StatLib và UCI. Đối với từng lĩnh vực, chúng tôi áp dụng các thuật toán để hai tập dữ liệu. Cả hai bộ dữ liệu đang được tạo ra dựa trên cùng một tập tin dữ liệu thô, nhưng với số lượng khác nhau của các tính năng hỏng và tiếng ồn độc lập.
Và đối với mỗi bộ dữ liệu, chúng tôi cố gắng ba xấp xỉ hàm, láng giềng gần nhất (gần), tại địa phương trọng hồi quy tuyến tính (LocLin) và hồi quy tuyến tính toàn cầu (GlbLin). Vì lợi ích của súc tích, chúng ta chỉ có danh sách các tỷ lệ. Nếu một tỷ lệ gần 1.0, hiệu suất của thuật toán tương ứng là không khác nhau đáng kể từ đó của FS. Kết quả thí nghiệm được trình bày trong Bảng 7-3. Ngoài ra, chúng tôi cũng cung các tỷ lệ của số giây được tiêu thụ bởi các thuật toán tham lam như của FS.
đang được dịch, vui lòng đợi..