Đầu tiên, chúng ta hãy làm rõ làm thế nào để đánh giá hiệu suất của một tập hợp các tính năng đầu vào. Trong chương này chúng tôi sử dụng một hình thức rất bảo thủ của việc đánh giá tính năng thiết lập để tránh overfitting. Điều này là quan trọng. Ngay cả khi bộ tính năng được đánh giá bởi testset cross-validation hoặc để lại-một-ra cTwo ghi chú về các thủ tục trong Hình 7-1: Đầu tiên, sự lựa chọn của 70/30 chia cho đào tạo và thử nghiệm là một việc khó, nhưng là theo kinh nghiệm tốt tỷ lệ thực tế theo các thí nghiệm chi tiết hơn. Thứ hai, lưu ý rằng hình 7-1 không mô tả cách chúng tôi tìm kiếm các tính năng thiết lập tốt nhất của kích thước j trong Bước 2a. Đây là chủ đề của mục 7-3.
Để đánh giá hiệu quả một tính năng lựa chọn thuật toán phức tạp hơn để đánh giá một bộ tính năng. Điều này là bởi vì để đánh giá một thuật toán, trước tiên chúng ta phải hỏi các thuật toán để tìm tính năng tập hợp con tốt nhất. Thứ hai, để cung cấp cho một ước tính hợp lý của các thuật toán như thế nào lựa chọn tính năng thực hiện, chúng ta nên cố gắng bước đầu tiên trên dữ liệu khác nhau. Do đó, các thủ tục đầy đủ để đánh giá tính hiệu quả của một thuật toán lựa chọn tính năng, được mô tả trong Hình 7-2, có hai lớp của các vòng. Các vòng trong là sử dụng một thuật toán để tìm các tập con tốt nhất các tính năng. Các vòng ngoài là để đánh giá hiệu suất của thuật toán sử dụng xác nhận datasets.ross khác nhau, tìm kiếm toàn diện có thể tính năng bộ là khả năng tìm thấy một cách sai lạc cũng ghi tính năng thiết lập bởi cơ hội. Để ngăn chặn điều này, chúng tôi sử dụng các thủ tục qua xác nhận phân tầng ở Hình 7-1, trong đó lựa chọn từ bộ ngày càng lớn các tính năng (và do đó từ lớp mô hình ngày càng lớn). Điểm số cho tính năng thiết lập tốt nhất của một kích thước nhất định được tính bằng một cross-validation độc lập với tỷ số cho kích thước tốt nhất của tính năng thiết lập.
đang được dịch, vui lòng đợi..