First, let us clarify how to evaluate the performance of a set of input features. In this chapter we use a very conservative form of feature set evaluation in order to avoid overfitting. This is important. Even if feature sets are evaluated by testset cross-validation or leave-one-out cTwo notes about the procedure in Figure 7-1: First, the choice of 70/30 split for training and testing is somewhat arbitrary, but is empirically a good practical ratio according to more detailed experiments. Second, note that Figure 7-1 does not describe how we search for the best feature set of size j in Step 2a. This is the subject of Section 7-3.Để đánh giá hiệu suất một tính năng lựa chọn thuật toán là phức tạp hơn để đánh giá một bộ tính năng. Điều này là do để đánh giá một thuật toán, chúng tôi đầu tiên phải yêu cầu các thuật toán để tìm tập hợp tính năng tốt nhất. Thứ hai, để cung cấp cho một ước tính công bằng của các thuật toán tính năng lựa chọn thực hiện tốt như thế nào, chúng ta nên thử bước đầu tiên trên datasets khác nhau. Do đó, đầy đủ của các thủ tục đánh giá hiệu suất của một tính năng lựa chọn thuật toán, được mô tả trong hình 7-2, có hai lớp vòng. Vòng lặp bên trong là sử dụng một thuật toán để tìm tập hợp con tốt nhất của tính năng. Vòng ngoài là để đánh giá hiệu suất của các thuật toán sử dụng xác nhận khác nhau datasets.ross, một tìm kiếm đầy đủ của bộ tính năng có thể có khả năng để tìm một thoảng cũng ghi tính năng thiết lập bởi cơ hội. Để ngăn chặn điều này, chúng tôi sử dụng các thủ tục xác nhận đường ghép tầng trong hình 7-1, mà chọn từ bộ ngày càng lớn của tính năng (và vì thế ngày càng lớn mô hình học). Số điểm cho bộ tính năng tốt nhất của một kích thước nhất định được tính bởi một đường xác nhận độc lập từ các điểm kích thước tốt nhất của tính năng thiết lập.
đang được dịch, vui lòng đợi..