ví dụ trong một lớp học là rất nhỏ, có một cơ hội quan trọng rằng các ví dụ sẽ vãi ra xung quanh một cách rộng rãi. Đó là khó khăn để có được một tập hợp con đại diện bằng cách sử dụng undersampling một mình. Tập trung vào các ví dụ thông tin mới hơn có thể đặc biệt hữu ích trong trường hợp này. Hơn nữa, Cascade là phù hợp hơn cho vấn đề rất cân bằng. Ví dụ, trong các vấn đề phát hiện khuôn mặt được mô tả trong [41], có 5000 ví dụ tích cực và 2284000000 âm. Chiến lược chọn mẫu ngẫu nhiên độc lập của Easy đòi hỏi T, số lượng các tập con, là rất
lớn để bắt tất cả các thông tin trong N. Hơn nữa,
số lượng các tập con là khó để quyết định vì không có sự informa- trước có. Do đó, dễ dàng là tính toán khả thi cho vấn đề này. Tuy nhiên, cho Cascade, nó là dễ dàng hơn nhiều để thiết lập số lần lặp lại vì nó là hợp lý để thiết lập tỷ lệ fp khoảng 0,5. Do đó, T = 20 là đủ cho vấn đề nhận diện khuôn mặt,
kể từ log2 (2,284 × 109/5000) ≈ 19 (giả sử một dương tính sai
tỷ lệ 0,5).
E. Phân tích Chiến lược Ensemble
Như đã nêu trước đó, kể từ ví dụ lớp thiểu số được sử dụng để đào tạo mỗi phân lớp yếu trong phương pháp đề xuất, xếp chồng các phân loại có thể gây overfitting khi số lượng các ví dụ lớp nority vi mô là hạn chế. Để xác minh điều này, các bộ 16 dữ liệu trong Bảng II đã được sử dụng để so sánh xếp chồng với chiến lược được sử dụng trong bộ quần áo đồng dễ dàng và Cascade.
Các giá trị AUC được tóm tắt trong Bảng XIII. Tương tự như các thí nghiệm trong các phần trước, 16 bộ dữ liệu được
chia thành các nhóm dựa trên hiệu suất của AdaBoost. Khi Cascade được sử dụng cho các nhiệm vụ "dễ dàng", xếp chồng kém hơn so với các chiến lược bộ quần áo đồng gốc trên ba trong sáu bộ dữ liệu,
trong khi nó là cấp trên chỉ có một tập hợp dữ liệu. Tuy nhiên, sự khác biệt giữa hai chiến lược là nhỏ. Các quan sát tương tự cũng cho dễ. Về nhiệm vụ "khó khăn", hiệu suất của Cascade sự thống trị mông đít đó xếp chồng trên tất cả các bộ dữ liệu. Như cho dễ dàng, chỉ có một bộ dữ liệu trên đó xếp chồng là tốt hơn. Nói chung, có sự khác biệt đáng kể giữa việc thực hiện xếp và chiến lược bộ quần áo đồng hiện tại được sử dụng trong phương pháp đề xuất của chúng tôi.
Vì vậy, xếp chồng không phải là rất thích hợp cho trường hợp khi các ví dụ lớp thiểu số được sử dụng trong mỗi phân lớp yếu. Trong
một trường hợp như vậy, xếp chồng có thể gây overfitting. Đây có lẽ là một lý do chính cho Chan là kém hơn dễ dàng.
F. Bổ sung chú thích
Chúng tôi có những nhận xét sau đây về kết quả trong AUC, F-đo lường, và G-trung bình trên cả hai "dễ dàng", nhiệm vụ "khó khăn".
1) Các phương pháp đề xuất EasyEnsemble và BalanceCascade là mạnh hơn so với nhiều người khác học tập đẳng cấp mất cân bằng phương pháp. Khi lớp mất cân bằng là không độc hại, không gây thoái hóa nghiêm trọng về hiệu suất. Khi lớp mất cân bằng thực sự là có hại, chúng được tốt hơn so với hầu như tất cả các phương pháp khác mà chúng tôi đã so sánh với.
2) Lớp mất cân bằng là không gây hại cho một số nhiệm vụ, và cận miệt mài đẳng cấp mất cân bằng các phương pháp trong các trường hợp học tập có thể dẫn đến hiệu suất thoái hóa. Một hậu quả của sự quan sát này là phương pháp học tập đẳng cấp mất cân bằng chỉ nên được áp dụng cho các nhiệm vụ mà bị mất cân bằng lớp. Với mục đích này, chúng ta cần phải phát triển một số phương pháp để đánh giá liệu một nhiệm vụ bị cân bằng trọng lớp hay không, trước khi áp dụng đẳng cấp mất cân bằng các phương pháp học tập với nó.
3) Chúng tôi quan sát thấy rằng các nhiệm vụ mà không bị mất cân bằng lớp, AdaBoost và đóng gói có thể cải thiện hiệu suất của cây quyết định đáng kể, trong khi nhiệm vụ mà bị mất cân bằng lớp, họ không thể giúp đỡ và đôi khi thậm chí làm mất hiệu suất. Điều này có thể cung cấp cho chúng ta một số manh mối về đánh giá xem một công việc bị mất cân bằng lớp hay không, mà sẽ được nghiên cứu trong tương lai.
đang được dịch, vui lòng đợi..