examples in a class is very small, there is a significant chance that  dịch - examples in a class is very small, there is a significant chance that  Việt làm thế nào để nói

examples in a class is very small,

examples in a class is very small, there is a significant chance that the examples will scatter around broadly. It is difficult to get a representative subset by using undersampling alone. Focusing on more informative examples may be particularly helpful in this case. Moreover, Cascade is more suitable for highly imbalanced problems. For example, in the face detection problem described in [41], there are 5000 positive examples and 2284 million negative ones. The independent random sampling strategy of Easy requires T , the number of subsets, to be very
large in order to catch all the information in N . Furthermore,
the number of subsets is hard to decide since no prior informa- tion is available. Thus, Easy is computationally infeasible for this problem. However, for Cascade, it is much easier to set the iteration number since it is reasonable to set fp rate around 0.5. Therefore, T = 20 is sufficient for the face detection problem,
since log2(2.284 × 109/5000) ≈ 19 (assuming a false positive
rate of 0.5).

E. Analysis of the Ensemble Strategy
As stated earlier, since minority class examples are used to train each weak classifier in the proposed method, stacking these classifiers may cause overfitting when the number of mi- nority class examples is limited. To verify this, the 16 data sets in Table II were used to compare stacking with the ensemble strategy used in Easy and Cascade.
The AUC values are summarized in Table XIII. Similar to the experiments in the previous section, the 16 data sets are
divided into groups based on the performance of AdaBoost. When Cascade is used on “easy” tasks, stacking is inferior to the original ensemble strategy on three out of six data sets,
while it is superior on only one data set. However, the difference between the two strategies is small. The same observation holds for Easy. On “hard” tasks, the performance of Cascade domi- nates that of stacking on all data sets. As for Easy, there is only one data set on which stacking is better. Generally speaking, there are significant differences between the performance of stacking and the current ensemble strategy used in our proposed methods.
Therefore, stacking is not very suitable for the case when minority class examples are used in each weak classifier. In
such a case, stacking may cause overfitting. This is probably a major reason for Chan to be inferior to Easy.

F. Additional Remarks
We have the following remarks regarding the results in AUC, F-measure, and G-mean on both “easy” and “hard” tasks.
1) The proposed methods EasyEnsemble and BalanceCascade are more robust than many other class-imbalance learning methods. When class imbalance is not harmful, they do not cause serious degeneration of performance. When class imbalance is indeed harmful, they are better than almost all other methods we have compared with.
2) Class imbalance is not harmful for some tasks, and ap- plying class-imbalance learning methods in such cases may lead to performance degeneration. A consequence of this observation is that class-imbalance learning methods should only be applied to tasks which suffer from class imbalance. For this purpose, we need to develop some methods to judge whether a task suffers from class im- balance or not, before applying class-imbalance learning methods to it.
3) We observed that on tasks which do not suffer from class imbalance, AdaBoost and Bagging can improve the performance of decision trees significantly, while on tasks which suffer from class imbalance, they could not help and sometimes even deteriorate the performance. This might give us some clues on judging whether a task suffers from class imbalance or not, which will be studied in the future.







0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Ví dụ trong một lớp học là rất nhỏ, có một cơ hội đáng kể các ví dụ sẽ phân tán xung quanh rộng rãi. Đó là khó khăn để có được một tập hợp con đại diện bằng cách sử dụng undersampling một mình. Tập trung vào các ví dụ về thông tin thêm có thể đặc biệt hữu ích trong trường hợp này. Hơn nữa, Cascade là phù hợp hơn cho những vấn đề rất mất cân bằng. Ví dụ, trong các vấn đề phát hiện khuôn mặt được mô tả trong [41], có những ví dụ 5000 tích cực và những người tiêu cực 2284 triệu. Chiến lược độc lập lấy mẫu ngẫu nhiên của dễ dàng yêu cầu T, số lượng các con, để rấtlớn để nắm bắt tất cả các thông tin trong N. Hơn nữa,số lượng các con rất khó để quyết định kể từ khi không có trước informa-tion có sẵn. Vì vậy, Easy là computationally infeasible cho vấn đề này. Tuy nhiên, đối với Cascade, nó là dễ dàng hơn để thiết lập số lặp đi lặp lại kể từ khi nó là hợp lý để thiết lập tỷ lệ fp quanh 0,5. Vì vậy, T = 20 là đủ cho các vấn đề phát hiện khuôn mặt,kể từ khi log2 (2.284 × 109/5000) ≈ 19 (giả định dương tính giảtỷ lệ 0,5).E. phân tích của toàn bộ chiến lượcNhư đã nêu trước đó, trong khi thiểu số lớp ví dụ được sử dụng để đào tạo mỗi loại yếu trong phương pháp được đề xuất, xếp chồng các máy phân loại có thể gây ra overfitting khi số mi - ví dụ về lớp nority được giới hạn. Để xác minh điều này, 16 bộ dữ liệu trong bảng II được sử dụng để so sánh chồng với toàn bộ chiến lược sử dụng dễ dàng và Cascade.Các giá trị AUC được tóm tắt trong bảng XIII. Tương tự như các thí nghiệm trong phần trước, bộ dữ liệu 16chia thành nhóm dựa trên hiệu suất của AdaBoost. Dùng Cascade "dễ dàng" nhiệm vụ xếp chồng là kém hơn so với các chiến lược toàn bộ bản gốc trên ba trong số sáu bộ dữ liệu,trong khi đó là cao trên chỉ có một tập dữ liệu. Tuy nhiên, sự khác biệt giữa hai chiến lược nhỏ. Các quan sát cùng giữ cho dễ dàng. Về trách nhiệm "cứng", hiệu suất của Cascade domi-nates của chồng trên tất cả dữ liệu bộ. Như cho dễ dàng, không chỉ một tập hợp các dữ liệu vào xếp chồng đó là tốt hơn. Nói chung, không có sự khác biệt đáng kể giữa hiệu suất của chồng và các chiến lược toàn bộ hiện tại được sử dụng trong các phương pháp được đề xuất.Vì vậy, xếp chồng không phải là rất thích hợp cho trường hợp khi thiểu số lớp ví dụ được sử dụng trong mỗi loại yếu. Ởtrường hợp này, chồng có thể gây ra overfitting. Điều này có lẽ là một lý do chính cho thành Long để được kém hơn để dễ dàng.F. bổ sung nhận xétChúng tôi có những nhận xét sau đây liên quan đến kết quả trong AUC, đo lường F, và G-có nghĩa là "dễ dàng" và "cứng" nhiệm vụ.1) các phương pháp được đề xuất, EasyEnsemble và BalanceCascade mạnh mẽ hơn so với nhiều khác học tập lớp sự mất cân bằng phương pháp. Khi sự mất cân bằng lớp là không có hại, họ không gây ra thoái hóa nghiêm trọng hiệu suất. Khi sự mất cân bằng lớp là thực sự có hại, họ đang tốt hơn so với hầu như tất cả các phương pháp khác, chúng tôi đã so sánh với.2) sự mất cân bằng của lớp là không gây hại cho một số nhiệm vụ, và ap-miệt mài học tập lớp sự mất cân bằng phương pháp trong trường hợp này có thể dẫn đến thoái hóa hiệu suất. Một hệ quả của quan sát này là sự mất cân bằng lớp học phương pháp nên chỉ được áp dụng cho nhiệm vụ mà bị mất cân bằng lớp. Cho mục đích này, chúng ta cần phải phát triển một số phương pháp để đánh giá liệu một nhiệm vụ bị từ lớp im-cân bằng hay không, trước khi áp dụng các phương pháp học tập lớp sự mất cân bằng nó.3) chúng tôi quan sát thấy rằng trên nhiệm vụ mà không bị mất cân bằng lớp, AdaBoost và đóng bao có thể cải thiện hiệu suất của các cây quyết định một cách đáng kể, trong khi vào công việc mà bị mất cân bằng lớp, họ có thể không giúp đỡ và đôi khi thậm chí xấu đi hiệu suất. Điều này có thể cung cấp cho chúng tôi một số đầu mối ngày xét xử cho dù một nhiệm vụ bị mất cân bằng lớp hay không, mà sẽ được nghiên cứu trong tương lai.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
ví dụ trong một lớp học là rất nhỏ, có một cơ hội quan trọng rằng các ví dụ sẽ vãi ra xung quanh một cách rộng rãi. Đó là khó khăn để có được một tập hợp con đại diện bằng cách sử dụng undersampling một mình. Tập trung vào các ví dụ thông tin mới hơn có thể đặc biệt hữu ích trong trường hợp này. Hơn nữa, Cascade là phù hợp hơn cho vấn đề rất cân bằng. Ví dụ, trong các vấn đề phát hiện khuôn mặt được mô tả trong [41], có 5000 ví dụ tích cực và 2284000000 âm. Chiến lược chọn mẫu ngẫu nhiên độc lập của Easy đòi hỏi T, số lượng các tập con, là rất
lớn để bắt tất cả các thông tin trong N. Hơn nữa,
số lượng các tập con là khó để quyết định vì không có sự informa- trước có. Do đó, dễ dàng là tính toán khả thi cho vấn đề này. Tuy nhiên, cho Cascade, nó là dễ dàng hơn nhiều để thiết lập số lần lặp lại vì nó là hợp lý để thiết lập tỷ lệ fp khoảng 0,5. Do đó, T = 20 là đủ cho vấn đề nhận diện khuôn mặt,
kể từ log2 (2,284 × 109/5000) ≈ 19 (giả sử một dương tính sai
tỷ lệ 0,5).

E. Phân tích Chiến lược Ensemble
Như đã nêu trước đó, kể từ ví dụ lớp thiểu số được sử dụng để đào tạo mỗi phân lớp yếu trong phương pháp đề xuất, xếp chồng các phân loại có thể gây overfitting khi số lượng các ví dụ lớp nority vi mô là hạn chế. Để xác minh điều này, các bộ 16 dữ liệu trong Bảng II đã được sử dụng để so sánh xếp chồng với chiến lược được sử dụng trong bộ quần áo đồng dễ dàng và Cascade.
Các giá trị AUC được tóm tắt trong Bảng XIII. Tương tự như các thí nghiệm trong các phần trước, 16 bộ dữ liệu được
chia thành các nhóm dựa trên hiệu suất của AdaBoost. Khi Cascade được sử dụng cho các nhiệm vụ "dễ dàng", xếp chồng kém hơn so với các chiến lược bộ quần áo đồng gốc trên ba trong sáu bộ dữ liệu,
trong khi nó là cấp trên chỉ có một tập hợp dữ liệu. Tuy nhiên, sự khác biệt giữa hai chiến lược là nhỏ. Các quan sát tương tự cũng cho dễ. Về nhiệm vụ "khó khăn", hiệu suất của Cascade sự thống trị mông đít đó xếp chồng trên tất cả các bộ dữ liệu. Như cho dễ dàng, chỉ có một bộ dữ liệu trên đó xếp chồng là tốt hơn. Nói chung, có sự khác biệt đáng kể giữa việc thực hiện xếp và chiến lược bộ quần áo đồng hiện tại được sử dụng trong phương pháp đề xuất của chúng tôi.
Vì vậy, xếp chồng không phải là rất thích hợp cho trường hợp khi các ví dụ lớp thiểu số được sử dụng trong mỗi phân lớp yếu. Trong
một trường hợp như vậy, xếp chồng có thể gây overfitting. Đây có lẽ là một lý do chính cho Chan là kém hơn dễ dàng.

F. Bổ sung chú thích
Chúng tôi có những nhận xét ​​sau đây về kết quả trong AUC, F-đo lường, và G-trung bình trên cả hai "dễ dàng", nhiệm vụ "khó khăn".
1) Các phương pháp đề xuất EasyEnsemble và BalanceCascade là mạnh hơn so với nhiều người khác học tập đẳng cấp mất cân bằng phương pháp. Khi lớp mất cân bằng là không độc hại, không gây thoái hóa nghiêm trọng về hiệu suất. Khi lớp mất cân bằng thực sự là có hại, chúng được tốt hơn so với hầu như tất cả các phương pháp khác mà chúng tôi đã so sánh với.
2) Lớp mất cân bằng là không gây hại cho một số nhiệm vụ, và cận miệt mài đẳng cấp mất cân bằng các phương pháp trong các trường hợp học tập có thể dẫn đến hiệu suất thoái hóa. Một hậu quả của sự quan sát này là phương pháp học tập đẳng cấp mất cân bằng chỉ nên được áp dụng cho các nhiệm vụ mà bị mất cân bằng lớp. Với mục đích này, chúng ta cần phải phát triển một số phương pháp để đánh giá liệu một nhiệm vụ bị cân bằng trọng lớp hay không, trước khi áp dụng đẳng cấp mất cân bằng các phương pháp học tập với nó.
3) Chúng tôi quan sát thấy rằng các nhiệm vụ mà không bị mất cân bằng lớp, AdaBoost và đóng gói có thể cải thiện hiệu suất của cây quyết định đáng kể, trong khi nhiệm vụ mà bị mất cân bằng lớp, họ không thể giúp đỡ và đôi khi thậm chí làm mất hiệu suất. Điều này có thể cung cấp cho chúng ta một số manh mối về đánh giá xem một công việc bị mất cân bằng lớp hay không, mà sẽ được nghiên cứu trong tương lai.







đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: