Khó khăn chính của bộ dữ liệu mất cân bằng là một tiêu chuẩn phân loại fi er có thể bỏ qua tầm quan trọng của lớp thiểu số vì đại diện của mình trong các tập dữ liệu là không đủ mạnh và phân loại được thiên vị về phía lớp học đa số hoặc, nói cách khác, nó được định hướng để đạt được một tốt tổng độ chính xác phân loại. Do đó, các ví dụ thuộc về lớp thiểu số được phân loại sai thường xuyên hơn so với những người thuộc tầng lớp đa số [27].
Đây là loại dữ liệu có thể được phân loại tùy thuộc vào tỷ lệ của nó mất cân bằng (IR) [15], đó là định nghĩa là mối quan hệ giữa các lớp lớn và lớp thiểu số ví dụ, bởi biểu thức
đang được dịch, vui lòng đợi..