The Bayesian principle provides a powerful and formal
means of dealing with statistical inference in data processing,
such as classifications [1]. If classifiers are designed based
on this principle, they are called “Bayesian classifiers” in this
work. The learning targets for Bayesian classifiers are either
the minimum error or the lowest cost. It was recognized that
Chow [2][3] was “among the earliest to use Bayesian decision
theory for pattern recognition” [4]. His pioneering work is so
enlightening that its idea of optimal tradeoff between error and
reject still sheds a bright light for us to deep our understanding
to the subject, as well as to explore its applications widely in
this information-explosion era. In recent years, cost sensitive
learning and class-imbalanced learning have received much
attentions in various applications [12-18]. For classifications
of imbalanced, or skewed, datasets, “the ratio of the small to
the large classes can be drastic such as 1 to 100, 1 to 1,000, or
1 to 10,000 (and sometimes even more)” [16]. It was pointed
out by Yang and Wu [19] that dealing with imbalanced and
cost-sensitive data is among the ten most challenging problems
in the study of data mining. In fact, the related subjects are not
a new challenge but a more crucial concern than before for
increasing needs of searching useful information from massive
data. Binary classifications will be a basic problem in such
application background. Classifications based on cost
Nguyên lý Bayes cung cấp một mạnh mẽ và chính thứccó nghĩa là đối phó với suy luận thống kê trong xử lý dữ liệu,chẳng hạn như phân loại [1]. Nếu máy phân loại được thiết kế dựa trêntrên nguyên tắc này, họ được gọi là "Bayes máy phân loại" ở đâylàm việc. Các mục tiêu học tập cho Bayes máy phân loại là một trong hailỗi tối thiểu hoặc chi phí thấp nhất. Nó đã được công nhận rằngChow [2] [3] là "trong số đầu tiên để sử dụng Bayes quyết địnhlý thuyết cho công nhận mẫu"[4]. Công việc tiên phong của mình là như vậyenlightening rằng ý tưởng của sự cân bằng tối ưu giữa lỗi vàtừ chối vẫn còn nhà kho một ánh sáng cho chúng tôi để sâu sự hiểu biết của chúng tôiđến chủ đề, cũng như để khám phá các ứng dụng rộng rãi tạithời kỳ bùng nổ thông tin này. Những năm gần đây, chi phí nhạy cảmhọc tập và mất cân bằng lớp học đã nhận được nhiềusự chú ý trong các ứng dụng [12-18]. Cho phân loạicủa mất cân bằng, hoặc sai lệch, datasets, "tỷ lệ nhỏ đểCác lớp học lớn có thể được mạnh mẽ như 1-100, 1 đến 1.000, hoặc1 đến 10.000 (và đôi khi thậm chí nhiều hơn nữa) "[16]. Nó đã được chỉra bởi Yang và Wu [19] rằng đối phó với mất cân bằng vàdữ liệu nhạy cảm với chi phí là một trong những vấn đề khó khăn nhất mườitrong nghiên cứu của khai thác dữ liệu. Trong thực tế, các đối tượng liên quan khôngmột thách thức mới nhưng một mối quan tâm rất quan trọng hơn so với trước khi chocác nhu cầu ngày càng tăng của tìm kiếm các thông tin hữu ích từ lớndữ liệu. Phân loại nhị phân sẽ là một vấn đề cơ bản trong đóứng dụng nền. Phân loại dựa trên chi phí
đang được dịch, vui lòng đợi..

Các nguyên tắc Bayes cung cấp một mạnh mẽ và chính thức
phương tiện đối phó với suy luận thống kê trong xử lý dữ liệu,
chẳng hạn như phân loại [1]. Nếu phân loại được thiết kế dựa
trên nguyên tắc này, chúng được gọi là "phân loại Bayes" trong này
làm việc. Các mục tiêu học tập cho phân loại Bayes là một trong hai
lỗi tối thiểu hoặc chi phí thấp nhất. Nó đã được công nhận mà
Chow [2] [3] đã được "trong số sớm nhất để sử dụng quyết định Bayesian
lý thuyết cho mô hình công nhận" [4]. Công trình tiên phong của ông là rất
sáng tỏ rằng ý tưởng của mình về sự cân bằng tối ưu giữa lỗi và
từ chối vẫn rọi một ánh sáng cho chúng ta sự hiểu biết sâu sắc của chúng tôi
về chủ đề này, cũng như để khám phá các ứng dụng của nó rộng rãi trong
thời đại thông tin bùng nổ này. Trong những năm gần đây, nhạy cảm chi phí
học tập và học tập lớp-imba đã nhận được rất nhiều
sự quan tâm trong các ứng dụng khác nhau [12-18]. Để phân loại
các bộ dữ liệu mất cân bằng, hoặc xô nghiêng, "tỷ lệ không nhỏ đến
các lớp lớn có thể là quyết liệt như 1-100, 1 đến 1000, hoặc
1 đến 10,000 (và đôi khi thậm chí nhiều hơn)" [16]. Nó cũng đã được chỉ
ra bởi Yang và Wu [19] rằng đối phó với sự mất cân bằng và
dữ liệu chi phí nhạy cảm là một trong mười vấn đề thách thức nhất
trong việc nghiên cứu khai thác dữ liệu. Trong thực tế, các chuyên ngành liên quan không phải là
một thách thức mới nhưng một mối quan tâm quan trọng hơn trước khi cho
nhu cầu tìm kiếm thông tin hữu ích từ tăng lớn
dữ liệu. Phân loại nhị phân sẽ là một vấn đề cơ bản trong đó
nền ứng dụng. Phân loại dựa trên chi phí
đang được dịch, vui lòng đợi..
