The Bayesian principle provides a powerful and formal means of dealing with statistical inference in data processing, such as classifications [1]. If classifiers are designed based on this principle, they are called “Bayesian classifiers” in this work. The learning targets for Bayesian classifiers are either the minimum error or the lowest cost. It was recognized that Chow [2][3] was “among the earliest to use Bayesian decision theory for pattern recognition” [4]. His pioneering work is so enlightening that its idea of optimal tradeoff between error and reject still sheds a bright light for us to deep our understanding to the subject, as well as to explore its applications widely in this information-explosion era. In recent years, cost sensitive learning and class-imbalanced learning have received much attentions in various applications [12-18]. For classifications of imbalanced, or skewed, datasets, “the ratio of the small to the large classes can be drastic such as 1 to 100, 1 to 1,000, or 1 to 10,000 (and sometimes even more)” [16]. It was pointed out by Yang and Wu [19] that dealing with imbalanced and cost-sensitive data is among the ten most challenging problems in the study of data mining. In fact, the related subjects are not a new challenge but a more crucial concern than before for increasing needs of searching useful information from massive data. Binary classifications will be a basic problem in such application background.
Nguyên lý Bayes cung cấp một phương tiện mạnh mẽ và chính thức của đối phó với suy luận thống kê trong xử lý dữ liệu, chẳng hạn như phân loại [1]. Nếu máy phân loại được thiết kế dựa trên nguyên tắc này, họ được gọi là "Bayes máy phân loại" trong công việc này. Các mục tiêu học tập cho máy phân loại Bayes là lỗi tối thiểu hoặc chi phí thấp nhất. Nó đã được công nhận rằng Chow [2] [3] là "một trong những sớm nhất để sử dụng lý thuyết quyết định Bayes để công nhận mẫu" [4]. Công việc tiên phong của mình là rất enlightening rằng ý tưởng của sự cân bằng tối ưu giữa lỗi và từ chối vẫn còn nhà kho một ánh sáng cho chúng tôi để sâu sự hiểu biết của chúng tôi đến chủ đề, cũng như để khám phá các ứng dụng rộng rãi trong thời kỳ bùng nổ thông tin này. Những năm gần đây, chi phí học tập nhạy cảm và mất cân bằng lớp học đã nhận được nhiều sự chú ý trong các ứng dụng [12-18]. Đối với phân loại của mất cân bằng, hoặc sai lệch, datasets, "tỷ lệ nhỏ đến lớn các lớp học có thể được mạnh mẽ như 1-100, 1 đến 1.000, hoặc 1 đến 10.000 (và đôi khi thậm chí nhiều hơn nữa)" [16]. Nó đã được chỉ ra bởi Yang và Wu [19] mà đối phó với mất cân bằng và nhạy cảm với chi phí dữ liệu là một trong những vấn đề khó khăn nhất mười trong nghiên cứu của khai thác dữ liệu. Trong thực tế, các đối tượng liên quan không phải là một thách thức mới nhưng một mối quan tâm rất quan trọng hơn so với trước khi để tăng nhu cầu tìm kiếm các thông tin hữu ích từ dữ liệu lớn. Phân loại nhị phân sẽ là một vấn đề cơ bản trong ứng dụng nền.
đang được dịch, vui lòng đợi..
Các nguyên tắc Bayes cung cấp một phương tiện mạnh mẽ và chính thức đối phó với suy luận thống kê trong xử lý dữ liệu, chẳng hạn như phân loại [1]. Nếu phân loại được thiết kế dựa trên nguyên tắc này, chúng được gọi là "phân loại Bayes" trong công việc này. Các mục tiêu học tập cho phân loại Bayes là một trong hai lỗi tối thiểu hoặc chi phí thấp nhất. Nó đã được công nhận mà Chow [2] [3] đã được "trong số sớm nhất để sử dụng lý thuyết quyết định Bayes cho mô hình công nhận" [4]. Công trình tiên phong của ông là rất sáng tỏ rằng ý tưởng của mình về sự cân bằng tối ưu giữa lỗi và từ chối vẫn rọi một ánh sáng cho chúng ta sự hiểu biết sâu sắc của chúng tôi về chủ đề này, cũng như để khám phá các ứng dụng của nó rộng rãi trong thời đại thông tin bùng nổ này. Trong những năm gần đây, việc học nhạy cảm chi phí học tập và đẳng cấp imba đã nhận được rất nhiều sự quan tâm trong các ứng dụng khác nhau [12-18]. Để phân loại các bộ dữ liệu mất cân bằng, hoặc xô nghiêng, "tỷ lệ không nhỏ đến lớp lớn có thể là quyết liệt như 1-100, 1 đến 1000, hoặc 1 đến 10,000 (và đôi khi thậm chí nhiều hơn)" [16]. Nó đã được chỉ ra bởi Yang và Wu [19] rằng đối phó với các dữ liệu mất cân bằng và chi phí nhạy cảm là một trong mười vấn đề thách thức nhất trong việc nghiên cứu khai thác dữ liệu. Trong thực tế, các chuyên ngành liên quan không phải là một thử thách mới nhưng một mối quan tâm quan trọng hơn trước khi cho các nhu cầu tìm kiếm thông tin hữu ích từ dữ liệu lớn ngày càng tăng. Phân loại nhị phân sẽ là một vấn đề cơ bản trong nền ứng dụng như vậy.
đang được dịch, vui lòng đợi..