Ordinal Neural Networks Without Iterative Tuning
Francisco Fernández-Navarro, Member, IEEE, Annalisa Riccardi, and Sante Carloni
Abstract— Ordinal regression (OR) is an important branch of supervised learning in between the multiclass classification and regression. In this paper, the traditional classification scheme of neural network is adapted to learn ordinal ranks. The model proposed imposes monotonicity constraints on the weights connecting the hidden layer with the output layer. To do so, the weights are transcribed using padding variables. This reformulation leads to the so-called inequality constrained least squares (ICLS) problem. Its numerical solution can be obtained by several iterative methods, for example, trust region or line search algorithms. In this proposal, the optimum is determined analytically according to the closed-form solution of the ICLS problem estimated from the Karush–Kuhn–Tucker conditions. Furthermore, following the guidelines of the extreme learning machine framework, the weights connecting the input and the hidden layers are randomly generated, so the final model estimates all its parameters without iterative tuning. The model proposed achieves competitive performance compared with the state-of-the-art neural networks methods for OR.
Index Terms— Extreme learning machine (ELM), neural networks, ordinal regression (OR).
I. INT RODUCT ION
EARNING to classify or to predict numerical values from prelabeled patterns is one of the central research topics in machine learning and data mining [1]–[4]. However, less attention has been paid to ordinal regression [(OR), also called ordinal classification] problems, where the labels of the target variable exhibit a natural ordering. In contrast to regression problems, in OR, the ranks are discrete and finite. These ranks are also different from the class targets in nominal classification problems due to the existence of ranking information. For example, grade labels have the ordering
D ≺ C ≺ B ≺ A, where ≺ denotes the given order between
the ranks. Therefore, OR is a learning problem in between
the regression and nominal classification. Some of the fields where OR found application are medical research [5], [6], review ranking [7], econometric modeling [8], or sovereign credit ratings [9].
In statistics literature, the majority of the models are based on generalized linear models [10]. The proportional odds model (POM) [10] is a well-known statistical approach for OR, in which they rely on a specific distributional assumption on
Manuscript received August 14, 2013; revised December 3, 2013; accepted February 5, 2014. Date of publication February 21, 2014; date of current version October 15, 2014.
The authors are with the Advanced Concepts Team, European Space
Research and Technology Centre, European Space Agency, Noordwijk 14012, The Netherlands (e-mail: i22fenaf@uco.es; francisco.fernandez.navarro@ esa.int; annalisa.riccardi@esa.int; sante.carloni@esa.int).
Color versions of one or more of the figures in this paper are available online at http://ieeexplore.ieee.org.
Digital Object Identifier 10.1109/TNNLS.2014.2304976
the unobservable latent variables (generally assuming a logistic distribution) and a stochastic ordering of the input space. OR has evolved in the last years in the machine learning field, with many achievements for the community [11], from support vector machine (SVM) approaches [12], [13] to Gaussian processes [14] and discriminant learning [15].
In the field of neural networks, Mathieson [8] proposed
a model based on the POM statistical algorithm. In this paper, the POM algorithm is adapted for nonlinear prob- lems by including basis functions in the original formulation. Crammer and Singer [16] generalized the online perceptron algorithm with multiple thresholds to perform ordinal ranking. Cheng et al. [17] proposed an approach to adapt a traditional neural network to learn ordinal ranks. This proposal can be observed as a generalization of the perceptron method into multilayer perceptrons (neural network) for OR.
Extreme learning machine (ELM) is a framework to esti- mate the parameters of single-layer feedforward neural net- works (SLFNNs), where the hidden layer parameters do not need to be tuned but they are randomly assigned [18]. ELMs have demonstrated good scalability and generaliza- tion performance with a faster learning speed when com- pared with other models such as SVMs and backpropagation neural networks [19]. The natural adaptation of the ELM framework to OR problems has not been yet deeply inves- tigated. The ELM for OR (ELMOR) algorithm [20] is the first example of research in this direction. Deng et al. [20] proposed an encoding-based framework for OR, which includes three encoding schemes: single multioutput classifier, multiple binary-classificati
Mạng nơ-ron tự mà không có điều chỉnh lặp đi lặp lạiFrancisco Fernández-Navarro, thành viên, IEEE, Annalisa Riccardi, và Sante Carloni Tóm tắt — Các hồi quy tự (OR) là một chi nhánh quan trọng của giám sát học tập ở giữa multiclass phân loại và hồi quy. Trong bài báo này, chương trình truyền thống phân loại của mạng nơ-ron là thích nghi để tìm hiểu tự cấp bậc. Các mô hình đề xuất áp đặt monotonicity khó khăn về trọng lượng kết nối ẩn lớp với các lớp đầu ra. Để làm như vậy, trọng lượng được phiên âm bằng cách sử dụng các biến padding. Reformulation này dẫn đến vấn đề bất bình đẳng cái gọi là hạn chế tối thiểu (ICLS). Giải pháp số của nó có thể được thu được bằng một số phương pháp lặp đi lặp lại, ví dụ, thuật toán tìm kiếm khu vực hoặc dòng tin tưởng. Trong đề xuất này, tối ưu được xác định phân tích theo các giải pháp hình thức đóng cửa của vấn đề ICLS ước tính từ các điều kiện Karush-Kuhn-Tucker. Hơn nữa, sau các nguyên tắc của cực học máy khuôn khổ, trọng lượng kết nối đầu vào và các lớp ẩn được ngẫu nhiên tạo ra, do đó, các mô hình cuối cùng ước tính tất cả các tham số của nó mà không có điều chỉnh lặp đi lặp lại. Các mô hình đề xuất đạt được hiệu suất cạnh tranh so với các phương pháp nhà nước-of-the-art mạng nơ-ron cho hoặc.Chỉ số điều khoản — Cực học tập máy (ELM), mạng nơ-ron, tự regression (OR).I. INT RODUCT IONThu nhập để phân loại hoặc để dự đoán giá trị số từ prelabeled mô hình là một trong những chủ đề Trung tâm nghiên cứu trong máy học và khai thác dữ liệu [1]-[4]. Tuy nhiên, ít quan tâm đã được trả tiền để tự regression [(hoặc), cũng gọi là tự phân loại] vấn đề, nơi các nhãn của mục tiêu biến thể hiện một đặt hàng tự nhiên. Trái ngược với vấn đề hồi quy, tại OR, các cấp bậc là rời rạc và hữu hạn. Các cấp bậc cũng là khác nhau từ các mục tiêu lớp trong vấn đề phân loại trên danh nghĩa do sự tồn tại của xếp hạng thông tin. Ví dụ, lớp nhãn có các đặt hàngD ≺ C ≺ B ≺ A, nơi ≺ là bắt đơn đặt hàng nhất định giữacác cấp bậc. Vì vậy, hoặc là một vấn đề học tập ở giữahồi quy và phân loại trên danh nghĩa. Một số các lĩnh vực nơi hoặc tìm thấy ứng dụng nghiên cứu y học [5], [6], lại xếp hạng [7], mô hình kinh tế lượng [8] hoặc xếp hạng tín dụng có chủ quyền [9].Trong văn học thống kê, phần lớn các mô hình được dựa trên mô hình tuyến tính tổng quát [10]. Mô hình tỷ lệ cược tỷ lệ (POM) [10] là một cách tiếp cận thống kê nổi tiếng nhất, hoặc trong đó họ dựa vào một giả định distributional cụ thể trênBản thảo đã nhận được ngày 14 tháng 8 năm 2013; Sửa đổi ngày 3 tháng 8 năm 2013; chấp nhận 5 tháng 2 năm 2014. Ngày công bố ngày 21 tháng 2 năm 2014; ngày của phiên bản hiện tại 15 tháng 10 năm 2014.Các tác giả là với nâng cao khái niệm đội, không gian Châu ÂuNghiên cứu và Trung tâm công nghệ, các cơ quan không gian Châu Âu, Noordwijk 14012, Hà Lan (e-mail: i22fenaf@uco.es; francisco.fernandez.navarro@ esa.int; annalisa.riccardi@esa.int; sante.carloni@esa.int).Phiên bản màu sắc của một hoặc nhiều của các con số trong bài báo này có sẵn trực tuyến tại http://ieeexplore.ieee.org.Nhận dạng kỹ thuật số đối tượng 10.1109/TNNLS.2014.2304976 Các yếu tố tiềm ẩn unobservable (thường giả sử một phân phối hậu cần) và một thứ tự ngẫu nhiên đầu vào không gian. HOẶC đã phát triển trong năm qua trong lĩnh vực học tập máy, với nhiều thành tựu cho cộng đồng [11], từ hỗ trợ vector machine (SVM) phương pháp tiếp cận [12], [13] để quá trình Gaussian [14] và biệt thức học tập [15].Trong lĩnh vực mạng nơ-ron, Mathieson [8] đề xuấtmột mô hình dựa trên các thuật toán thống kê POM. Trong bài báo này, các thuật toán POM là thích nghi với phi tuyến prob-lems bằng cách bao gồm hàm cơ sở trong việc xây dựng ban đầu. Crammer và ca sĩ [16] Tổng quát các thuật toán trực tuyến perceptron với nhiều ngưỡng để thực hiện tự xếp hạng. Cheng et al. [17] đề xuất một cách tiếp cận để thích ứng với một mạng nơ-ron truyền thống để tìm hiểu tự đứng. Đề xuất này có thể được quan sát thấy như một tổng quát của phương pháp perceptron vào đa lớp perceptrons (thần kinh mạng) cho hoặc.Cực học máy (ELM) là một khuôn khổ để esti-mate các tham số của đơn lớp feedforward thần kinh lưới công trình (SLFNNs), nơi các thông số ẩn lớp không cần phải được điều chỉnh nhưng chúng ngẫu nhiên được phân công [18]. ELMs đã chứng minh hiệu suất tốt của khả năng mở rộng và generaliza-tion với tốc độ học tập nhanh hơn khi com - pared với các mô hình khác chẳng hạn như SVMs và backpropagation mạng nơ-ron [19]. Thích ứng tự nhiên của khuôn khổ ELM để OR vấn đề chưa được sâu inves-tigated. ELM cho thuật toán hoặc (ELMOR) [20] là ví dụ đầu tiên của nghiên cứu theo hướng này. Đặng et al. [20] đề xuất một khuôn khổ dựa trên mã hóa cho, hoặc bao gồm ba chương trình mã hóa: loại multioutput duy nhất, nhiều nhị phân-classificati
đang được dịch, vui lòng đợi..