Because , the chain rule (8) yields
. Therefore, the adjoined gradient with respect to
the new matrices is given by
(33)
and
In order to determine the partial derivatives of the previous ex- pression, consider the cofactor expansion of the determinant of a matrix in tensor notation, i.e.,
, where is the Kronecker delta function. Together with (40), this expansion can be used to obtain the following simplifying relationships, namely:
(34)
This property can be easily extended to repeated matrix multi- plications. For example, if
(43)
(44)
then the gradient with respect to the matrix is given by
(35)
with
if
if and
if if
(45)
C. Adjoined Gradient Property 3 (Inverse of a Matrix)
(36)
and where is the cofactor of . Equations (44) and (45) can be written in a more compact notation by introducing a matrix that is obtained from by substituting the row and column containing the element of the matrix
Let the matrix be defined in terms of an invertible matrix
(37)
and assume the adjoined gradient is known with respect to . We seek to compute the adjoined gradient in terms of . The inverse of a matrix can be computed from its adjoint and determinant
(38)
or
(39)
where is the cofactor of the element in . The cofactor of a matrix element is obtained from its corresponding minor, using the following relationship:
(40)
where the minor of the cofactor is the determinant of a ma- trix , obtained by removing the row and column containing the element of , from . The adjoined gradient with re- spect to the new variable is obtained from the chain rule
(41)
where
(42)
with a row and column of zero elements. Then, (42) can be ex- pressed as
(46) Provided that is invertible, one can also define a matrix
that is obtained from by substituting its th row and th column with zero elements. Then, the adjoined gradient of the inverse matrix , in terms of , can be further simplified
to
(47)
by summing over both and according to tensor rules. If is not invertible, the use of (46) is required. It can be seen from the previous equations that even the most efficient computation of the adjoined gradient with respect to an inverse matrix is expensive, as it requires inversions of an matrix, .
D. Adjoined Gradient Property 4 (Kronecker Product)
Suppose that is obtained from the Kronecker product of two matrices
(48)
and that is given. Then, the adjoined gradient with respect to can be computed as
(49)
Finally, for any smooth and differentiable nonlinear function , if the adjoined gradient is known with respect to the matrix
(50)
then the adjoined gradient with respect to is given by
(51)
APPENDIX III POSITIONAL NOTATION
Positional notation is used to represent neural network weights based on the inputs, hidden nodes, and outputs they connect. Any vector can be viewed as an ordered set of ele- ments. Let denote the index set of the neural input vector
, the index set of the output vector , and the index set of the hidden nodes , and of the input-to-node vector . Suppose the input vector is partitioned into two or more vectors , then each vector partition is a subset
of , with an index set denoted by . Similarly, the subscript of the hidden-node and output index sets denote the corre-
sponding vector partitions. Therefore, the third-order tensor contains the neural network weights associated
with the hidden nodes, inputs, and outputs with index sets , , and , respectively. The same notation is used for weight matrices (or second-order tensors), using two arguments instead of three. For example, consider the neural network described in Fig. 1, with input weights . The matrix denotes the input weights that connect the inputs in to the hidden nodes . Consequently, the matrix is easily obtained by removing the rows and columns in with index sets and [where denotes the complement set].
APPENDIX IV
PROOF OF THEOREM 1 (EQUALITY CONSTRAINTS)
The equality constraints (12) are derived by considering the neural network equation (9) and its derivatives
(52)
The neural network hidden nodes are partitioned as follows: (53)
Similarly, the neural network output can be partitioned into
the subvectors , such that and have the sa
Bởi vì, cai trị chuỗi sản lượng (8). Vì vậy, các gradient adjoined quan đếnma trận mới được đưa ra bởi (33)và Để xác định một phần derivatives của ex-pression trước đó, xem xét việc mở rộng cofactor của định thức của ma trận ở tensor ký hiệu, tức là,, nơi là hàm delta Kronecker. Cùng với (40), việc mở rộng này có thể được sử dụng để có được các mối quan hệ simplifying sau, cụ thể là: (34)Chỗ ở này có thể được dễ dàng mở rộng để lặp đi lặp lại ma trận multi-plications. Ví dụ, nếu (43)(44) sau đó các gradient đối với ma trận được cho bởi (35) với Nếu Nếu và Nếu nếu (45) C. adjoined thuộc tính Gradient 3 (nghịch đảo của một ma trận) (36) và cofactor của ở đâu. Phương trình (44) và (45) có thể được viết bằng một ký hiệu nhỏ gọn hơn bằng cách giới thiệu một ma trận thu được từ bằng cách thay thế các hàng và cột có chứa các yếu tố của ma trận Cho ma trận được định nghĩa trong điều khoản của một ma trận khả nghịch (37)và giả định các gradient adjoined được biết đến với quan đến. Chúng tôi tìm kiếm để tính toán gradient adjoined về. Nghịch đảo của một ma trận có thể được tính toán từ lĩnh và quyết định của nó (38)hoặc (39)cofactor các yếu tố ở đâu. Cofactor một yếu tố ma trận thu được từ tương ứng của nó nhỏ, sử dụng mối quan hệ sau đây: (40)nơi tiểu cofactor là định thức của một ma-trix, thu được bằng cách loại bỏ các hàng và cột có chứa các yếu tố, từ. Chuyển sắc adjoined re-spect để biến mới thu được từ sự cai trị chuỗi(41)nơi (42) với một hàng và cột của các nguyên tố không. Sau đó, (42) có thể là cũ-ép như (46) cung cấp đó là khả nghịch, ai cũng có thể xác định một ma trậnmà thu được từ bằng cách thay thế hàng th và th cột với các yếu tố không của nó. Sau đó, gradient adjoined của ma trận nghịch đảo, trong điều khoản của, có thể được đơn giản hơn nữađể (47)bằng cách tổng hợp trên cả hai và theo quy tắc tensor. Nếu không phải là khả nghịch, việc sử dụng của (46) là cần thiết. Nó có thể được nhìn thấy từ các phương trình trước đó rằng ngay cả những tính toán hiệu quả nhất của gradient adjoined đối với một ma trận nghịch đảo là tốn kém, vì nó đòi hỏi inversions của một ma trận.Mất adjoined Gradient bất động sản 4 (Kronecker sản phẩm)Giả sử đó thu được từ các sản phẩm Kronecker của hai ma trận (48)và đó được đưa ra. Sau đó, tính toán gradient adjoined quan đến như (49) Cuối cùng, cho bất kỳ mịn màng và khả vi phi tuyến chức năng, nếu các gradient adjoined được biết đến đối với ma trận (50)sau đó các gradient adjoined quan đến được cho bởi(51)PHỤ LỤC III KÝ HIỆU ĐỊNH VỊPositional ký hiệu được sử dụng để đại diện cho trọng lượng mạng nơ-ron dựa trên đầu vào, ẩn nút, và kết quả đầu ra họ kết nối. Bất kỳ vector có thể được xem như là một tập lệnh ele-ments. Hãy để biểu thị các thiết lập chỉ mục của các véc tơ đầu vào thần kinh, các thiết lập chỉ mục của véc tơ đầu ra, và chỉ số thiết lập của các nút ẩn, và của vectơ đầu vào nút. Giả sử vector đầu vào phân chia thành hai hoặc nhiều vectơ, sau đó mỗi phân vùng véc tơ là một tập hợp convới một chỉ số biểu hiện bằng. Tương tự như vậy, chỉ số của bộ chỉ mục ẩn nút và sản lượng biểu thị corre-sponding vector phân vùng. Vì vậy, tensor thứ ba để có trọng lượng mạng nơ-ron liên kếtvới ẩn nút, đầu vào và đầu ra với chỉ số bộ,, và, tương ứng. Ký hiệu tương tự được sử dụng trọng lượng ma trận (hoặc thứ hai để vec), sử dụng hai đối số thay vì ba. Ví dụ, xem xét mạng nơ-ron được mô tả trong hình 1, với đầu vào trọng lượng. Ma trận là bắt đầu vào trọng lượng kết nối đầu vào trong các nút ẩn. Do đó, các ma trận một cách dễ dàng là thu được bằng cách loại bỏ các hàng và cột với chỉ số bộ và [nơi tụ tập bổ sung].PHỤ LỤC IVCHỨNG MINH ĐỊNH LÝ 1 (BÌNH ĐẲNG HẠN CHẾ)Các khó khăn bình đẳng (12) thu được bằng cách xem xét phương trình mạng nơ-ron (9) và dẫn xuất của nó(52)Các nút mạng nơ-ron ẩn được phân chia như sau: (53)Tương tự như vậy, sản lượng mạng nơ-ron có thể được phân chia thànhsubvectors, sao cho và có sa
đang được dịch, vui lòng đợi..
Bởi vì, các quy tắc dây chuyền (8) sản
lượng. Vì vậy, gradient đối với tiếp giáp với
các ma trận mới được đưa ra bởi (33) và Để xác định các đạo hàm riêng của pression Ex- trước đó, hãy xem xét việc mở rộng cofactor của các yếu tố quyết định của một ma trận trong ký hiệu tensor, tức là, nơi là hàm delta Kronecker. Cùng với (40), việc mở rộng này có thể được sử dụng để có được những mối quan hệ đơn giản sau đây, cụ thể là: (34) Khách sạn này có thể dễ dàng mở rộng để lặp đi lặp lại ma trận plications đa. Ví dụ, nếu (43) (44) sau đó gradient đối với các ma trận được cho bởi (35) với nếu nếu và nếu nếu (45) C. Liền kề Gradient tài sản 3 (Inverse của một Matrix) (36) và ở đâu là cofactor của. Phương trình (44) và (45) có thể được viết trong một ký hiệu nhỏ gọn hơn bằng cách giới thiệu một ma trận thu được từ bằng cách thay thế các hàng và cột chứa phần tử của ma trận Hãy để cho ma trận được xác định trong điều khoản của một ma trận khả nghịch (37) và giả định gradient tiếp giáp được biết đến đối với. Chúng tôi tìm kiếm để tính toán gradient tiếp giáp về. Nghịch đảo của một ma trận có thể được tính toán từ các liên hợp của nó và yếu tố quyết định (38) hoặc (39) mà là đồng yếu tố của các yếu tố trong. Các đồng yếu tố của một phần tử ma trận thu được từ nhỏ tương ứng của nó, bằng cách sử dụng các mối quan hệ sau đây: (40), nơi trẻ vị thành niên của các đồng yếu tố là yếu tố quyết định của một trix ma-, thu được bằng cách loại bỏ các hàng và cột chứa các yếu tố của từ. Gradient tiếp giáp với SPECT lại vào biến mới thu được từ quy tắc dây chuyền (41) nơi (42) với một hàng và cột của zero yếu tố. Sau đó, (42) có thể được giải ép làm (46) Với điều kiện là khả nghịch, người ta cũng có thể xác định một ma trận mà là thu được từ bằng cách thay thế hàng ngày của nó và cột thứ với số không nguyên tố. Sau đó, gradient tiếp giáp của ma trận nghịch đảo, về, có thể là đơn giản hơn nữa để (47) bằng cách tổng hợp hơn cả và theo nguyên tắc tensor. Nếu không phải là nghịch, việc sử dụng (46) là bắt buộc. Nó có thể được nhìn thấy từ phương trình trước đó mà ngay cả những tính toán hiệu quả nhất của gradient tiếp giáp đối với một ma trận nghịch đảo với rất tốn kém, vì nó đòi hỏi đảo của một ma trận,. D. Liền kề Gradient tài sản 4 (Kronecker sản phẩm) Giả sử đó là thu được từ các sản phẩm Kronecker của hai ma trận (48) và được đưa ra. Sau đó, gradient tiếp giáp với sự tôn trọng để có thể được tính như (49) Cuối cùng, đối với bất kỳ hàm phi tuyến mịn và khả vi, nếu gradient tiếp giáp được biết đến đối với các ma trận với (50) sau đó gradient tiếp giáp với sự tôn trọng để được cho bởi ( 51) PHỤ LỤC III ký hiệu vị trí ký hiệu Positional được sử dụng để đại diện cho trọng lượng mạng lưới thần kinh dựa trên các yếu tố đầu vào, nút ẩn, và kết quả họ kết nối. Bất kỳ vector có thể được xem như là một tập có thứ tự của các cấu thành. Hãy biểu thị tập hợp chỉ số của các vector đầu vào thần kinh, các bộ chỉ số của các vector đầu ra, và các chỉ số thiết lập của các nút ẩn, và các vector đầu vào-to-node. Giả dụ các vector đầu vào được phân chia thành hai hoặc nhiều vectơ, sau đó mỗi phân vùng vector là một tập hợp con của, với một bộ chỉ số biểu thị bằng. Tương tự, chỉ số dưới của ẩn-node và đầu ra bộ chỉ số biểu thị sự tương xứng về phân vùng vector sponding. Vì vậy, các tensor thứ ba để chứa các trọng mạng lưới thần kinh liên quan với các nút ẩn, đầu vào, và đầu ra với bộ chỉ số, và tương ứng. Các ký hiệu tương tự được sử dụng cho ma trận trọng lượng (hoặc tensor thứ hai-thứ tự), sử dụng hai tham số thay vì ba. Ví dụ, hãy xem xét các mạng thần kinh được mô tả trong hình. 1, với trọng lượng đầu vào. Các ma trận biểu thị khối lượng đầu vào kết nối các yếu tố đầu vào trong để các nút ẩn. Do đó, các ma trận có thể dễ dàng thu được bằng cách loại bỏ các hàng và cột với bộ chỉ số và [nơi biểu thị tập hợp bổ sung]. PHỤ LỤC IV BẰNG CHỨNG VỀ Định lí 1 (CHẾ BÌNH ĐẲNG) Các ràng buộc đẳng thức (12) có nguồn gốc bằng cách xem xét các phương trình mạng lưới thần kinh (9) và các dẫn xuất của nó (52) Mạng lưới thần kinh nút ẩn được phân chia như sau: (53) Tương tự như vậy, đầu ra mạng lưới thần kinh có thể được phân chia thành các subvectors, như vậy mà và có sa
đang được dịch, vui lòng đợi..