DTREG sử dụng thuật toán dốc liên hợp để điều chỉnh giá trị khối lượng sử dụng gradient trong công tác tuyên truyền lạc hậu lỗi thông qua mạng. So với gốc gradient, các thuật toán liên hợp Gradient có một đường dẫn trực tiếp đến các thiết lập tối ưu các giá trị cân. Thông thường, liên hợp gradient là đáng kể nhanh hơn và mạnh hơn so với gốc gradient. Conjugate Gradient cũng không yêu cầu người dùng xác định học tập các thông số tốc độ và động lực.
Các thuật toán liên hợp Gradient truyền thống sử dụng gradient để tính toán một hướng tìm kiếm. Sau đó sử dụng một dòng thuật toán tìm kiếm như Phương pháp Brent để tìm các bước tối ưu kích thước dọc theo một đường theo hướng tìm kiếm. Việc tìm kiếm đường tránh sự cần thiết để tính toán ma trận Hessian của các dẫn xuất thứ hai, nhưng nó đòi hỏi tính toán lỗi tại nhiều điểm dọc theo đường. Các thuật toán conjugate gradient với tìm kiếm dòng (CGL) đã được sử dụng thành công trong nhiều chương trình mạng lưới thần kinh, và được coi là một trong những phương pháp tốt nhất chưa phát minh ra.
DTREG cung cấp các thuật toán liên hợp Gradient truyền thống với tìm kiếm dòng, nhưng nó cũng cung cấp một thuật toán mới hơn, Scaled Conjugate Gradient (xem Moller, 1993).
Các thuật toán quy mô liên hợp Gradient sử dụng một xấp xỉ số cho hàm bậc hai (ma trận Hessian), nhưng nó tránh được sự bất ổn bằng cách kết hợp các phương pháp tiếp cận khu vực mô hình độc quyền từ các thuật toán Levenberg-Marquardt với gradient liên hợp phương pháp tiếp cận. Điều này cho phép quy mô liên hợp gradient để tính toán các bước kích thước tối ưu theo hướng tìm kiếm mà không cần phải thực hiện tìm kiếm dòng tính toán đắt tiền được sử dụng bởi các thuật toán liên hợp Gradient truyền thống. Tất nhiên, có một chi phí liên quan trong việc ước tính các dẫn xuất thứ hai.
Các thử nghiệm được thực hiện bởi Moller hiển thị liên hợp thuật toán Gradient thu nhỏ hội tụ lên đến hai lần nhanh như Gradient liên hợp truyền thống và lên đến 20 lần nhanh như lan truyền ngược bằng cách sử dụng gốc gradient. Kiểm tra Moller cũng cho thấy quy mô liên hợp Gradient thất bại trong việc hội tụ ít thường xuyên hơn Gradient liên hợp truyền thống hoặc lan truyền ngược bằng cách sử dụng gốc gradient.
Tránh Trong phù hợp
"Trong phù hợp" xảy ra khi các thông số của một mô hình được điều chỉnh rất chặt chẽ rằng mô hình phù hợp với dữ liệu huấn luyện tốt, nhưng có độ chính xác kém trên dữ liệu riêng biệt không được sử dụng cho đào tạo. Multilayer perceptron có thể phù hợp hơn như là loại khác hầu hết các mô hình.
DTREG có hai phương pháp để đối phó với hơn phù hợp: (1) bằng cách chọn số lượng tối ưu của các tế bào thần kinh như mô tả ở trên, và (2) bằng cách đánh giá các mô hình như các thông số đang được điều chỉnh và ngăn chặn sự điều chỉnh phù hợp hơn khi được phát hiện. Điều này được gọi là "dừng lại sớm".
Nếu bạn kích hoạt tùy chọn đầu ngừng đập, DTREG giữ ra một tỷ lệ phần trăm nhất định của các hàng đào tạo và sử dụng chúng để kiểm tra cho phù hợp hơn như mô hình điều chỉnh được thực hiện. Quá trình điều chỉnh sử dụng dữ liệu huấn luyện để tìm kiếm các giá trị tham số tối ưu. Nhưng khi quá trình này đang chạy, các mô hình được đánh giá trên các hàng kiểm tra hold-out, và các lỗi từ bài kiểm tra đó được so sánh với các lỗi tính toán sử dụng giá trị tham số trước đó. Nếu lỗi trên các hàng kiểm tra không giảm sau một số lần lặp lại sau đó DTREG dừng lại việc đào tạo và sử dụng các thông số mà sản xuất các lỗi thấp nhất trên các dữ liệu thử nghiệm.
Xem trang 67 để biết thông tin về việc thiết lập các thông số cho các thuật toán liên hợp gradient.
đang được dịch, vui lòng đợi..
