Một mạng lưới LSTM là một mạng lưới thần kinh nhân tạo có chứa đơn vị LSTM thay vì, hoặc bổ sung cho các đơn vị khác trong mạng. Một đơn vị LSTM là một đơn vị mạng tái phát mà trội về việc ghi nhớ các giá trị cho cả thời gian dài hoặc ngắn thời gian. Chìa khóa cho khả năng này là nó sử dụng không có chức năng kích hoạt trong các hợp phần tái phát của nó. Như vậy, giá trị được lưu trữ không được lặp đi lặp lại đè bẹp theo thời gian, và thời hạn gradient hoặc đổ lỗi không có xu hướng biến mất khi lan truyền ngược qua thời gian được áp dụng để đào tạo nó.
Đơn vị LSTM thường được thực hiện trong "khối" có chứa một số đơn vị LSTM. Thiết kế này là điển hình với các mạng nơron nhiều lớp "sâu", và tạo điều kiện triển khai thực hiện với phần cứng song song. Trong các phương trình dưới đây, mỗi biến in nghiêng chữ thường đại diện cho một vector có kích thước bằng với số lượng các đơn vị LSTM trong khối.
LSTM khối chứa ba hoặc bốn "cửa" mà họ sử dụng để kiểm soát dòng chảy của thông tin vào hoặc ra khỏi bộ nhớ của họ. Những cổng này được thực hiện bằng cách sử dụng chức năng hậu cần để tính toán một giá trị giữa 0 và 1. Phép nhân được áp dụng với giá trị này để cho phép một phần hoặc phủ nhận thông tin chảy vào hoặc ra khỏi bộ nhớ. Ví dụ, một "cổng vào" kiểm soát mức độ mà một giá trị mới chảy vào trong bộ nhớ. Một "quên cửa" kiểm soát mức độ mà một giá trị vẫn còn trong bộ nhớ. Và, một "cửa ra" kiểm soát mức độ mà các giá trị trong bộ nhớ được sử dụng để tính toán kích hoạt đầu ra của khối. (Trong một số hiện thực, các cổng đầu vào và quên khẩu được kết hợp vào một cổng duy nhất.
Trực giác cho kết hợp chúng là thời gian để quên là khi một giá trị mới đáng ghi nhớ trở nên có sẵn.) Các trọng chỉ trong một khối LSTM ({ displaystyle W} W và { displaystyle U} U) được sử dụng để chỉ đạo hoạt động của cửa. Các trọng xảy ra giữa các giá trị mà ăn vào khối (bao gồm cả các vector đầu vào { displaystyle X_ {t}} X_ {t}, và sản lượng từ các bước thời gian trước đó { displaystyle h_ {t-1}} { displaystyle h_ {t-1}}) và mỗi cổng. Như vậy, khối LSTM xác định làm thế nào để duy trì bộ nhớ của nó như là một chức năng của những giá trị, và đào tạo trọng lượng của nó gây ra các khối LSTM để tìm hiểu những chức năng giảm thiểu thiệt hại. Khối LSTM thường được huấn luyện với lan truyền ngược qua thời gian. Trực giác cho kết hợp chúng là thời gian để quên là khi một giá trị mới đáng ghi nhớ trở nên có sẵn.) Các trọng chỉ trong một khối LSTM ({ displaystyle W} W và { displaystyle U} U) được sử dụng để chỉ đạo hoạt động của cửa. Các trọng xảy ra giữa các giá trị mà ăn vào khối (bao gồm cả các vector đầu vào { displaystyle X_ {t}} X_ {t}, và sản lượng từ các bước thời gian trước đó { displaystyle h_ {t-1}} { displaystyle h_ {t-1}}) và mỗi cổng. Như vậy, khối LSTM xác định làm thế nào để duy trì bộ nhớ của nó như là một chức năng của những giá trị, và đào tạo trọng lượng của nó gây ra các khối LSTM để tìm hiểu những chức năng giảm thiểu thiệt hại. Khối LSTM thường được huấn luyện với lan truyền ngược qua thời gian. Trực giác cho kết hợp chúng là thời gian để quên là khi một giá trị mới đáng ghi nhớ trở nên có sẵn.) Các trọng chỉ trong một khối LSTM ({ displaystyle W} W và { displaystyle U} U) được sử dụng để chỉ đạo hoạt động của cửa. Các trọng xảy ra giữa các giá trị mà ăn vào khối (bao gồm cả các vector đầu vào { displaystyle X_ {t}} X_ {t}, và sản lượng từ các bước thời gian trước đó { displaystyle h_ {t-1}} { displaystyle h_ {t-1}}) và mỗi cổng. Như vậy, khối LSTM xác định làm thế nào để duy trì bộ nhớ của nó như là một chức năng của những giá trị, và đào tạo trọng lượng của nó gây ra các khối LSTM để tìm hiểu những chức năng giảm thiểu thiệt hại. Khối LSTM thường được huấn luyện với lan truyền ngược qua thời gian. ) Các trọng chỉ trong một khối LSTM ({ displaystyle W} W và { displaystyle U} U) được sử dụng để chỉ đạo hoạt động của các cửa. Các trọng xảy ra giữa các giá trị mà ăn vào khối (bao gồm cả các vector đầu vào { displaystyle X_ {t}} X_ {t}, và sản lượng từ các bước thời gian trước đó { displaystyle h_ {t-1}} { displaystyle h_ {t-1}}) và mỗi cổng. Như vậy, khối LSTM xác định làm thế nào để duy trì bộ nhớ của nó như là một chức năng của những giá trị, và đào tạo trọng lượng của nó gây ra các khối LSTM để tìm hiểu những chức năng giảm thiểu thiệt hại. Khối LSTM thường được huấn luyện với lan truyền ngược qua thời gian. ) Các trọng chỉ trong một khối LSTM ({ displaystyle W} W và { displaystyle U} U) được sử dụng để chỉ đạo hoạt động của các cửa. Các trọng xảy ra giữa các giá trị mà ăn vào khối (bao gồm cả các vector đầu vào { displaystyle X_ {t}} X_ {t}, và sản lượng từ các bước thời gian trước đó { displaystyle h_ {t-1}} { displaystyle h_ {t-1}}) và mỗi cổng. Như vậy, khối LSTM xác định làm thế nào để duy trì bộ nhớ của nó như là một chức năng của những giá trị, và đào tạo trọng lượng của nó gây ra các khối LSTM để tìm hiểu những chức năng giảm thiểu thiệt hại. Khối LSTM thường được huấn luyện với lan truyền ngược qua thời gian. và sản lượng từ các bước thời gian trước đó { displaystyle h_ {t-1}} { displaystyle h_ {t-1}}) và mỗi cổng. Như vậy, khối LSTM xác định làm thế nào để duy trì bộ nhớ của nó như là một chức năng của những giá trị, và đào tạo trọng lượng của nó gây ra các khối LSTM để tìm hiểu những chức năng giảm thiểu thiệt hại. khối LSTM thường được huấn luyện với lan truyền ngược qua thời gian. và sản lượng từ các bước thời gian trước đó { displaystyle h_ {t-1}} { displaystyle h_ {t-1}}) và mỗi cổng. Như vậy, khối LSTM xác định làm thế nào để duy trì bộ nhớ của nó như là một chức năng của những giá trị, và đào tạo trọng lượng của nó gây ra các khối LSTM để tìm hiểu những chức năng giảm thiểu thiệt hại. khối LSTM thường được huấn luyện với lan truyền ngược qua thời gian.
đang được dịch, vui lòng đợi..
