Đối với các bước tiếp theo dưới đây, Tesseract cần một 'chiếc hộp' tập tin để đi với mỗi hình ảnh đào tạo. Các tập tin hộp là một file văn bản liệt kê các ký tự trong ảnh đào tạo, theo thứ tự, mỗi dòng, với tọa độ của hộp bounding xung quanh hình ảnh. Tesseract 3.0 có một chế độ mà trong đó nó sẽ sản xuất một tập tin văn bản của định dạng cần thiết, nhưng nếu các bộ ký tự khác nhau để đào tạo hiện tại của nó, nó sẽ tự nhiên có các văn bản không chính xác. Vì vậy, các quá trình quan trọng ở đây là để tự chỉnh sửa các tập tin để đặt đúng các ký tự trong nó. Chạy Tesseract trên mỗi hình ảnh đào tạo của bạn bằng cách sử dụng dòng lệnh này:
đang được dịch, vui lòng đợi..