Nền và hạn chếTesseract ban đầu được thiết kế để nhận ra văn bản tiếng Anh chỉ. Những nỗ lực đã được thực hiện để thay đổi động cơ và các hệ thống đào tạo của mình để làm cho họ có thể để đối phó với các ngôn ngữ khác và các ký tự UTF-8. Tesseract 3.0 có thể xử lý bất kỳ ký tự Unicode (mã hoá với UTF-8), nhưng không có giới hạn về phạm vi của các ngôn ngữ mà nó sẽ được thành công với, vì vậy hãy dành phần này vào tài khoản trước khi xây dựng của bạn với hy vọng rằng nó sẽ làm việc tốt trên ngôn ngữ cụ thể của bạn! Tesseract 3,01 đưa trên dưới cùng ngôn ngữ, và Tesseract 3,02 tiếng Do Thái (phải sang trái). Tesseract hiện đang xử lý kịch bản như tiếng ả Rập với một động cơ phụ trợ được gọi là các khối lập phương (bao gồm trong Tesseract 3.0 +)
đang được dịch, vui lòng đợi..
