Tesseract cần phải có quyền truy cập vào nhân vật thuộc tính isalpha, isdigit, isupper, islower, ispunctuation. Dữ liệu này phải được mã hóa trong các tập tin dữ liệu unicharset. Mỗi dòng của tập tin này tương ứng với một ký tự. Nhân vật trong UTF-8 được theo sau bởi một số hệ thập lục phân đại diện cho một mặt nạ nhị phân mã hóa các thuộc tính. Mỗi bit tương ứng với một bất động sản. Nếu bit được thiết lập để 1, nó có nghĩa là tài sản là đúng sự thật. Bit thứ tự là (từ bit ít quan trọng để bit quan trọng nhất): isalpha, islower, isupper, isdigit.
đang được dịch, vui lòng đợi..
