kể từ khi cải tiến dựa trên lớp LMs dường như cung cấp một cách hiệu quả và hiệu quả để kết hợp ngữ pháp thông tin vào LM [23]. Việc thực hiện cấp thấp của cấu trúc dữ liệu hiện đang được thành kiến đối với tốc độ và thuận tiện chứ không phải sử dụng bộ nhớ; nó có thể là đáng giá để tái thẩm định sự lựa chọn này để chứa corpora lớn hơn bao giờ đào tạo. SRILM hiện nay giả định bảng mã ký tự đơn byte và sử dụng chỉ khoảng trắng cho tokenization; nó sẽ là mong muốn để bao gồm hỗ trợ cho bộ ký tự multibyte và định dạng dán SGML tại một số điểm. Cuối cùng, Tuy nhiên, sự phát triển của bộ công cụ sẽ tiếp tục được thúc đẩy bởi nhu cầu nghiên cứu, và do đó khó để dự đoán.
đang được dịch, vui lòng đợi..
