Các văn bản đồng bằng văn bản được
tự động phân đoạn câu, tokenized, và
đánh dấu phần-of-speech dẫn đến gần 13 triệu
câu và hơn 250 triệu từ được đánh dấu. Một ngôn ngữ
mô hình sau đó được xây dựng bằng cách sử dụng dữ liệu này với các
bộ công cụ SRILM mô tả trong (Stolcke, 2002).
đang được dịch, vui lòng đợi..
