Các tài liệu văn bản đơn giảntự động câu phân đoạn, tokenized, vàmột phần của bài phát biểu được dán dẫn đến gần 13 triệucâu và 250 triệu dán từ. Một ngôn ngữMô hình sau đó được xây dựng bằng cách sử dụng dữ liệu này với cácSRILM bộ công cụ được mô tả trong (Stolcke, 2002).
đang được dịch, vui lòng đợi..
