Các đơn vị thống kê và ngữ pháp được sử dụng như là chữ tiểu phương pháp tiếp cận trong tiếng Phần Lan,
thí nghiệm LVCSR Estonia và Thổ Nhĩ Kỳ. Đối với đào tạo mô hình ngôn ngữ tiếng Phần Lan và
các thí nghiệm Estonia chúng tôi sử dụng các thuật toán huấn luyện n-gram phát triển (Siivola & Pellom,
2005). Trong thuật toán này, các n-gram làm tăng khả năng tập huấn luyện đủ với
đối với sự gia tăng tương ứng trong các kích thước mô hình được chấp nhận vào các mô hình (như trong các
nguyên tắc MDL). Sau khi quá trình phát triển các mô hình tiếp tục được cắt tỉa với entropy dựa
tỉa. Phương pháp này cho phép chúng tôi để đào tạo mô hình nhỏ gọn và vuốt đúng cách sử dụng cao
để n-gram, vì chỉ có số liệu thống kê bậc cao cần thiết được thu thập và lưu trữ (Siivola
et al., 2007). Sử dụng để biến n-gram, chúng tôi cũng có thể kiểm soát hiệu quả các kích thước của các
mô hình để làm cho tất cả các mô hình ngôn ngữ so sánh đồng đều lớn. Bằng cách này, các n-gram sử dụng
đơn vị ngắn hơn không bị một chiều dài khoảng giới hạn đó là trường hợp khi chỉ có 3
gam hoặc 4-gram có sẵn. Đối với đào tạo mô hình ngôn ngữ trong ngôn ngữ Thổ Nhĩ Kỳ, n-gram
mô hình được xây dựng với bộ công cụ SRILM (Stolcke, 2002).
đang được dịch, vui lòng đợi..
