Phần Lan là một ngôn ngữ biến cách cao, trong đó từ được hình thành chủ yếu do ngưng kết
và lãi kép. Phần Lan cũng là ngôn ngữ mà các thuật toán cho
phát hình vị không có giám sát (Creutz & Lagus, 2002) được phát triển ban đầu. Các
đơn vị của từ vựng morph cho các thí nghiệm trong bài báo này được rút ra từ một doanh
corpus chứa báo, sách và những câu chuyện của mạng tin hoàn toàn về 150 triệu
từ (CSC, 2001). Chúng tôi thu được một từ vựng của 50K biến hình thống kê bằng cách cho ăn học
thuật toán với các danh từ có chứa các 390K từ phổ biến nhất. Chiều dài trung bình
của một biến là 3,4 chữ bao gồm một biểu tượng phá vỡ từ khi từ trung bình chiều dài
là 7,9 chữ cái. Để so sánh, chúng tôi cũng tạo ra một từ vựng của 69k morphs ngữ pháp dựa
trên phân tích hình thái dựa trên nguyên tắc của các từ. Đối với đào tạo mô hình ngôn ngữ chúng ta sử dụng
ngữ liệu cùng một văn bản và các thuật toán huấn luyện n-gram phát triển (Siivola & Pellom, 2005)
và giới hạn kích thước mô hình ngôn ngữ cho khoảng 40M n-gram cho cả thống kê và
biến hình và từ ngữ pháp.
đang được dịch, vui lòng đợi..
