Để giải quyết các vấn đề của tokenization, đầu tiên chúng tôi
áp dụng các phương pháp của ngôn ngữ không phân đoạn chế biến.
Tuy nhiên, điều này gây ra giả phân khúc
mơ hồ và một ảnh hưởng đáng kể trong
thời gian phân tích. Vì vậy, chúng tôi đề xuất các khái niệm
của hình thái-mảnh vỡ đó tối thiểu bao gồm các
lexemes trong một ngôn ngữ. Mặc dù ý tưởng là khá
đơn giản, cách tiếp cận của chúng tôi tránh sự mơ hồ giả mạo và
đạt hiệu quả một cái nhìn lên của một từ điển có cấu trúc Trie.
Trong kết luận, các khái niệm về hình thái phân mảnh
làm cho nó dễ dàng để thực hiện ngôn ngữ
phân tích hình thái độc lập.
đang được dịch, vui lòng đợi..
