Việc sử dụng rõ phrasal như vậy để cải thiện chất lượng của các
phân nhóm được gọi mịn như ngữ nghĩa vì nó làm giảm
tiếng ồn đó là liên kết với sự mơ hồ ngữ nghĩa. Do đó, một phần quan trọng
của phương pháp này là để trích dẫn những câu từ dòng dữ liệu cơ bản.
Sau khi cụm từ khai thác, quá trình đào tạo xác định một bản dịch
xác suất của các cụm từ với các điều khoản trong vốn từ vựng. Ví dụ,
từ "hành tinh" có thể có xác suất cao gắn với cụm từ
"ngôi sao cố định", bởi vì cả hai đều chỉ đến các thiên thể. Vì vậy, đối với một định
tài liệu, một số xác suất hợp lý cũng có thể được gán cho tất cả các kỳ hạn.
Đối với mỗi tài liệu, nó được giả định rằng tất cả các điều khoản trong nó được tạo ra, hoặc
bởi một mô hình chủ đề chữ ký, hoặc một mô hình thu nền
đang được dịch, vui lòng đợi..
