Điều này làm việc
114 KHAI THÁC DỮ LIỆU TEXT
cũng liên quan đến các khái niệm về chủ đề-mô hình, mà sẽ được thảo luận
chi tiết trong phần tiếp theo. Điều này là bởi vì các chủ đề khác nhau trong một
bộ sưu tập có thể được liên quan đến các cụm trong một bộ sưu tập. Các công việc trong [61]
sử dụng kỹ thuật đề-mô hình cho clustering. Ý tưởng cốt lõi trong công tác
của [61] là từ cá nhân không phải là rất hiệu quả cho một phân nhóm
thuật toán vì họ bỏ lỡ bối cảnh trong đó các từ được sử dụng. Ví
dụ, từ "ngôi sao" có thể hoặc tham khảo một thiên thể hoặc với một
nghệ sĩ. Mặt khác, khi cụm từ "ngôi sao cố định" được sử dụng,
nó trở nên rõ ràng rằng từ "ngôi sao" là một thiên thể. Các
cụm từ được trích ra từ bộ sưu tập cũng được gọi là
đang được dịch, vui lòng đợi..
