Làm thế nào để phát hiện ra các cụm từ thú vị (mà có thể là đòn bẩy cho
phân nhóm tài liệu) đã tự nó đã thu hút sự chú ý trong tự nhiên ngữ xử lý ngôn cộng đồng nghiên cứu, với lợi ích cụ thể trong việc khám phá các cụm từ đó có thể mô giác quan từ [34] hoặc một ngữ nghĩa khái niệm [21 ]. Trong [34], ví dụ, các thuật toán phân nhóm Markov đã được áp dụng để khám phá các giác quan từ corpus cụ thể một cách không có giám sát. Cụ thể, một đồ thị liên kết từ được xây dựng đầu tiên, trong đó có liên quan từ sẽ được kết nối với một cạnh. Đối với một từ được cho rằng có khả năng có nhiều giác quan, chúng ta có thể cô lập các đồ thị con đại diện cho các nước láng giềng. Những người hàng xóm đang dự kiến sẽ hình thành các cụm theo nghĩa khác nhau của từ mục tiêu, do đó bằng cách nhóm lại với nhau hàng xóm mà cũng được kết nối với nhau, chúng ta có thể khám phá các cụm từ đặc trưng cho ý nghĩa khác nhau của từ mục tiêu. Trong [21], một n-gram mô hình ngôn ngữ học đã được đề xuất từ cụm dựa vào việc giảm thiểu việc mất thông tin lẫn nhau giữa các từ lân cận, trong đó có thể đạt được hiệu quả của nhóm lại với nhau từ đó chia sẻ bối cảnh tương tự trong văn bản ngôn ngữ tự nhiên.
đang được dịch, vui lòng đợi..