Mô hình ILP Cây cấu trúc cụm từ sáp nhập, như thể hiện trong hình 2 (b), là đầu vào thực tế để
mô hình của chúng tôi. Mỗi cụm từ trong tài liệu được đưa ra một số điểm nổi bật. Chúng tôi có được những điểm số từ đầu ra của một thuật toán máy học có giám sát có thể dự đoán cho mỗi cụm từ cho dù đó nên được bao gồm trong những điểm nổi bật hay không (xem Phần 5 để biết chi tiết). S là tập hợp các câu trong một tài liệu, P là tập các cụm từ, và Ps ⊂ P là tập các cụm từ trong mỗi câu s ∈ S. T là tập hợp của những từ có cùng điểm số tf.idf cao nhất, và Pt ⊂ P là tập hợp các cụm từ chứa các mã thông báo t ∈ T .Let fi biểu thị số điểm nổi bật cho cụm từ i, được xác định
bởi các thuật toán máy học, và li là chiều dài của nó trong thẻ.
đang được dịch, vui lòng đợi..
