Trong bài này, chúng tôi đề xuất một mô hình cho số tiền-marization mà kết hợp nén thành cácnhiệm vụ. Một cái nhìn sâu sắc quan trọng trong cách tiếp cận của chúng tôi là xây dựng tổng hợp là một vấn đề khai thác cụm từ chứ không phải là câu. Nén rơi tự nhiên ra khỏi điều này xây dựng khi cụm từ chỉ coi là quan trọng nên xuất hiện trong phần tóm tắt. Rõ ràng, chúng tôi tóm tắt đầu ra phải đáp ứng các yêu cầu bổ sung chẳng hạn như câu chiều dài, chiều dài tổng thể, chủ đề bảo hiểm, và quan trọng, grammaticality. Chúng tôi kết hợp thông tin về cụm từ và phụ thuộc vào một cấu trúc dữ liệu duy nhất, cho phép chúng tôi để nhận grammaticality như những hạn chế trên cụm từ phụ thuộc. Chúng tôi mã hóa những khó khăn bằng cách sử dụng số nguyên tuyến tính lập trình (ILP), một khuôn khổ tối ưu hóa được nghiên cứu có thể tìm kiếm các giải pháp toàn bộ không gianhiệu quả. Chúng tôi áp dụng mô hình của chúng tôi cho việc tạo ra điểm nổi bật cho một tài liệu duy nhất. Các ví dụ của CNN tin tức bài viết có điểm nổi bật của con người tác giả được hiển thị trong bảng 1. Điểm nổi bật cho một tổng quan về bài viết để cho phép độc giả để nhanh chóng thu thập thông tin về những câu chuyện, và thường xuất hiện như bullet điểm. Quan trọng, họ đại diện cho ý chính của toàn bộ tài liệu và do đó thường khác nhau đáng kể từ n câu đầu tiên trong bài viết (Svore và ctv., 2007). Họ được cũng rất nén, viết bằng một phong cách điện báo và do đó cung cấp cho một thử nghiệm tuyệt vời cho các mô hình tạo ra tóm tắt nén. Hiển thị kết quả thử nghiệm của chúng tôi mẫu của sản lượng là tương đương để viết tay điểm nổi bật cả hai vềgrammaticality và informativeness.
đang được dịch, vui lòng đợi..
