2 liên quan làm việc
nhiều nỗ lực trong việc tổng hợp tự động đã được dành để kết án khai thác thường được thể chế hoá thành một nhiệm vụ phân loại (Kupiec et al., 1995). Được đào tạo một cách thích hợp chú thích
dữ liệu, một bộ phân loại nhị phân học để dự đoán cho mỗi câu tài liệu, nếu nó là giá trị tính năng extracting.Surface cấp thường được sử dụng để chọn ra câu quan trọng. Chúng bao gồm sự hiện diện của một số cụm từ quan trọng, vị trí của một câu trong văn bản gốc, chiều dài câu, những từ ngữ trong tiêu đề, sự hiện diện của
danh từ riêng, vv (Mani, 2001; Sparck Jones, 1999).
Tương đối ít công việc đã tập trung vào các phương pháp khai thác cho các đơn vị nhỏ hơn so với câu. Jing và McKeown (2000) câu trích trước, sau đó loại bỏ các cụm từ không cần thiết, và sử dụng các quy tắc (thủ công) tái tổ hợp để sản xuất ra mạch lạc. Wan và Paris (2008) phân đoạn câu heuristically vào khoản trước khi khai thác diễn ra, và cho thấy rằng điều này cải thiện chất lượng tổng hợp.
Trong bối cảnh nhiều tài liệu tổng kết, công nghệ tự động cũng đã được sử dụng để loại bỏ các thông tin trong ngoặc đơn (Conroy et al., 2004; Siddharthanet al., 2004). Witten et al. (1999) (số những người khác) trích xuất keyphrases để nắm bắt được ý chính của các tài liệu, không tuy nhiên cố gắng tái tạo câu hoặc tạo ra bản tóm tắt.
Một vài phương pháp trước đây đã cố gắng để giao tiếp nén án với tổng kết.
Một cách đơn giản để đạt được điều này là bằng cách áp dụng một kiến trúc hai giai đoạn (ví dụ như, Lin
2003), nơi các câu đầu tiên được tách ra và sau đó được nén hoặc theo chiều ngược lại. Công việc khác
thực hiện một mô hình chung mà những từ và câu được xóa cùng một lúc từ một tài liệu.
Sử dụng một mô hình ồn ào kênh, Daume III và Marcu (2002) khai thác các cấu trúc ngôn
của một tài liệu và các cấu trúc cú pháp của câu của nó để quyết định thành phần để thả nhưng cũng có đơn vị tham luận là không quan trọng.
Martins và Smith (2009) Xây dựng khai thác câu chung và mô hình tổng kết như
một ILP. Sau này sẽ tối ưu hóa một hàm mục tiêu bao gồm hai phần: một thành phần chiết xuất, thực chất là biến thể không tham lam liên quan biên tối đa (McDonald, 2007), và
một thành phần nén câu, một phương pháp tái nhỏ gọn hơn của Clarke và Lapata (2008)
dựa trên đầu ra của một phân tích cú pháp phụ thuộc. Nén và khai thác mô hình được đào tạo một cách riêng biệt trong một khung tối đa lợi nhuận và sau đó nội suy.
Trong bối cảnh đa tài liệu tổng hợp, mô hình (2006) nho tăng trưởng Daume III của
'tạo ra bản tóm tắt từng bước, hoặc là bằng cách bắt đầu một câu mới hoặc bằng cách phát triển đã những cái hiện có
đang được dịch, vui lòng đợi..
