SVM được đào tạo với các tính năng tương tự được sử dụng
để có được điểm số nổi bật dựa trên cụm từ, nhưng với
nhãn án cấp (nhãn (1) và (2) tích cực,
(3) âm tính).
Đánh giá Chúng tôi đánh giá chất lượng tổng hợp
sử dụng ROUGE (Lin và Hovy, 2003). Đối với các
nhiệm vụ thế hệ nổi bật, các CNN nổi bật ban đầu
đã được sử dụng như là tài liệu tham khảo. Chúng tôi báo cáo unigram
chồng chéo (ROUGE-1) như một phương tiện để đánh giá
informativeness và dãy con dài nhất phổ biến
(ROUGE-L) như một phương tiện để đánh giá sự lưu loát.
Ngoài ra, chúng tôi đánh giá những điểm nổi bật được tạo ra
bằng cách gợi ý phán xét con người. Những người tham gia
đã được trình bày với một bài báo và tương ứng của nó
nổi bật và được yêu cầu đánh giá sau
cùng ba kích thước: informativeness
(làm? Những điểm nổi bật đại diện cho các chủ đề chính của bài viết),
grammaticality (? Là họ thông thạo), và rườm rà
(là họ quá dài dòng và lặp đi lặp lại?). Các đối tượng
sử dụng một thang đánh giá bảy điểm. Một lý tưởng
hệ thống sẽ nhận được số lượng lớn cho grammaticality
và informativeness và một số lượng thấp cho
rườm rà. Chúng tôi lựa chọn ngẫu nhiên chín tài liệu
từ các thiết lập thử nghiệm và tạo ra điểm nổi bật của chúng tôi với
mô hình và ILP cơ bản dựa trên câu. Chúng
cũng bao gồm những điểm nổi bật ban đầu như một tiêu chuẩn vàng.
Do đó chúng tôi thu được xếp hạng 27 (9 × 3)
tài liệu-điểm nổi bật pairs.4 Nghiên cứu được tiến hành
trên Internet bằng cách sử dụng WebExp (Keller
et al., 2009) và được hoàn thành bởi 34 tình nguyện viên,
tất cả tự báo cáo người nói tiếng Anh bản địa.
Đối với các nhiệm vụ tổng kết Với, sau
Martins và Smith (2009), chúng tôi sử dụng ROUGE-1
và ROUGE-2 để đánh giá sản lượng hệ thống của chúng tôi.
Chúng tôi cũng báo cáo kết quả với ROUGE-L. Mỗi tài liệu
trong tập dữ liệu ĐỨC-2002 được kết hợp với
đang được dịch, vui lòng đợi..