Để đào tạo và đánh giá các mô hình được trình bày
trong các phần sau chúng tôi tạo ra một corpus
của cặp tài liệu-highlight (khoảng
9.000) mà chúng ta tải về từ CNN.com
website.1 Các bài báo đã được lấy mẫu ngẫu nhiên
từ năm 2007-2009 và được bảo hiểm một rộng
phạm vi của các chủ đề như kinh doanh, tội phạm, y tế,
chính trị, showbiz, vv Phần lớn là tin tức
bài viết, nhưng các thiết lập cũng chứa một hỗn hợp của
các bài xã luận, bình luận, phỏng vấn và đánh giá.
Một số thống kê tổng quan về corpus được thể hiện
trong Bảng 2. Nhìn chung, chúng ta quan sát một mức độ cao của
nén cả các tài liệu và câu
mực. Các điểm nổi bật tóm tắt xu hướng được mười
ngắn hơn lần so với các điều luật tương ứng. Hơn nữa,
điểm nổi bật riêng có gần một nửa
chiều dài của câu văn.
đang được dịch, vui lòng đợi..