Kỷ yếu của Hội nghị thường niên lần thứ 48 của Hiệp hội Computational Linguistics, trang 565-574,
Uppsala, Thụy Điển, 11-ngày 16 tháng 7 năm 2010.
c 2010 Hiệp hội cho Computational Linguistics
thế hệ tự động của Câu chuyện nổi bật
Kristian Woodsend và Mirella Lapata
Trường Tin học, Trường Đại học Edinburgh
Edinburgh EH8 9AB, United Kingdom
k.woodsend@ed.ac.uk, mlap@inf.ed.ac.uk
Tóm tắt
Trong bài báo này chúng tôi trình bày một nội dung doanh
lựa chọn và nén model
dùng một tài liệu tổng hợp. Các
mô hình hoạt động trên một đại diện dựa trên cụm từ
của nguồn tài liệu mà
chúng tôi có được bằng cách kết hợp thông tin từ các
cây PCFG phân tích và đồ thị phụ thuộc.
Sử dụng một số nguyên tuyến tính lập trình,
mô hình học để lựa chọn và
kết hợp cụm từ đối tượng theo chiều dài, độ che phủ
và ngữ pháp hạn chế . Chúng tôi đánh giá
các phương pháp tiếp cận vào các nhiệm vụ tạo ra
"câu chuyện nổi bật" -một số nhỏ
ngắn gọn, câu khép kín cho phép
người đọc nhanh chóng thu thập thông tin về
các câu chuyện tin tức. Kết quả thực nghiệm cho thấy
rằng sản lượng của mô hình được so sánh với
điểm nổi bật của con người-viết cả về
grammaticality và nội dung.
1 Giới thiệu
tổng kết là quá trình ngưng tụ một
văn bản nguồn vào một phiên bản ngắn hơn trong khi vẫn giữ
nội dung thông tin của mình. Con người tóm tắt trên
một cơ sở hàng ngày và dễ dàng, nhưng sản xuất cao
tóm tắt chất lượng tự động vẫn còn là một thách thức.
Những khó khăn nằm chủ yếu trong bản chất
của nhiệm vụ đó là phức tạp, phải đáp ứng nhiều
hạn chế (ví dụ, chiều dài tóm tắt, informativeness,
sự gắn kết, grammaticality) và cuối cùng
đòi hỏi sự hiểu biết rộng vùng phủ sóng văn bản. Kể từ
sau này là vượt quá khả năng của NLP hiện
công nghệ, hầu hết công việc ngày hôm nay tập trung vào khai thác
tổng hợp, nơi một bản tóm tắt được tạo ra chỉ đơn giản
bằng cách xác định và sau đó nối các
câu quan trọng nhất trong một tài liệu.
Nếu không có một thỏa thuận tuyệt vời của phân tích ngôn ngữ, nó
có thể để tạo ra bản tóm tắt cho một phạm vi rộng
các văn bản. Thật không may, chiết xuất thường
văn bản dễ đọc thấp và chất lượng văn bản
và chứa nhiều thông tin không cần thiết. Điều này là
trái ngược với bản tóm tắt viết tay
mà thường kết hợp một số thông tin
từ các tài liệu gốc (Jing, 2002) và
triển lãm nhiều hoạt động viết lại như thay thế,
chèn thêm, xóa, hoặc reorderings.
Nén Sentence thường được coi là một
hứa hẹn bước đầu tiên hướng tới việc cải thiện một số
vấn đề liên quan tổng kết khai thác.
Các nhiệm vụ thường được thể hiện như một
vấn đề xóa từ. Nó liên quan đến việc tạo ra một đoạn ngắn
tóm tắt ngữ pháp của một câu duy nhất, bằng cách loại bỏ
các yếu tố đó được coi là không liên quan,
trong khi giữ lại các thông tin quan trọng nhất
(Knight và Marcu, 2002). Interfacing khai thác
tổng hợp với một mô-đun nén câu
có thể cải thiện sự súc tích của tạo
tóm tắt và làm cho chúng nhiều thông tin hơn
(Jing, 2000; Lin, 2003;. Zajic et al, 2007).
Mặc dù phần lớn các công việc về câu nén
và tổng kết (xem Clarke và Lapata
2008 và Mani năm 2001 cho tổng quan) chỉ một số ít
các phương pháp cố gắng làm cả hai trong một mô hình doanh
(Daume III và Marcu, 2002; Daum 'e III, năm 2006;'
Lin, 2003; Martins và Smith, 2009). Một lý do
cho điều này có thể thực hiện các câu
hệ thống nén mà rơi ngắn đạt
mức grammaticality sản lượng của con người. Ví dụ,
Clarke và Lapata (2008) đánh giá hàng loạt
các nhà nước-of-the-nghệ thuật các hệ thống nén khác nhau trên
các lĩnh vực và cho thấy rằng máy tạo ra các
lần ép luôn được coi là tồi tệ hơn
so với tiêu chuẩn vàng của con người. Một lý do khác là
mục tiêu tổng kết chính nó. Nếu mục tiêu của chúng tôi là
để tóm tắt các bài báo, sau đó chúng ta có thể được tốt hơn
off chọn n câu đầu tiên của tài liệu.
Điều này "dẫn" đường cơ sở có thể sai lầm về phía của
rườm rà nhưng ít nhất sẽ có ngữ pháp, và nó
đã thực sự tỏ ra cực kỳ khó khăn để làm tốt hơn
bằng các phương pháp phức tạp hơn (Nenkova, 2005).
Trong bài báo này chúng tôi đề xuất một mô hình cho tóm
565
marization mà kết hợp nén vào
nhiệm vụ. Một cái nhìn sâu sắc quan trọng trong cách tiếp cận của chúng tôi là xây dựng
tổng hợp là một cụm từ chứ không phải là câu
vấn đề khai thác. Nén rơi tự nhiên
ra khỏi công thức này như là cụm từ chỉ coi là
quan trọng nên xuất hiện trong phần tóm tắt. Rõ ràng,
tóm tắt đầu ra của chúng tôi phải đáp ứng thêm
các yêu cầu như độ dài câu, tổng
chiều dài, bảo hiểm chủ đề và, quan trọng, grammaticality.
Chúng tôi kết hợp cụm từ và sự phụ thuộc
thông tin vào một cấu trúc dữ liệu duy nhất, cho phép
chúng tôi bày tỏ grammaticality như những hạn chế
trên toàn phụ thuộc cụm từ. Chúng ta mã hóa những khó khăn
thông qua việc sử dụng các lập trình tuyến tính số nguyên
(ILP), một khung tối ưu hóa được nghiên cứu
có khả năng tìm kiếm toàn bộ không gian giải pháp
hiệu quả.
Chúng tôi áp dụng mô hình của chúng tôi với nhiệm vụ tạo
điểm nhấn cho một tài liệu duy nhất. Các ví dụ
của các bài báo tin tức CNN với điểm nổi bật của con người tác giả
được thể hiện trong Bảng 1. Những điểm nổi bật cho một
tổng quan ngắn gọn của bài viết để cho phép người đọc
nhanh chóng thu thập thông tin về những câu chuyện, và thường
xuất hiện như là điểm đạn. Quan trọng hơn, họ đại diện cho
các ý chính của toàn bộ tài liệu và do đó thường
có sự khác biệt đáng kể từ những câu n đầu tiên
trong bài viết (Svore et al., 2007). Họ cũng được
nén cao, được viết bằng một phong cách điện báo
và do đó cung cấp một nền tảng thử nghiệm tuyệt vời cho các mô hình
tạo ra bản tóm tắt nén. Thử nghiệm
kết quả cho thấy rằng đầu ra mô hình của chúng tôi có thể so sánh
với tay viết nổi bật cả về
grammaticality và informativeness.
2 liên quan làm việc
nhiều nỗ lực trong việc tổng hợp tự động đã được
dành để kết án khai thác thường được chính thức hóa
như một nhiệm vụ phân loại (Kupiec et al.,
1995). Được đào tạo một cách thích hợp chú thích
dữ liệu, một bộ phân loại nhị phân học để dự đoán cho
mỗi câu tài liệu, nếu nó là giá trị chiết xuất.
Tính năng Surface cấp thường được sử dụng để duy nhất
ra câu quan trọng. Chúng bao gồm các
hiện diện của một số cụm từ quan trọng, vị trí của
một câu trong văn bản gốc, câu
dài, các từ trong tiêu đề, sự hiện diện của
danh từ riêng, vv (Mani, 2001; Sparck Jones,
1999).
Tương đối ít công việc đã tập trung vào việc khai thác
các phương pháp cho các đơn vị nhỏ hơn so với câu. Jing và
McKeown (2000) câu trích trước, sau đó loại bỏ
các cụm từ không cần thiết, và sử dụng (bằng tay) tái tổ hợp
quy tắc để sản xuất ra mạch lạc. Wan
và Paris (2008) phân đoạn câu heuristically
vào khoản trước khi khai thác diễn ra, và
cho thấy rằng điều này cải thiện chất lượng tổng hợp.
Trong bối cảnh nhiều tài liệu tổng kết,
công nghệ tự động cũng đã được sử dụng để loại bỏ ngoặc
thông tin (Conroy et al., 2004; Siddharthan
et al., 2004). Witten et al. (1999) (trong số những
người khác) trích xuất keyphrases để nắm bắt được ý chính của các
tài liệu, không tuy nhiên cố gắng tái tạo
câu hoặc tạo ra bản tóm tắt.
Một vài phương pháp trước đây đã cố gắng để
giao diện nén án với tổng kết.
Một cách đơn giản để đạt được điều này là do
việc áp dụng một kiến trúc hai giai đoạn (ví dụ như, Lin
2003), nơi các câu đầu tiên được chiết xuất và sau đó
nén hoặc theo chiều ngược lại. Công việc khác
thực hiện một mô hình chung mà những từ và câu
được xóa cùng một lúc từ một tài liệu.
Sử dụng một mô hình ồn ào kênh, Daume III
'và Marcu (2002) khai thác các cấu trúc ngôn
của một tài liệu và các cấu trúc cú pháp của nó
câu để quyết định trong đó thành phần để
thả nhưng cũng có đơn vị tham luận là không quan trọng.
Martins và Smith (2009) Xây dựng một doanh
khai thác câu và mô hình tổng kết như
một ILP. Sau này sẽ tối ưu hóa một hàm mục tiêu
bao gồm hai phần: một thành phần chiết xuất,
thực chất là một biến thể không tham lam của tối đa
liên quan biên (McDonald, 2007), và
một thành phần nén câu, một nhỏ gọn hơn
sửa đổi chính sách Clarke và Lapata (2008)
dựa trên đầu ra của một phân tích cú pháp phụ thuộc. Nén
và khai thác mô hình được đào tạo một cách riêng biệt
trong một khung tối đa lợi nhuận và sau đó nội suy.
Trong bối cảnh đa tài liệu tổng hợp,
mô hình (2006) nho tăng trưởng Daume III của
'tạo ra bản tóm tắt từng bước, hoặc là bằng cách bắt đầu
một câu mới hoặc bằng cách phát triển đã hiện có
những người thân.
công việc riêng của chúng tôi là gần gũi nhất với Martins và Smith
(2009). Chúng tôi cũng phát triển một nén ILP dựa trên
và tổng kết mô hình, tuy nhiên, một số
khác biệt quan trọng thiết lập phương pháp tiếp cận của chúng tôi xa nhau. Thứ nhất,
lựa chọn nội dung được thực hiện tại các cụm từ chứ không phải
là cấp độ câu. Thứ hai, sự kết hợp của
cụm từ và sự phụ thuộc thông tin vào một đơn
cấu trúc dữ liệu này là mới, và quan trọng trong việc cho phép
chúng tôi bày tỏ grammaticality như những hạn chế trên toàn
phụ thuộc cụm từ, chứ không phải dùng đến một ngữ
566
Hầu hết người da đen nói là cách nhìn MLK của ứng nghiệm, thăm dò tìm
WASHINGTON ( CNN) - Hơn hai phần ba của AfricanAmericans
tin tầm nhìn Martin Luther King Jr. cho cuộc đua
quan hệ đã được trọn vẹn, một cuộc thăm dò của CNN tìm thấy - một con số lên
mạnh từ một cuộc khảo sát vào đầu năm 2008.
Cuộc khảo sát của CNN-Opinion Research Corp. được phát hành
thứ hai, một ngày lễ liên bang tôn vinh các quyền dân sự bị giết chết
lãnh đạo và một ngày trước khi ông Barack Obama sẽ được tuyên thệ nhậm chức
tổng thống Mỹ da đen đầu tiên.
Các cuộc thăm dò tìm thấy 69 phần trăm của người da đen cho biết tầm nhìn của King đã
được hoàn thành trong hơn 45 năm kể từ năm 1963 của ông: "Tôi có
một giấc mơ 'lời nói - gần gấp đôi 34 phần trăm người đã đồng
ý. với đánh giá trong một cuộc thăm dò tương tự chụp cuối tháng
ba. Nhưng người da trắng vẫn kém lạc quan, khảo sát tìm thấy
• 69 phần trăm của người da đen được hỏi nói rằng Martin Luther King Jr của
. tầm nhìn
nhận. • Phần lớn Slim của người da trắng nói là cách nhìn của King không hoàn thành
• King đã cho "Tôi có một giấc mơ" phát biểu của mình vào năm 1963.
9/11 billboard rút pháo phòng không từ Florida đảng Dân chủ, đảng Cộng hòa
(CNN) - Một người đàn ông Florida đang sử dụng biển quảng cáo với một hình ảnh của
sự đốt cháy Trung tâm Thương mại Thế giới khuyến khích phiếu cho một đảng Cộng hòa
ứng cử viên tổng thống, vẽ những lời chỉ trích đối với chính trị hóa
các cuộc tấn công 9/11.
'Xin Đừng bỏ phiếu cho đảng Dân chủ' đọc các loại qua các
hình ảnh của t sinh đôi
đang được dịch, vui lòng đợi..
