Proceedings of the 48th Annual Meet

Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 565–574,
Uppsala, Sweden, 11-16 July 2010.
c 2010 Association for Computational Linguistics
Automatic Generation of Story Highlights
Kristian Woodsend and Mirella Lapata
School of Informatics, University of Edinburgh
Edinburgh EH8 9AB, United Kingdom
k.woodsend@ed.ac.uk, mlap@inf.ed.ac.uk
Abstract
In this paper we present a joint content
selection and compression model
for single-document summarization. The
model operates over a phrase-based representation
of the source document which
we obtain by merging information from
PCFG parse trees and dependency graphs.
Using an integer linear programming formulation,
the model learns to select and
combine phrases subject to length, coverage
and grammar constraints. We evaluate
the approach on the task of generating
“story highlights”—a small number of
brief, self-contained sentences that allow
readers to quickly gather information on
news stories. Experimental results show
that the model’s output is comparable to
human-written highlights in terms of both
grammaticality and content.
1 Introduction
Summarization is the process of condensing a
source text into a shorter version while preserving
its information content. Humans summarize on
a daily basis and effortlessly, but producing high
quality summaries automatically remains a challenge.
The difficulty lies primarily in the nature
of the task which is complex, must satisfy many
constraints (e.g., summary length, informativeness,
coherence, grammaticality) and ultimately
requires wide-coverage text understanding. Since
the latter is beyond the capabilities of current NLP
technology, most work today focuses on extractive
summarization, where a summary is created simply
by identifying and subsequently concatenating
the most important sentences in a document.
Without a great deal of linguistic analysis, it
is possible to create summaries for a wide range
of documents. Unfortunately, extracts are often
documents of low readability and text quality
and contain much redundant information. This is
in marked contrast with hand-written summaries
which often combine several pieces of information
from the original document (Jing, 2002) and
exhibit many rewrite operations such as substitutions,
insertions, deletions, or reorderings.
Sentence compression is often regarded as a
promising first step towards ameliorating some of
the problems associated with extractive summarization.
The task is commonly expressed as a
word deletion problem. It involves creating a short
grammatical summary of a single sentence, by removing
elements that are considered extraneous,
while retaining the most important information
(Knight and Marcu, 2002). Interfacing extractive
summarization with a sentence compression module
could improve the conciseness of the generated
summaries and render them more informative
(Jing, 2000; Lin, 2003; Zajic et al., 2007).
Despite the bulk of work on sentence compression
and summarization (see Clarke and Lapata
2008 and Mani 2001 for overviews) only a handful
of approaches attempt to do both in a joint model
(Daume III and Marcu, 2002; Daum ´ e III, 2006; ´
Lin, 2003; Martins and Smith, 2009). One reason
for this might be the performance of sentence
compression systems which falls short of attaining
grammaticality levels of human output. For example,
Clarke and Lapata (2008) evaluate a range
of state-of-the-art compression systems across different
domains and show that machine generated
compressions are consistently perceived as worse
than the human gold standard. Another reason is
the summarization objective itself. If our goal is
to summarize news articles, then we may be better
off selecting the first n sentences of the document.
This “lead” baseline may err on the side of
verbosity but at least will be grammatical, and it
has indeed proved extremely hard to outperform
by more sophisticated methods (Nenkova, 2005).
In this paper we propose a model for sum-
565
marization that incorporates compression into the
task. A key insight in our approach is to formulate
summarization as a phrase rather than sentence
extraction problem. Compression falls naturally
out of this formulation as only phrases deemed
important should appear in the summary. Obviously,
our output summaries must meet additional
requirements such as sentence length, overall
length, topic coverage and, importantly, grammaticality.
We combine phrase and dependency
information into a single data structure, which allows
us to express grammaticality as constraints
across phrase dependencies. We encode these constraints
through the use of integer linear programming
(ILP), a well-studied optimization framework
that is able to search the entire solution space
efficiently.
We apply our model to the task of generating
highlights for a single document. Examples
of CNN news articles with human-authored highlights
are shown in Table 1. Highlights give a
brief overview of the article to allow readers to
quickly gather information on stories, and usually
appear as bullet points. Importantly, they represent
the gist of the entire document and thus often
differ substantially from the first n sentences
in the article (Svore et al., 2007). They are also
highly compressed, written in a telegraphic style
and thus provide an excellent testbed for models
that generate compressed summaries. Experimental
results show that our model’s output is comparable
to hand-written highlights both in terms of
grammaticality and informativeness.
2 Related work
Much effort in automatic summarization has been
devoted to sentence extraction which is often formalized
as a classification task (Kupiec et al.,
1995). Given appropriately annotated training
data, a binary classifier learns to predict for
each document sentence if it is worth extracting.
Surface-level features are typically used to single
out important sentences. These include the
presence of certain key phrases, the position of
a sentence in the original document, the sentence
length, the words in the title, the presence of
proper nouns, etc. (Mani, 2001; Sparck Jones,
1999).
Relatively little work has focused on extraction
methods for units smaller than sentences. Jing and
McKeown (2000) first extract sentences, then remove
redundant phrases, and use (manual) recombination
rules to produce coherent output. Wan
and Paris (2008) segment sentences heuristically
into clauses before extraction takes place, and
show that this improves summarization quality.
In the context of multiple-document summarization,
heuristics have also been used to remove parenthetical
information (Conroy et al., 2004; Siddharthan
et al., 2004). Witten et al. (1999) (among
others) extract keyphrases to capture the gist of the
document, without however attempting to reconstruct
sentences or generate summaries.
A few previous approaches have attempted to
interface sentence compression with summarization.
A straightforward way to achieve this is by
adopting a two-stage architecture (e.g., Lin 2003)
where the sentences are first extracted and then
compressed or the other way round. Other work
implements a joint model where words and sentences
are deleted simultaneously from a document.
Using a noisy-channel model, Daume III ´
and Marcu (2002) exploit the discourse structure
of a document and the syntactic structure of its
sentences in order to decide which constituents to
drop but also which discourse units are unimportant.
Martins and Smith (2009) formulate a joint
sentence extraction and summarization model as
an ILP. The latter optimizes an objective function
consisting of two parts: an extraction component,
essentially a non-greedy variant of maximal
marginal relevance (McDonald, 2007), and
a sentence compression component, a more compact
reformulation of Clarke and Lapata (2008)
based on the output of a dependency parser. Compression
and extraction models are trained separately
in a max-margin framework and then interpolated.
In the context of multi-document summarization,
Daume III’s (2006) vine-growth model ´
creates summaries incrementally, either by starting
a new sentence or by growing already existing
ones.
Our own work is closest to Martins and Smith
(2009). We also develop an ILP-based compression
and summarization model, however, several
key differences set our approach apart. Firstly,
content selection is performed at the phrase rather
than sentence level. Secondly, the combination of
phrase and dependency information into a single
data structure is new, and important in allowing
us to express grammaticality as constraints across
phrase dependencies, rather than resorting to a lan-
566
Most blacks say MLK’s vision fulfilled, poll finds
WASHINGTON (CNN) – More than two-thirds of AfricanAmericans
believe Martin Luther King Jr.’s vision for race
relations has been fulfilled, a CNN poll found – a figure up
sharply from a survey in early 2008.
The CNN-Opinion Research Corp. survey was released
Monday, a federal holiday honoring the slain civil rights
leader and a day before Barack Obama is to be sworn in as
the first black U.S. president.
The poll found 69 percent of blacks said King’s vision has
been fulfilled in the more than 45 years since his 1963 ’I have
a dream’ speech – roughly double the 34 percent who agreed
with that assessment in a similar poll taken last March.
But whites remain less optimistic, the survey found.
• 69 percent of blacks polled say Martin Luther King Jr’s
vision realized.
• Slim majority of whites say King’s vision not fulfilled.
• King gave his “I have a dream” speech in 1963.
9/11 billboard draws flak from Florida Democrats, GOP
(CNN) – A Florida man is using billboards with an image of
the burning World Trade Center to encourage votes for a Republican
presidential candidate, drawing criticism for politicizing
the 9/11 attacks.
‘Please Don’t Vote for a Democrat’ reads the type over the
picture of the twin t

Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 565–574,
Uppsala, Sweden, 11-16 July 2010. 
c 2010 Association for Computational Linguistics
Automatic Generation of Story Highlights
Kristian Woodsend and Mirella Lapata
School of Informatics, University of Edinburgh
Edinburgh EH8 9AB, United Kingdom
k.woodsend@ed.ac.uk, mlap@inf.ed.ac.uk
Abstract
In this paper we present a joint content
selection and compression model
for single-document summarization. The
model operates over a phrase-based representation
of the source document which
we obtain by merging information from
PCFG parse trees and dependency graphs.
Using an integer linear programming formulation,
the model learns to select and
combine phrases subject to length, coverage
and grammar constraints. We evaluate
the approach on the task of generating
“story highlights”—a small number of
brief, self-contained sentences that allow
readers to quickly gather information on
news stories. Experimental results show
that the model’s output is comparable to
human-written highlights in terms of both
grammaticality and content.
1 Introduction
Summarization is the process of condensing a
source text into a shorter version while preserving
its information content. Humans summarize on
a daily basis and effortlessly, but producing high
quality summaries automatically remains a challenge.
The difficulty lies primarily in the nature
of the task which is complex, must satisfy many
constraints (e.g., summary length, informativeness,
coherence, grammaticality) and ultimately
requires wide-coverage text understanding. Since
the latter is beyond the capabilities of current NLP
technology, most work today focuses on extractive
summarization, where a summary is created simply
by identifying and subsequently concatenating
the most important sentences in a document.
Without a great deal of linguistic analysis, it
is possible to create summaries for a wide range
of documents. Unfortunately, extracts are often
documents of low readability and text quality
and contain much redundant information. This is
in marked contrast with hand-written summaries
which often combine several pieces of information
from the original document (Jing, 2002) and
exhibit many rewrite operations such as substitutions,
insertions, deletions, or reorderings.
Sentence compression is often regarded as a
promising first step towards ameliorating some of
the problems associated with extractive summarization.
The task is commonly expressed as a
word deletion problem. It involves creating a short
grammatical summary of a single sentence, by removing
elements that are considered extraneous,
while retaining the most important information
(Knight and Marcu, 2002). Interfacing extractive
summarization with a sentence compression module
could improve the conciseness of the generated
summaries and render them more informative
(Jing, 2000; Lin, 2003; Zajic et al., 2007).
Despite the bulk of work on sentence compression
and summarization (see Clarke and Lapata
2008 and Mani 2001 for overviews) only a handful
of approaches attempt to do both in a joint model
(Daume III and Marcu, 2002; Daum ´ e III, 2006; ´
Lin, 2003; Martins and Smith, 2009). One reason
for this might be the performance of sentence
compression systems which falls short of attaining
grammaticality levels of human output. For example,
Clarke and Lapata (2008) evaluate a range
of state-of-the-art compression systems across different
domains and show that machine generated
compressions are consistently perceived as worse
than the human gold standard. Another reason is
the summarization objective itself. If our goal is
to summarize news articles, then we may be better
off selecting the first n sentences of the document.
This “lead” baseline may err on the side of
verbosity but at least will be grammatical, and it
has indeed proved extremely hard to outperform
by more sophisticated methods (Nenkova, 2005).
In this paper we propose a model for sum-
565
marization that incorporates compression into the
task. A key insight in our approach is to formulate
summarization as a phrase rather than sentence
extraction problem. Compression falls naturally
out of this formulation as only phrases deemed
important should appear in the summary. Obviously,
our output summaries must meet additional
requirements such as sentence length, overall
length, topic coverage and, importantly, grammaticality.
We combine phrase and dependency
information into a single data structure, which allows
us to express grammaticality as constraints
across phrase dependencies. We encode these constraints
through the use of integer linear programming
(ILP), a well-studied optimization framework
that is able to search the entire solution space
efficiently.
We apply our model to the task of generating
highlights for a single document. Examples
of CNN news articles with human-authored highlights
are shown in Table 1. Highlights give a
brief overview of the article to allow readers to
quickly gather information on stories, and usually
appear as bullet points. Importantly, they represent
the gist of the entire document and thus often
differ substantially from the first n sentences
in the article (Svore et al., 2007). They are also
highly compressed, written in a telegraphic style
and thus provide an excellent testbed for models
that generate compressed summaries. Experimental
results show that our model’s output is comparable
to hand-written highlights both in terms of
grammaticality and informativeness.
2 Related work
Much effort in automatic summarization has been
devoted to sentence extraction which is often formalized
as a classification task (Kupiec et al.,
1995). Given appropriately annotated training
data, a binary classifier learns to predict for
each document sentence if it is worth extracting.
Surface-level features are typically used to single
out important sentences. These include the
presence of certain key phrases, the position of
a sentence in the original document, the sentence
length, the words in the title, the presence of
proper nouns, etc. (Mani, 2001; Sparck Jones,
1999).
Relatively little work has focused on extraction
methods for units smaller than sentences. Jing and
McKeown (2000) first extract sentences, then remove
redundant phrases, and use (manual) recombination
rules to produce coherent output. Wan
and Paris (2008) segment sentences heuristically
into clauses before extraction takes place, and
show that this improves summarization quality.
In the context of multiple-document summarization,
heuristics have also been used to remove parenthetical
information (Conroy et al., 2004; Siddharthan
et al., 2004). Witten et al. (1999) (among
others) extract keyphrases to capture the gist of the
document, without however attempting to reconstruct
sentences or generate summaries.
A few previous approaches have attempted to
interface sentence compression with summarization.
A straightforward way to achieve this is by
adopting a two-stage architecture (e.g., Lin 2003)
where the sentences are first extracted and then
compressed or the other way round. Other work
implements a joint model where words and sentences
are deleted simultaneously from a document.
Using a noisy-channel model, Daume III ´
and Marcu (2002) exploit the discourse structure
of a document and the syntactic structure of its
sentences in order to decide which constituents to
drop but also which discourse units are unimportant.
Martins and Smith (2009) formulate a joint
sentence extraction and summarization model as
an ILP. The latter optimizes an objective function
consisting of two parts: an extraction component,
essentially a non-greedy variant of maximal
marginal relevance (McDonald, 2007), and
a sentence compression component, a more compact
reformulation of Clarke and Lapata (2008)
based on the output of a dependency parser. Compression
and extraction models are trained separately
in a max-margin framework and then interpolated.
In the context of multi-document summarization,
Daume III’s (2006) vine-growth model ´
creates summaries incrementally, either by starting
a new sentence or by growing already existing
ones.
Our own work is closest to Martins and Smith
(2009). We also develop an ILP-based compression
and summarization model, however, several
key differences set our approach apart. Firstly,
content selection is performed at the phrase rather
than sentence level. Secondly, the combination of
phrase and dependency information into a single
data structure is new, and important in allowing
us to express grammaticality as constraints across
phrase dependencies, rather than resorting to a lan-
566
Most blacks say MLK’s vision fulfilled, poll finds
WASHINGTON (CNN) – More than two-thirds of AfricanAmericans
believe Martin Luther King Jr.’s vision for race
relations has been fulfilled, a CNN poll found – a figure up
sharply from a survey in early 2008.
The CNN-Opinion Research Corp. survey was released
Monday, a federal holiday honoring the slain civil rights
leader and a day before Barack Obama is to be sworn in as
the first black U.S. president.
The poll found 69 percent of blacks said King’s vision has
been fulfilled in the more than 45 years since his 1963 ’I have
a dream’ speech – roughly double the 34 percent who agreed
with that assessment in a similar poll taken last March.
But whites remain less optimistic, the survey found.
• 69 percent of blacks polled say Martin Luther King Jr’s
vision realized.
• Slim majority of whites say King’s vision not fulfilled.
• King gave his “I have a dream” speech in 1963.
9/11 billboard draws flak from Florida Democrats, GOP
(CNN) – A Florida man is using billboards with an image of
the burning World Trade Center to encourage votes for a Republican
presidential candidate, drawing criticism for politicizing
the 9/11 attacks.
‘Please Don’t Vote for a Democrat’ reads the type over the
picture of the twin t

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Thủ tục tố tụng của hội nghị thường niên 48 của Hiệp hội cho ngôn ngữ học tính toán, trang 565-574,Uppsala, Thụy Điển, 11-16 tháng 7 năm 2010. c 2010 Hiệp hội cho ngôn ngữ học tính toánTự động thế hệ của câu chuyện nổi bậtKristian Woodsend và Mirella LapataTrường tin học, đại học EdinburghEdinburgh EH8 9AB, Vương Quốc Anhk.woodsend@Ed.ac.uk, mlap@inf.ed.ac.ukTóm tắtTrong bài này chúng tôi trình bày một nội dung chungMô hình lựa chọn và nénĐối với đơn-tài liệu tổng hợp. CácMô hình hoạt động trong một đại diện dựa trên cụm từnguồn tài liệu màchúng tôi có được bằng việc sáp nhập các thông tin từPCFG phân tích cây và đồ thị phụ thuộc.Bằng cách sử dụng một số nguyên tuyến tính lập trình xây dựng,Các mô hình học để chọn vàkết hợp cụm từ tùy thuộc vào chiều dài, phạm vi bảo hiểmvà ngữ pháp hạn chế. Chúng tôi đánh giácách tiếp cận vào công việc tạo ra"câu chuyện nổi bật"-một số lượng nhỏcâu ngắn, khép cho phépcác độc giả để nhanh chóng thu thập thông tin vềcâu chuyện tin tức. Hiển thị kết quả thử nghiệmCác mô hình của sản lượng là tương đương vớiviết lưu con người nổi bật trong điều khoản của cả haigrammaticality và nội dung.1 giới thiệuTổng hợp là quá trình ngưng tụ mộtnguồn gốc văn bản vào một phiên bản ngắn hơn trong khi bảo quảnnội dung thông tin của nó. Con người tóm tắt vàomột cơ sở hàng ngày và dễ dàng, nhưng sản xuất caochất lượng tóm tắt tự động vẫn là một thách thức.Khó khăn nằm chủ yếu trong thiên nhiêncủa công việc mà rất phức tạp, phải đáp ứng nhiềunhững hạn chế (ví dụ, độ dài tóm tắt, informativeness,tính mạch lạc, grammaticality) và cuối cùngđòi hỏi sự hiểu biết văn bản rộng phạm vi bảo hiểm. Kể từsau đó là vượt ra ngoài khả năng của hiện tại NLPcông nghệ, hầu hết làm việc ngày hôm nay tập trung vào extractiveTổng hợp, nơi một bản tóm tắt được tạo ra chỉ đơn giản làbằng cách xác định và sau đó ghépCác câu quan trọng nhất trong một tài liệu.Mà không có một thỏa thuận tuyệt vời của ngôn ngữ phân tích, nócó thể tạo ra tóm lược cho một loạt cáctài liệu. Thật không may, chất chiết xuất từ thườngCác tài liệu của chất lượng thấp, dễ đọc và văn bảnvà chứa nhiều thông tin dự phòng. Điều này làđánh dấu trái ngược với viết tay tóm lượcmà thường kết hợp một số mẩu thông tintừ tài liệu gốc (Jing, 2002) vàtriển lãm nhiều hoạt động viết lại chẳng hạn như thay thế,Thêm vào, xóa, hoặc reorderings.Câu nén thường được coi là mộthứa hẹn bước đầu tiên hướng tới tăng một sốCác vấn đề liên quan đến khai khoáng tổng hợp.Nhiệm vụ thường được biểu thị dưới dạng mộtCác vấn đề xóa từ. Nó liên quan đến việc tạo ra một đoạn ngắnCác tóm tắt ngữ pháp của một câu duy nhất, bằng cách loại bỏyếu tố mà được coi là không liên quan,trong khi giữ lại các thông tin quan trọng nhất(Hiệp sĩ và Marcu, 2002). Interfacing extractiveTổng hợp với một mô-đun nén câucó thể cải thiện conciseness của việc tạo raTóm lược và làm cho họ nhiều thông tin hơn(Jing, năm 2000; Lin, 2003; Zajic et al., 2007).Mặc dù phần lớn các công việc trên câu nénvà tổng hợp (xem Clarke và Lapata2008 và Mani năm 2001 cho overviews) chỉ là một số ítphương pháp tiếp cận nỗ lực để làm cả hai trong một mô hình chung(Daume III và Marcu, 2002; Daum ´ e III, 2006; ´Lin, 2003; Martins và Smith, 2009). Một lý doĐối với điều này có thể là hiệu suất của câuHệ thống nén mà rơi ngắn của đạt đượcgrammaticality các cấp độ của con người ra. Ví dụ,Clarke và Lapata (2008) đánh giá rất nhiềuHệ thống nhà nước-of-the-nghệ thuật nén trên khác nhautên miền và hiển thị mà máy tạo ranén luôn coi là tồi tệ hơnso với các tiêu chuẩn vàng của con người. Một lý do làmục tiêu tổng hợp chính nó. Nếu mục tiêu của chúng tôi làđể tóm tắt tin tức bài viết, sau đó chúng tôi có thể tốt hơntắt chọn n câu đầu tiên của tài liệu.Này "dẫn" đường cơ sở có thể err trên mặt củaverbosity nhưng ít sẽ được về ngữ pháp, và nóthực sự đã chứng minh vô cùng khó khăn để tốt hơnbằng phương pháp phức tạp hơn (Nenkova, 2005).Trong bài này, chúng tôi đề xuất một mô hình cho số tiền-565marization mà kết hợp nén thành cácnhiệm vụ. Một cái nhìn sâu sắc quan trọng trong cách tiếp cận của chúng tôi là để xây dựngTổng hợp như là một cụm từ hơn là câukhai thác vấn đề. Nén rơi tự nhiênra khỏi điều này xây dựng là cụm từ chỉ coi làquan trọng sẽ xuất hiện trong phần tóm tắt. Rõ ràng,chúng tôi tóm tắt đầu ra phải đáp ứng bổ sungCác yêu cầu như câu dài, tổng thểchiều dài, phạm vi bảo hiểm chủ đề, và quan trọng, grammaticality.Chúng tôi kết hợp cụm từ và phụ thuộcCác thông tin vào một cấu trúc dữ liệu duy nhất, cho phépchúng tôi để thể hiện grammaticality như những hạn chếtrên cụm từ quan hệ phụ thuộc. Chúng tôi mã hóa những khó khănbằng cách sử dụng số nguyên tuyến tính lập trình(ILP), một khuôn khổ tối ưu hóa được nghiên cứuđó có thể tìm kiếm các giải pháp toàn bộ không gianhiệu quả.Chúng tôi áp dụng mô hình của chúng tôi cho việc tạo rađiểm nổi bật cho một tài liệu duy nhất. Ví dụcủa CNN tin tức bài viết có nhân tác giả nổi bậtĐang hiển thị trong bảng 1. Điểm nổi bật cho mộtTổng quan về bài viết để cho phép độc giảnhanh chóng thu thập thông tin về câu chuyện, và thườngxuất hiện dưới dạng bullet điểm. Quan trọng, họ đại diện choThe gist của toàn bộ tài liệu và do đó thườngkhác biệt đáng kể từ n câu đầu tiêntrong bài viết (Svore và ctv., 2007). Chúng cũng làrất nén, viết bằng một phong cách điện báovà do đó cung cấp cho một thử nghiệm tuyệt vời cho các mô hìnhmà tạo ra tóm tắt nén. Thử nghiệmkết quả hiển thị là đầu ra của chúng tôi mẫu so sánhviết tay để làm nổi bật cả hai vềgrammaticality và informativeness.2 tác phẩm liên quanNhiều nỗ lực tổng hợp tự động đãdành cho khai thác câu thường chính thức hóanhư là một nhiệm vụ phân loại (Kupiec et al.,Năm 1995). cho chú thích một cách thích hợp đào tạodữ liệu, một nhị phân loại học để dự đoán chomỗi câu tài liệu nếu nó là giá trị giải nén.Bề mặt cấp tính năng thường được sử dụng để duy nhấttrong câu quan trọng. Chúng bao gồm cácsự hiện diện của một số cụm từ khóa, vị trí củamột câu trong tài liệu gốc, câuchiều dài, từ trong tiêu đề, sự hiện diện củamục từ tiếng, vv (Mani, năm 2001; Sparck Jones,năm 1999).Tương đối ít công việc đã tập trung vào khai thácphương pháp cho các đơn vị nhỏ hơn câu. Jing vàMcKeown (2000) đầu tiên chiết xuất câu, sau đó loại bỏcụm từ dư thừa, và sử dụng (hướng dẫn sử dụng) genquy tắc để sản xuất sản lượng chặt chẽ. Wanvà Paris (2008) phân đoạn câu nhờvào điều khoản trước khi khai thác diễn ra, vàcho thấy rằng điều này cải thiện chất lượng tổng hợp.Trong bối cảnh nhiều tài liệu tổng hợp,chẩn đoán cũng đã được sử dụng để loại bỏ parentheticalthông tin (Conroy et al, 2004; Siddharthanet al, 2004). Witten et al. (1999) (trong sốnhững người khác) giải nén keyphrases để nắm bắt ý chính của cáctài liệu, Tuy nhiên cố gắng tái tạo lạicâu hoặc tạo ra các bản tóm lược.Một vài phương pháp tiếp cận trước đó đã cố gắnggiao diện câu nén với tổng hợp.Một cách đơn giản để đạt điều này làviệc áp dụng một kiến trúc hai giai đoạn (ví dụ như, Lin 2003)nơi các câu đầu tiên được chiết xuất và sau đónén hoặc các cách vòng. Công việc khácthực hiện một mô hình chung nơi từ và câusẽ bị xóa cùng một lúc từ một tài liệu.Bằng cách sử dụng một mô hình kênh ồn ào, Daume III ´và Marcu (2002) khai thác cấu trúc discoursecủa một tài liệu và cấu trúc cú pháp của nócâu để quyết định những thành phần đểthả, nhưng cũng có discourse đơn vị là không quan trọng.Martins và Smith (2009) xây dựng một phầnkhai thác câu, mô hình tổng hợp nhưmột ILP. Sau này tối ưu hóa một hàm mục tiêubao gồm hai phần: một thành phần khai thác,về cơ bản là một phiên bản phòng không tham lam của tối đamức độ liên quan biên (McDonald, 2007), vàmột thành phần nén câu, một nhỏ gọn hơnreformulation Clarke và Lapata (2008)Dựa trên đầu ra của một phân tích cú pháp phụ thuộc. Nénvà mô hình khai thác được đào tạo một cách riêng biệttrong một khuôn khổ tối đa lợi nhuận và sau đó interpolated.Trong bối cảnh đa tài liệu tổng hợp,Daume III của cây nho (2006), sự phát triển mô hình ´tạo ra các bản tóm lược từng bước, hoặc là do bắt đầumột câu mới hoặc bằng cách phát triển đã tồn tạinhững người.Công việc của riêng của chúng tôi là gần nhất với Martins và Smith(Năm 2009). chúng tôi cũng phát triển một nén dựa trên ILPvà tổng hợp mô hình, Tuy nhiên, một sốkhác biệt quan trọng thiết lập phương pháp tiếp cận của chúng tôi ngoài. Trước hết,lựa chọn nội dung được thực hiện tại cụm từ thay vìhơn mức độ câu. Thứ hai, sự kết hợp củathông tin về cụm từ và phụ thuộc vào một đĩa đơncấu trúc dữ liệu là mới, và quan trọng trong việc cho phépchúng tôi để thể hiện grammaticality như những hạn chế trêncụm từ phụ thuộc, chứ không phải dùng đến một mạng lan-566Hầu hết người da đen nói của MLK tầm nhìn hoàn thành, cuộc thăm dò tìmWASHINGTON (CNN)-hơn hai phần ba AfricanAmericanstin rằng Martin Luther King Jr tầm nhìn cho cuộc đuaquan hệ đã được hoàn thành, một cuộc thăm dò CNN tìm thấy-một con số lênmạnh từ một cuộc khảo sát vào đầu năm 2008.Cuộc khảo sát công ty nghiên cứu CNN-ý kiến đã được phát hànhThứ hai, một ngày lễ liên bang tôn trọng các quyền dân sự bị giếtlãnh đạo và một ngày trước khi Barack Obama là để được tuyên thệ nhậm chức nhưTổng thống Hoa Kỳ đầu tiên màu đen.Các cuộc thăm dò tìm thấy 69 phần trăm của người da đen nói rằng tầm nhìn của nhà vua đãhoàn thành trong năm của mình năm 1963, hơn 45 ' tôi cómột giấc mơ ' bài phát biểu-khoảng gấp đôi 34% những người đã đồng ývới rằng đánh giá trong một cuộc thăm dò tương tự thực hiện cuối tháng.Nhưng người da trắng duy trì ít lạc quan, cuộc khảo sát tìm thấy.• 69 phần trăm của người da đen được hỏi nói Martin Luther King Jrtầm nhìn nhận ra.• Slim đa số người da trắng nói King's tầm nhìn không hoàn thành.• King đã cung cấp bài phát biểu "I have a dream" vào năm 1963.9/11 billboard thu hút flak từ Florida Đảng dân chủ, Đảng Cộng hòa(CNN)-một người đàn ông Florida sử dụng bảng với một hình ảnh củaTrung tâm thương mại thế giới đang cháy để khuyến khích phiếu cho một đảng Cộng hòaứng cử viên tổng thống, vẽ những lời chỉ trích cho politicizing9/11 vụ tấn công.'Xin vui lòng không bỏ phiếu cho một đảng dân chủ' đọc các loại cáchình ảnh của đôi t

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Kỷ yếu của Hội nghị thường niên lần thứ 48 của Hiệp hội Computational Linguistics, trang 565-574,
Uppsala, Thụy Điển, 11-ngày 16 tháng 7 năm 2010.
c 2010 Hiệp hội cho Computational Linguistics
thế hệ tự động của Câu chuyện nổi bật
Kristian Woodsend và Mirella Lapata
Trường Tin học, Trường Đại học Edinburgh
Edinburgh EH8 9AB, United Kingdom
k.woodsend@ed.ac.uk, mlap@inf.ed.ac.uk
Tóm tắt
Trong bài báo này chúng tôi trình bày một nội dung doanh
lựa chọn và nén model
dùng một tài liệu tổng hợp. Các
mô hình hoạt động trên một đại diện dựa trên cụm từ
của nguồn tài liệu mà
chúng tôi có được bằng cách kết hợp thông tin từ các
cây PCFG phân tích và đồ thị phụ thuộc.
Sử dụng một số nguyên tuyến tính lập trình,
mô hình học để lựa chọn và
kết hợp cụm từ đối tượng theo chiều dài, độ che phủ
và ngữ pháp hạn chế . Chúng tôi đánh giá
các phương pháp tiếp cận vào các nhiệm vụ tạo ra
"câu chuyện nổi bật" -một số nhỏ
ngắn gọn, câu khép kín cho phép
người đọc nhanh chóng thu thập thông tin về
các câu chuyện tin tức. Kết quả thực nghiệm cho thấy
rằng sản lượng của mô hình được so sánh với
điểm nổi bật của con người-viết cả về
grammaticality và nội dung.
1 Giới thiệu
tổng kết là quá trình ngưng tụ một
văn bản nguồn vào một phiên bản ngắn hơn trong khi vẫn giữ
nội dung thông tin của mình. Con người tóm tắt trên
một cơ sở hàng ngày và dễ dàng, nhưng sản xuất cao
tóm tắt chất lượng tự động vẫn còn là một thách thức.
Những khó khăn nằm chủ yếu trong bản chất
của nhiệm vụ đó là phức tạp, phải đáp ứng nhiều
hạn chế (ví dụ, chiều dài tóm tắt, informativeness,
sự gắn kết, grammaticality) và cuối cùng
đòi hỏi sự hiểu biết rộng vùng phủ sóng văn bản. Kể từ
sau này là vượt quá khả năng của NLP hiện
công nghệ, hầu hết công việc ngày hôm nay tập trung vào khai thác
tổng hợp, nơi một bản tóm tắt được tạo ra chỉ đơn giản
bằng cách xác định và sau đó nối các
câu quan trọng nhất trong một tài liệu.
Nếu không có một thỏa thuận tuyệt vời của phân tích ngôn ngữ, nó
có thể để tạo ra bản tóm tắt cho một phạm vi rộng
các văn bản. Thật không may, chiết xuất thường
văn bản dễ đọc thấp và chất lượng văn bản
và chứa nhiều thông tin không cần thiết. Điều này là
trái ngược với bản tóm tắt viết tay
mà thường kết hợp một số thông tin
từ các tài liệu gốc (Jing, 2002) và
triển lãm nhiều hoạt động viết lại như thay thế,
chèn thêm, xóa, hoặc reorderings.
Nén Sentence thường được coi là một
hứa hẹn bước đầu tiên hướng tới việc cải thiện một số
vấn đề liên quan tổng kết khai thác.
Các nhiệm vụ thường được thể hiện như một
vấn đề xóa từ. Nó liên quan đến việc tạo ra một đoạn ngắn
tóm tắt ngữ pháp của một câu duy nhất, bằng cách loại bỏ
các yếu tố đó được coi là không liên quan,
trong khi giữ lại các thông tin quan trọng nhất
(Knight và Marcu, 2002). Interfacing khai thác
tổng hợp với một mô-đun nén câu
có thể cải thiện sự súc tích của tạo
tóm tắt và làm cho chúng nhiều thông tin hơn
(Jing, 2000; Lin, 2003;. Zajic et al, 2007).
Mặc dù phần lớn các công việc về câu nén
và tổng kết (xem Clarke và Lapata
2008 và Mani năm 2001 cho tổng quan) chỉ một số ít
các phương pháp cố gắng làm cả hai trong một mô hình doanh
(Daume III và Marcu, 2002; Daum 'e III, năm 2006;'
Lin, 2003; Martins và Smith, 2009). Một lý do
cho điều này có thể thực hiện các câu
hệ thống nén mà rơi ngắn đạt
mức grammaticality sản lượng của con người. Ví dụ,
Clarke và Lapata (2008) đánh giá hàng loạt
các nhà nước-of-the-nghệ thuật các hệ thống nén khác nhau trên
các lĩnh vực và cho thấy rằng máy tạo ra các
lần ép luôn được coi là tồi tệ hơn
so với tiêu chuẩn vàng của con người. Một lý do khác là
mục tiêu tổng kết chính nó. Nếu mục tiêu của chúng tôi là
để tóm tắt các bài báo, sau đó chúng ta có thể được tốt hơn
off chọn n câu đầu tiên của tài liệu.
Điều này "dẫn" đường cơ sở có thể sai lầm về phía của
rườm rà nhưng ít nhất sẽ có ngữ pháp, và nó
đã thực sự tỏ ra cực kỳ khó khăn để làm tốt hơn
bằng các phương pháp phức tạp hơn (Nenkova, 2005).
Trong bài báo này chúng tôi đề xuất một mô hình cho tóm
565
marization mà kết hợp nén vào
nhiệm vụ. Một cái nhìn sâu sắc quan trọng trong cách tiếp cận của chúng tôi là xây dựng
tổng hợp là một cụm từ chứ không phải là câu
vấn đề khai thác. Nén rơi tự nhiên
ra khỏi công thức này như là cụm từ chỉ coi là
quan trọng nên xuất hiện trong phần tóm tắt. Rõ ràng,
tóm tắt đầu ra của chúng tôi phải đáp ứng thêm
các yêu cầu như độ dài câu, tổng
chiều dài, bảo hiểm chủ đề và, quan trọng, grammaticality.
Chúng tôi kết hợp cụm từ và sự phụ thuộc
thông tin vào một cấu trúc dữ liệu duy nhất, cho phép
chúng tôi bày tỏ grammaticality như những hạn chế
trên toàn phụ thuộc cụm từ. Chúng ta mã hóa những khó khăn
thông qua việc sử dụng các lập trình tuyến tính số nguyên
(ILP), một khung tối ưu hóa được nghiên cứu
có khả năng tìm kiếm toàn bộ không gian giải pháp
hiệu quả.
Chúng tôi áp dụng mô hình của chúng tôi với nhiệm vụ tạo
điểm nhấn cho một tài liệu duy nhất. Các ví dụ
của các bài báo tin tức CNN với điểm nổi bật của con người tác giả
được thể hiện trong Bảng 1. Những điểm nổi bật cho một
tổng quan ngắn gọn của bài viết để cho phép người đọc
nhanh chóng thu thập thông tin về những câu chuyện, và thường
xuất hiện như là điểm đạn. Quan trọng hơn, họ đại diện cho
các ý chính của toàn bộ tài liệu và do đó thường
có sự khác biệt đáng kể từ những câu n đầu tiên
trong bài viết (Svore et al., 2007). Họ cũng được
nén cao, được viết bằng một phong cách điện báo
và do đó cung cấp một nền tảng thử nghiệm tuyệt vời cho các mô hình
tạo ra bản tóm tắt nén. Thử nghiệm
kết quả cho thấy rằng đầu ra mô hình của chúng tôi có thể so sánh
với tay viết nổi bật cả về
grammaticality và informativeness.
2 liên quan làm việc
nhiều nỗ lực trong việc tổng hợp tự động đã được
dành để kết án khai thác thường được chính thức hóa
như một nhiệm vụ phân loại (Kupiec et al.,
1995). Được đào tạo một cách thích hợp chú thích
dữ liệu, một bộ phân loại nhị phân học để dự đoán cho
mỗi câu tài liệu, nếu nó là giá trị chiết xuất.
Tính năng Surface cấp thường được sử dụng để duy nhất
ra câu quan trọng. Chúng bao gồm các
hiện diện của một số cụm từ quan trọng, vị trí của
một câu trong văn bản gốc, câu
dài, các từ trong tiêu đề, sự hiện diện của
danh từ riêng, vv (Mani, 2001; Sparck Jones,
1999).
Tương đối ít công việc đã tập trung vào việc khai thác
các phương pháp cho các đơn vị nhỏ hơn so với câu. Jing và
McKeown (2000) câu trích trước, sau đó loại bỏ
các cụm từ không cần thiết, và sử dụng (bằng tay) tái tổ hợp
quy tắc để sản xuất ra mạch lạc. Wan
và Paris (2008) phân đoạn câu heuristically
vào khoản trước khi khai thác diễn ra, và
cho thấy rằng điều này cải thiện chất lượng tổng hợp.
Trong bối cảnh nhiều tài liệu tổng kết,
công nghệ tự động cũng đã được sử dụng để loại bỏ ngoặc
thông tin (Conroy et al., 2004; Siddharthan
et al., 2004). Witten et al. (1999) (trong số những
người khác) trích xuất keyphrases để nắm bắt được ý chính của các
tài liệu, không tuy nhiên cố gắng tái tạo
câu hoặc tạo ra bản tóm tắt.
Một vài phương pháp trước đây đã cố gắng để
giao diện nén án với tổng kết.
Một cách đơn giản để đạt được điều này là do
việc áp dụng một kiến trúc hai giai đoạn (ví dụ như, Lin
2003), nơi các câu đầu tiên được chiết xuất và sau đó
nén hoặc theo chiều ngược lại. Công việc khác
thực hiện một mô hình chung mà những từ và câu
được xóa cùng một lúc từ một tài liệu.
Sử dụng một mô hình ồn ào kênh, Daume III
'và Marcu (2002) khai thác các cấu trúc ngôn
của một tài liệu và các cấu trúc cú pháp của nó
câu để quyết định trong đó thành phần để
thả nhưng cũng có đơn vị tham luận là không quan trọng.
Martins và Smith (2009) Xây dựng một doanh
khai thác câu và mô hình tổng kết như
một ILP. Sau này sẽ tối ưu hóa một hàm mục tiêu
bao gồm hai phần: một thành phần chiết xuất,
thực chất là một biến thể không tham lam của tối đa
liên quan biên (McDonald, 2007), và
một thành phần nén câu, một nhỏ gọn hơn
sửa đổi chính sách Clarke và Lapata (2008)
dựa trên đầu ra của một phân tích cú pháp phụ thuộc. Nén
và khai thác mô hình được đào tạo một cách riêng biệt
trong một khung tối đa lợi nhuận và sau đó nội suy.
Trong bối cảnh đa tài liệu tổng hợp,
mô hình (2006) nho tăng trưởng Daume III của
'tạo ra bản tóm tắt từng bước, hoặc là bằng cách bắt đầu
một câu mới hoặc bằng cách phát triển đã hiện có
những người thân.
công việc riêng của chúng tôi là gần gũi nhất với Martins và Smith
(2009). Chúng tôi cũng phát triển một nén ILP dựa trên
và tổng kết mô hình, tuy nhiên, một số
khác biệt quan trọng thiết lập phương pháp tiếp cận của chúng tôi xa nhau. Thứ nhất,
lựa chọn nội dung được thực hiện tại các cụm từ chứ không phải
là cấp độ câu. Thứ hai, sự kết hợp của
cụm từ và sự phụ thuộc thông tin vào một đơn
cấu trúc dữ liệu này là mới, và quan trọng trong việc cho phép
chúng tôi bày tỏ grammaticality như những hạn chế trên toàn
phụ thuộc cụm từ, chứ không phải dùng đến một ngữ
566
Hầu hết người da đen nói là cách nhìn MLK của ứng nghiệm, thăm dò tìm
WASHINGTON ( CNN) - Hơn hai phần ba của AfricanAmericans
tin tầm nhìn Martin Luther King Jr. cho cuộc đua
quan hệ đã được trọn vẹn, một cuộc thăm dò của CNN tìm thấy - một con số lên
mạnh từ một cuộc khảo sát vào đầu năm 2008.
Cuộc khảo sát của CNN-Opinion Research Corp. được phát hành
thứ hai, một ngày lễ liên bang tôn vinh các quyền dân sự bị giết chết
lãnh đạo và một ngày trước khi ông Barack Obama sẽ được tuyên thệ nhậm chức
tổng thống Mỹ da đen đầu tiên.
Các cuộc thăm dò tìm thấy 69 phần trăm của người da đen cho biết tầm nhìn của King đã
được hoàn thành trong hơn 45 năm kể từ năm 1963 của ông: "Tôi có
một giấc mơ 'lời nói - gần gấp đôi 34 phần trăm người đã đồng
ý. với đánh giá trong một cuộc thăm dò tương tự chụp cuối tháng
ba. Nhưng người da trắng vẫn kém lạc quan, khảo sát tìm thấy
• 69 phần trăm của người da đen được hỏi nói rằng Martin Luther King Jr của
. tầm nhìn
nhận. • Phần lớn Slim của người da trắng nói là cách nhìn của King không hoàn thành
• King đã cho "Tôi có một giấc mơ" phát biểu của mình vào năm 1963.
9/11 billboard rút pháo phòng không từ Florida đảng Dân chủ, đảng Cộng hòa
(CNN) - Một người đàn ông Florida đang sử dụng biển quảng cáo với một hình ảnh của
sự đốt cháy Trung tâm Thương mại Thế giới khuyến khích phiếu cho một đảng Cộng hòa
ứng cử viên tổng thống, vẽ những lời chỉ trích đối với chính trị hóa
các cuộc tấn công 9/11.
'Xin Đừng bỏ phiếu cho đảng Dân chủ' đọc các loại qua các
hình ảnh của t sinh đôi

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.