2 Related workMuch effort in automa

2 Related work
Much effort in automatic summarization has been devoted to sentence extraction which is often formalized as a classification task (Kupiec et al.,1995). Given appropriately annotated training
data, a binary classifier learns to predict for each document sentence if it is worth extracting.Surface-level features are typically used to single out important sentences. These include the presence of certain key phrases, the position of a sentence in the original document, the sentence length, the words in the title, the presence of
proper nouns, etc. (Mani, 2001; Sparck Jones,1999).
Relatively little work has focused on extraction methods for units smaller than sentences. Jing and McKeown (2000) first extract sentences, then remove redundant phrases, and use (manual) recombination rules to produce coherent output. Wan and Paris (2008) segment sentences heuristically into clauses before extraction takes place, and show that this improves summarization quality.
In the context of multiple-document summarization,heuristics have also been used to remove parenthetical information (Conroy et al., 2004; Siddharthanet al., 2004). Witten et al. (1999) (among others) extract keyphrases to capture the gist of the document, without however attempting to reconstruct sentences or generate summaries.
A few previous approaches have attempted to interface sentence compression with summarization.
A straightforward way to achieve this is by adopting a two-stage architecture (e.g., Lin 2003)
where the sentences are first extracted and then compressed or the other way round. Other work
implements a joint model where words and sentences are deleted simultaneously from a document.
Using a noisy-channel model, Daume III and Marcu (2002) exploit the discourse structure
of a document and the syntactic structure of its sentences in order to decide which constituents to drop but also which discourse units are unimportant.
Martins and Smith (2009) formulate a joint sentence extraction and summarization model as
an ILP. The latter optimizes an objective function consisting of two parts: an extraction component,essentially a non-greedy variant of maximal marginal relevance (McDonald, 2007), and
a sentence compression component, a more compact reformulation of Clarke and Lapata (2008)
based on the output of a dependency parser. Compression and extraction models are trained separately in a max-margin framework and then interpolated.
In the context of multi-document summarization,Daume III’s (2006) vine-growth model ´
creates summaries incrementally, either by starting a new sentence or by growing already existing ones

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

2 tác phẩm liên quanNhiều nỗ lực tổng hợp tự động đã được dành để khai thác câu thường chính thức hóa như là một nhiệm vụ phân loại (Kupiec và ctv., 1995). Cho chú thích một cách thích hợp đào tạodữ liệu, một nhị phân loại học để dự đoán cho mỗi câu tài liệu nếu nó là giá trị giải nén. Bề mặt cấp tính năng thường được sử dụng để duy nhất trong quan trọng câu. Chúng bao gồm sự hiện diện của một số cụm từ khóa, vị trí của một câu trong tài liệu gốc, câu dài, từ trong tiêu đề, sự hiện diện củamục từ tiếng, vv (Mani, năm 2001; Sparck Jones, 1999).Tương đối ít công việc đã tập trung vào phương pháp khai thác cho các đơn vị nhỏ hơn câu. Jing và McKeown (2000) lần đầu tiên giải nén câu, sau đó loại bỏ các cụm từ dư thừa, và sử dụng quy tắc gen (hướng dẫn sử dụng) để sản xuất mạch lạc ra. Wan và Paris (2008) phân đoạn câu nhờ vào điều khoản trước khi khai thác diễn ra, và cho rằng điều này cải thiện chất lượng tổng hợp.Trong bối cảnh nhiều tài liệu tổng hợp, chẩn đoán có cũng được sử dụng để loại bỏ parenthetical thông tin (Conroy et al, 2004; Siddharthanet Al, 2004). Witten et al. (1999) (trong số những người khác) giải nén keyphrases để nắm bắt ý chính của tài liệu này, mà không Tuy nhiên cố gắng tái tạo lại câu hoặc tạo ra các bản tóm lược.Một vài phương pháp tiếp cận trước đó đã cố gắng để giao diện câu nén với tổng hợp.A straightforward way to achieve this is by adopting a two-stage architecture (e.g., Lin 2003)where the sentences are first extracted and then compressed or the other way round. Other workimplements a joint model where words and sentences are deleted simultaneously from a document.Using a noisy-channel model, Daume III and Marcu (2002) exploit the discourse structureof a document and the syntactic structure of its sentences in order to decide which constituents to drop but also which discourse units are unimportant.Martins and Smith (2009) formulate a joint sentence extraction and summarization model asan ILP. The latter optimizes an objective function consisting of two parts: an extraction component,essentially a non-greedy variant of maximal marginal relevance (McDonald, 2007), anda sentence compression component, a more compact reformulation of Clarke and Lapata (2008)based on the output of a dependency parser. Compression and extraction models are trained separately in a max-margin framework and then interpolated.In the context of multi-document summarization,Daume III’s (2006) vine-growth model ´creates summaries incrementally, either by starting a new sentence or by growing already existing ones

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

2 liên quan làm việc
nhiều nỗ lực trong việc tổng hợp tự động đã được dành để kết án khai thác thường được thể chế hoá thành một nhiệm vụ phân loại (Kupiec et al., 1995). Được đào tạo một cách thích hợp chú thích
dữ liệu, một bộ phân loại nhị phân học để dự đoán cho mỗi câu tài liệu, nếu nó là giá trị tính năng extracting.Surface cấp thường được sử dụng để chọn ra câu quan trọng. Chúng bao gồm sự hiện diện của một số cụm từ quan trọng, vị trí của một câu trong văn bản gốc, chiều dài câu, những từ ngữ trong tiêu đề, sự hiện diện của
danh từ riêng, vv (Mani, 2001; Sparck Jones, 1999).
Tương đối ít công việc đã tập trung vào các phương pháp khai thác cho các đơn vị nhỏ hơn so với câu. Jing và McKeown (2000) câu trích trước, sau đó loại bỏ các cụm từ không cần thiết, và sử dụng các quy tắc (thủ công) tái tổ hợp để sản xuất ra mạch lạc. Wan và Paris (2008) phân đoạn câu heuristically vào khoản trước khi khai thác diễn ra, và cho thấy rằng điều này cải thiện chất lượng tổng hợp.
Trong bối cảnh nhiều tài liệu tổng kết, công nghệ tự động cũng đã được sử dụng để loại bỏ các thông tin trong ngoặc đơn (Conroy et al., 2004; Siddharthanet al., 2004). Witten et al. (1999) (số những người khác) trích xuất keyphrases để nắm bắt được ý chính của các tài liệu, không tuy nhiên cố gắng tái tạo câu hoặc tạo ra bản tóm tắt.
Một vài phương pháp trước đây đã cố gắng để giao tiếp nén án với tổng kết.
Một cách đơn giản để đạt được điều này là bằng cách áp dụng một kiến trúc hai giai đoạn (ví dụ như, Lin
2003), nơi các câu đầu tiên được tách ra và sau đó được nén hoặc theo chiều ngược lại. Công việc khác
thực hiện một mô hình chung mà những từ và câu được xóa cùng một lúc từ một tài liệu.
Sử dụng một mô hình ồn ào kênh, Daume III và Marcu (2002) khai thác các cấu trúc ngôn
của một tài liệu và các cấu trúc cú pháp của câu của nó để quyết định thành phần để thả nhưng cũng có đơn vị tham luận là không quan trọng.
Martins và Smith (2009) Xây dựng khai thác câu chung và mô hình tổng kết như
một ILP. Sau này sẽ tối ưu hóa một hàm mục tiêu bao gồm hai phần: một thành phần chiết xuất, thực chất là biến thể không tham lam liên quan biên tối đa (McDonald, 2007), và
một thành phần nén câu, một phương pháp tái nhỏ gọn hơn của Clarke và Lapata (2008)
dựa trên đầu ra của một phân tích cú pháp phụ thuộc. Nén và khai thác mô hình được đào tạo một cách riêng biệt trong một khung tối đa lợi nhuận và sau đó nội suy.
Trong bối cảnh đa tài liệu tổng hợp, mô hình (2006) nho tăng trưởng Daume III của
'tạo ra bản tóm tắt từng bước, hoặc là bằng cách bắt đầu một câu mới hoặc bằng cách phát triển đã những cái hiện có

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.