Thủ tục tố tụng của hội nghị thường niên 48 của Hiệp hội cho ngôn ngữ học tính toán, trang 565-574,Uppsala, Thụy Điển, 11-16 tháng 7 năm 2010. c 2010 Hiệp hội cho ngôn ngữ học tính toánTự động thế hệ của câu chuyện nổi bậtKristian Woodsend và Mirella LapataTrường tin học, đại học EdinburghEdinburgh EH8 9AB, Vương Quốc Anhk.woodsend@Ed.ac.uk, mlap@inf.ed.ac.ukTóm tắtTrong bài này chúng tôi trình bày một nội dung chungMô hình lựa chọn và nénĐối với đơn-tài liệu tổng hợp. CácMô hình hoạt động trong một đại diện dựa trên cụm từnguồn tài liệu màchúng tôi có được bằng việc sáp nhập các thông tin từPCFG phân tích cây và đồ thị phụ thuộc.Bằng cách sử dụng một số nguyên tuyến tính lập trình xây dựng,Các mô hình học để chọn vàkết hợp cụm từ tùy thuộc vào chiều dài, phạm vi bảo hiểmvà ngữ pháp hạn chế. Chúng tôi đánh giácách tiếp cận vào công việc tạo ra"câu chuyện nổi bật"-một số lượng nhỏcâu ngắn, khép cho phépcác độc giả để nhanh chóng thu thập thông tin vềcâu chuyện tin tức. Hiển thị kết quả thử nghiệmCác mô hình của sản lượng là tương đương vớiviết lưu con người nổi bật trong điều khoản của cả haigrammaticality và nội dung.1 giới thiệuTổng hợp là quá trình ngưng tụ mộtnguồn gốc văn bản vào một phiên bản ngắn hơn trong khi bảo quảnnội dung thông tin của nó. Con người tóm tắt vàomột cơ sở hàng ngày và dễ dàng, nhưng sản xuất caochất lượng tóm tắt tự động vẫn là một thách thức.Khó khăn nằm chủ yếu trong thiên nhiêncủa công việc mà rất phức tạp, phải đáp ứng nhiềunhững hạn chế (ví dụ, độ dài tóm tắt, informativeness,tính mạch lạc, grammaticality) và cuối cùngđòi hỏi sự hiểu biết văn bản rộng phạm vi bảo hiểm. Kể từsau đó là vượt ra ngoài khả năng của hiện tại NLPcông nghệ, hầu hết làm việc ngày hôm nay tập trung vào extractiveTổng hợp, nơi một bản tóm tắt được tạo ra chỉ đơn giản làbằng cách xác định và sau đó ghépCác câu quan trọng nhất trong một tài liệu.Mà không có một thỏa thuận tuyệt vời của ngôn ngữ phân tích, nócó thể tạo ra tóm lược cho một loạt cáctài liệu. Thật không may, chất chiết xuất từ thườngCác tài liệu của chất lượng thấp, dễ đọc và văn bảnvà chứa nhiều thông tin dự phòng. Điều này làđánh dấu trái ngược với viết tay tóm lượcmà thường kết hợp một số mẩu thông tintừ tài liệu gốc (Jing, 2002) vàtriển lãm nhiều hoạt động viết lại chẳng hạn như thay thế,Thêm vào, xóa, hoặc reorderings.Câu nén thường được coi là mộthứa hẹn bước đầu tiên hướng tới tăng một sốCác vấn đề liên quan đến khai khoáng tổng hợp.Nhiệm vụ thường được biểu thị dưới dạng mộtCác vấn đề xóa từ. Nó liên quan đến việc tạo ra một đoạn ngắnCác tóm tắt ngữ pháp của một câu duy nhất, bằng cách loại bỏyếu tố mà được coi là không liên quan,trong khi giữ lại các thông tin quan trọng nhất(Hiệp sĩ và Marcu, 2002). Interfacing extractiveTổng hợp với một mô-đun nén câucó thể cải thiện conciseness của việc tạo raTóm lược và làm cho họ nhiều thông tin hơn(Jing, năm 2000; Lin, 2003; Zajic et al., 2007).Mặc dù phần lớn các công việc trên câu nénvà tổng hợp (xem Clarke và Lapata2008 và Mani năm 2001 cho overviews) chỉ là một số ítphương pháp tiếp cận nỗ lực để làm cả hai trong một mô hình chung(Daume III và Marcu, 2002; Daum ´ e III, 2006; ´Lin, 2003; Martins và Smith, 2009). Một lý doĐối với điều này có thể là hiệu suất của câuHệ thống nén mà rơi ngắn của đạt đượcgrammaticality các cấp độ của con người ra. Ví dụ,Clarke và Lapata (2008) đánh giá rất nhiềuHệ thống nhà nước-of-the-nghệ thuật nén trên khác nhautên miền và hiển thị mà máy tạo ranén luôn coi là tồi tệ hơnso với các tiêu chuẩn vàng của con người. Một lý do làmục tiêu tổng hợp chính nó. Nếu mục tiêu của chúng tôi làđể tóm tắt tin tức bài viết, sau đó chúng tôi có thể tốt hơntắt chọn n câu đầu tiên của tài liệu.Này "dẫn" đường cơ sở có thể err trên mặt củaverbosity nhưng ít sẽ được về ngữ pháp, và nóthực sự đã chứng minh vô cùng khó khăn để tốt hơnbằng phương pháp phức tạp hơn (Nenkova, 2005).Trong bài này, chúng tôi đề xuất một mô hình cho số tiền-565marization mà kết hợp nén thành cácnhiệm vụ. Một cái nhìn sâu sắc quan trọng trong cách tiếp cận của chúng tôi là để xây dựngTổng hợp như là một cụm từ hơn là câukhai thác vấn đề. Nén rơi tự nhiênra khỏi điều này xây dựng là cụm từ chỉ coi làquan trọng sẽ xuất hiện trong phần tóm tắt. Rõ ràng,chúng tôi tóm tắt đầu ra phải đáp ứng bổ sungCác yêu cầu như câu dài, tổng thểchiều dài, phạm vi bảo hiểm chủ đề, và quan trọng, grammaticality.Chúng tôi kết hợp cụm từ và phụ thuộcCác thông tin vào một cấu trúc dữ liệu duy nhất, cho phépchúng tôi để thể hiện grammaticality như những hạn chếtrên cụm từ quan hệ phụ thuộc. Chúng tôi mã hóa những khó khănbằng cách sử dụng số nguyên tuyến tính lập trình(ILP), một khuôn khổ tối ưu hóa được nghiên cứuđó có thể tìm kiếm các giải pháp toàn bộ không gianhiệu quả.Chúng tôi áp dụng mô hình của chúng tôi cho việc tạo rađiểm nổi bật cho một tài liệu duy nhất. Ví dụcủa CNN tin tức bài viết có nhân tác giả nổi bậtĐang hiển thị trong bảng 1. Điểm nổi bật cho mộtTổng quan về bài viết để cho phép độc giảnhanh chóng thu thập thông tin về câu chuyện, và thườngxuất hiện dưới dạng bullet điểm. Quan trọng, họ đại diện choThe gist của toàn bộ tài liệu và do đó thườngkhác biệt đáng kể từ n câu đầu tiêntrong bài viết (Svore và ctv., 2007). Chúng cũng làrất nén, viết bằng một phong cách điện báovà do đó cung cấp cho một thử nghiệm tuyệt vời cho các mô hìnhmà tạo ra tóm tắt nén. Thử nghiệmkết quả hiển thị là đầu ra của chúng tôi mẫu so sánhviết tay để làm nổi bật cả hai vềgrammaticality và informativeness.2 tác phẩm liên quanNhiều nỗ lực tổng hợp tự động đãdành cho khai thác câu thường chính thức hóanhư là một nhiệm vụ phân loại (Kupiec et al.,Năm 1995). cho chú thích một cách thích hợp đào tạodữ liệu, một nhị phân loại học để dự đoán chomỗi câu tài liệu nếu nó là giá trị giải nén.Bề mặt cấp tính năng thường được sử dụng để duy nhấttrong câu quan trọng. Chúng bao gồm cácsự hiện diện của một số cụm từ khóa, vị trí củamột câu trong tài liệu gốc, câuchiều dài, từ trong tiêu đề, sự hiện diện củamục từ tiếng, vv (Mani, năm 2001; Sparck Jones,năm 1999).Tương đối ít công việc đã tập trung vào khai thácphương pháp cho các đơn vị nhỏ hơn câu. Jing vàMcKeown (2000) đầu tiên chiết xuất câu, sau đó loại bỏcụm từ dư thừa, và sử dụng (hướng dẫn sử dụng) genquy tắc để sản xuất sản lượng chặt chẽ. Wanvà Paris (2008) phân đoạn câu nhờvào điều khoản trước khi khai thác diễn ra, vàcho thấy rằng điều này cải thiện chất lượng tổng hợp.Trong bối cảnh nhiều tài liệu tổng hợp,chẩn đoán cũng đã được sử dụng để loại bỏ parentheticalthông tin (Conroy et al, 2004; Siddharthanet al, 2004). Witten et al. (1999) (trong sốnhững người khác) giải nén keyphrases để nắm bắt ý chính của cáctài liệu, Tuy nhiên cố gắng tái tạo lạicâu hoặc tạo ra các bản tóm lược.Một vài phương pháp tiếp cận trước đó đã cố gắnggiao diện câu nén với tổng hợp.Một cách đơn giản để đạt điều này làviệc áp dụng một kiến trúc hai giai đoạn (ví dụ như, Lin 2003)nơi các câu đầu tiên được chiết xuất và sau đónén hoặc các cách vòng. Công việc khácthực hiện một mô hình chung nơi từ và câusẽ bị xóa cùng một lúc từ một tài liệu.Bằng cách sử dụng một mô hình kênh ồn ào, Daume III ´và Marcu (2002) khai thác cấu trúc discoursecủa một tài liệu và cấu trúc cú pháp của nócâu để quyết định những thành phần đểthả, nhưng cũng có discourse đơn vị là không quan trọng.Martins và Smith (2009) xây dựng một phầnkhai thác câu, mô hình tổng hợp nhưmột ILP. Sau này tối ưu hóa một hàm mục tiêubao gồm hai phần: một thành phần khai thác,về cơ bản là một phiên bản phòng không tham lam của tối đamức độ liên quan biên (McDonald, 2007), vàmột thành phần nén câu, một nhỏ gọn hơnreformulation Clarke và Lapata (2008)Dựa trên đầu ra của một phân tích cú pháp phụ thuộc. Nénvà mô hình khai thác được đào tạo một cách riêng biệttrong một khuôn khổ tối đa lợi nhuận và sau đó interpolated.Trong bối cảnh đa tài liệu tổng hợp,Daume III của cây nho (2006), sự phát triển mô hình ´tạo ra các bản tóm lược từng bước, hoặc là do bắt đầumột câu mới hoặc bằng cách phát triển đã tồn tạinhững người.Công việc của riêng của chúng tôi là gần nhất với Martins và Smith(Năm 2009). chúng tôi cũng phát triển một nén dựa trên ILPvà tổng hợp mô hình, Tuy nhiên, một sốkhác biệt quan trọng thiết lập phương pháp tiếp cận của chúng tôi ngoài. Trước hết,lựa chọn nội dung được thực hiện tại cụm từ thay vìhơn mức độ câu. Thứ hai, sự kết hợp củathông tin về cụm từ và phụ thuộc vào một đĩa đơncấu trúc dữ liệu là mới, và quan trọng trong việc cho phépchúng tôi để thể hiện grammaticality như những hạn chế trêncụm từ phụ thuộc, chứ không phải dùng đến một mạng lan-566Hầu hết người da đen nói của MLK tầm nhìn hoàn thành, cuộc thăm dò tìmWASHINGTON (CNN)-hơn hai phần ba AfricanAmericanstin rằng Martin Luther King Jr tầm nhìn cho cuộc đuaquan hệ đã được hoàn thành, một cuộc thăm dò CNN tìm thấy-một con số lênmạnh từ một cuộc khảo sát vào đầu năm 2008.Cuộc khảo sát công ty nghiên cứu CNN-ý kiến đã được phát hànhThứ hai, một ngày lễ liên bang tôn trọng các quyền dân sự bị giếtlãnh đạo và một ngày trước khi Barack Obama là để được tuyên thệ nhậm chức nhưTổng thống Hoa Kỳ đầu tiên màu đen.Các cuộc thăm dò tìm thấy 69 phần trăm của người da đen nói rằng tầm nhìn của nhà vua đãhoàn thành trong năm của mình năm 1963, hơn 45 ' tôi cómột giấc mơ ' bài phát biểu-khoảng gấp đôi 34% những người đã đồng ývới rằng đánh giá trong một cuộc thăm dò tương tự thực hiện cuối tháng.Nhưng người da trắng duy trì ít lạc quan, cuộc khảo sát tìm thấy.• 69 phần trăm của người da đen được hỏi nói Martin Luther King Jrtầm nhìn nhận ra.• Slim đa số người da trắng nói King's tầm nhìn không hoàn thành.• King đã cung cấp bài phát biểu "I have a dream" vào năm 1963.9/11 billboard thu hút flak từ Florida Đảng dân chủ, Đảng Cộng hòa(CNN)-một người đàn ông Florida sử dụng bảng với một hình ảnh củaTrung tâm thương mại thế giới đang cháy để khuyến khích phiếu cho một đảng Cộng hòaứng cử viên tổng thống, vẽ những lời chỉ trích cho politicizing9/11 vụ tấn công.'Xin vui lòng không bỏ phiếu cho một đảng dân chủ' đọc các loại cáchình ảnh của đôi t
đang được dịch, vui lòng đợi..
