The results of the manual evaluatio

The results of the manual evaluation, as well as the values of the search and feature selection parameters for all systems, are shown in Tables 5, 6, 7, and 8. (The values for N, M, and K were determined by manually evaluating the output of the 4 or 5 most common attribute sets in the training data). The weighted results in Tables 5 and 6 account for multiple occurrences of attribute sets, whereas the unweighted results in Tables 7 and 8 count each unique attribute set once, i.e., { $city-fr $city-to } is counted 741 times in the weighted results but once in the unweighted results. Using the weighted results, which represent testing conditions more realistically than the unweighted results, both judges found an improvement from NLG1 to NLG2, and from NLG2 to NLG3. NLG3 cuts the error rate from NLG1 by
at least 33% (counting anything without a rank of Correct as wrong). NLG2 cuts the error rate by at least 22% and underperforms NLG3, but requires far less annotation in its training data. NLG1 has no chance of generating anything for 3% of the data -- it fails completely on novel attribute sets. Using the unweighted results, both judges found an improvement from NLG1 to NLG2, but, surprisingly, judge A found a slight decrease while judge B found an increase in accuracy from NLG2 to NLG3. The unweighted results show that the baseline NLG1 does well on the common attribute sets, since it correctly generates only less than 50% of the unweighted cases but over 80% of the eighted cases.

The results of the manual evaluation, as well as the values of the search and feature selection parameters for all systems, are shown in Tables 5, 6, 7, and 8. (The values for N, M, and K were determined by manually evaluating the output of the 4 or 5 most common attribute sets in the training data). The weighted results in Tables 5 and 6 account for multiple occurrences of attribute sets, whereas the unweighted results in Tables 7 and 8 count each unique attribute set once, i.e., { $city-fr $city-to } is counted 741 times in the weighted results but once in the unweighted results. Using the weighted results, which represent testing conditions more realistically than the unweighted results, both judges found an improvement from NLG1 to NLG2, and from NLG2 to NLG3. NLG3 cuts the error rate from NLG1 by 
at least 33% (counting anything without a rank of Correct as wrong). NLG2 cuts the error rate by at least 22% and underperforms NLG3, but requires far less annotation in its training data. NLG1 has no chance of generating anything for 3% of the data -- it fails completely on novel attribute sets. Using the unweighted results, both judges found an improvement from NLG1 to NLG2, but, surprisingly, judge A found a slight decrease while judge B found an increase in accuracy from NLG2 to NLG3. The unweighted results show that the baseline NLG1 does well on the common attribute sets, since it correctly generates only less than 50% of the unweighted cases but over 80% of the eighted cases.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Kết quả của việc đánh giá hướng dẫn sử dụng, cũng như các giá trị của tham số lựa chọn tìm kiếm và tính năng cho tất cả hệ thống, được hiển thị trong bảng 5, 6, 7 và 8. (Các giá trị cho N, M, và K được xác định bằng cách tự đánh giá đầu ra của 4 hoặc 5 đặt thuộc tính phổ biến bộ trong dữ liệu đào tạo). Kết quả trọng trong bảng 5 và 6 chiếm nhiều lần xuất hiện của thuộc tính bộ, trong khi các kết quả unweighted trong bảng 7 và 8 đếm mỗi thuộc tính duy nhất thiết lập một lần, ví dụ, {$city-fr $city-để} tính 741 lần trong các kết quả trọng nhưng một lần trong các kết quả unweighted. Sử dụng các kết quả trọng, đại diện cho thử nghiệm điều kiện thực tế hơn kết quả unweighted, cả hai thẩm phán thấy một sự cải tiến từ NLG1 để NLG2, và từ NLG2 để NLG3. NLG3 cắt giảm tỷ lệ lỗi từ NLG1 bởi ít 33% (tính bất cứ điều gì mà không có một cấp bậc đúng là sai). NLG2 cắt giảm tỷ lệ lỗi ít 22% và hiệu NLG3, nhưng đòi hỏi ít chú thích trong dữ liệu đào tạo của nó. NLG1 đã không có cơ hội tạo ra bất cứ điều gì cho 3% của dữ liệu--nó không hoàn toàn trên bộ tiểu thuyết thuộc tính. Sử dụng các kết quả unweighted, cả hai thẩm phán tìm thấy một sự cải tiến từ NLG1 để NLG2, Tuy nhiên, đáng ngạc nhiên, đánh giá A tìm thấy giảm nhẹ trong khi thẩm phán B tìm thấy sự gia tăng trong độ chính xác từ NLG2 để NLG3. Kết quả unweighted cho thấy rằng đường cơ sở NLG1 không tốt trên bộ thuộc tính phổ biến, kể từ khi nó một cách chính xác tạo ra chỉ ít hơn 50% các trường hợp unweighted nhưng trên 80% các trường hợp eighted.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Các kết quả đánh giá dẫn sử dụng, cũng như các giá trị của các thông số tìm kiếm và lựa chọn tính năng cho tất cả các hệ thống, được trình bày trong bảng 5, 6, 7, và 8. (Các giá trị của N, M, và K được xác định bằng cách thủ công đánh giá đầu ra của 4 hoặc 5 thuộc tính phổ biến nhất trong bộ dữ liệu huấn luyện). Các kết quả có trọng trong bảng 5 và 6 tài khoản cho nhiều lần xuất hiện của bộ thuộc tính, trong khi kết quả không trọng số trong bảng 7 và 8 đếm từng thuộc tính duy nhất thiết lập một lần, tức là, {$ thành phố-fr $ thành phố để} được tính 741 lần trong kết quả trọng nhưng một lần trong các kết quả không trọng số. Sử dụng các kết quả có trọng số, mà đại diện cho điều kiện thử nghiệm thực tế hơn so với kết quả không trọng số, cả hai giám khảo tìm thấy một sự cải tiến từ NLG1 để NLG2, và từ NLG2 để NLG3. NLG3 cắt giảm tỷ lệ lỗi từ NLG1 bởi
ít nhất là 33% (tính bất cứ điều gì mà không có một cấp bậc đúng là sai). NLG2 cắt giảm tỷ lệ lỗi của ít nhất 22% và hiệu suất thấp NLG3, nhưng đòi hỏi ít chú thích trong dữ liệu huấn luyện của mình. NLG1 không có cơ hội tạo ra bất cứ điều gì cho 3% dữ liệu - nó không hoàn toàn trên bộ tiểu thuyết thuộc tính. Sử dụng kết quả không trọng số, cả hai giám khảo tìm thấy một sự cải tiến từ NLG1 để NLG2, nhưng, đáng ngạc nhiên, thẩm phán A tìm thấy một sự giảm nhẹ trong khi thẩm phán B tìm thấy sự gia tăng độ chính xác từ NLG2 để NLG3. Các kết quả không trọng số cho thấy NLG1 cơ sở làm tốt trên bộ thuộc tính phổ biến, vì nó tạo ra một cách chính xác chỉ có ít hơn 50% các trường hợp không trọng nhưng hơn 80% các trường hợp eighted.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.