Các kết quả đánh giá dẫn sử dụng, cũng như các giá trị của các thông số tìm kiếm và lựa chọn tính năng cho tất cả các hệ thống, được trình bày trong bảng 5, 6, 7, và 8. (Các giá trị của N, M, và K được xác định bằng cách thủ công đánh giá đầu ra của 4 hoặc 5 thuộc tính phổ biến nhất trong bộ dữ liệu huấn luyện). Các kết quả có trọng trong bảng 5 và 6 tài khoản cho nhiều lần xuất hiện của bộ thuộc tính, trong khi kết quả không trọng số trong bảng 7 và 8 đếm từng thuộc tính duy nhất thiết lập một lần, tức là, {$ thành phố-fr $ thành phố để} được tính 741 lần trong kết quả trọng nhưng một lần trong các kết quả không trọng số. Sử dụng các kết quả có trọng số, mà đại diện cho điều kiện thử nghiệm thực tế hơn so với kết quả không trọng số, cả hai giám khảo tìm thấy một sự cải tiến từ NLG1 để NLG2, và từ NLG2 để NLG3. NLG3 cắt giảm tỷ lệ lỗi từ NLG1 bởi
ít nhất là 33% (tính bất cứ điều gì mà không có một cấp bậc đúng là sai). NLG2 cắt giảm tỷ lệ lỗi của ít nhất 22% và hiệu suất thấp NLG3, nhưng đòi hỏi ít chú thích trong dữ liệu huấn luyện của mình. NLG1 không có cơ hội tạo ra bất cứ điều gì cho 3% dữ liệu - nó không hoàn toàn trên bộ tiểu thuyết thuộc tính. Sử dụng kết quả không trọng số, cả hai giám khảo tìm thấy một sự cải tiến từ NLG1 để NLG2, nhưng, đáng ngạc nhiên, thẩm phán A tìm thấy một sự giảm nhẹ trong khi thẩm phán B tìm thấy sự gia tăng độ chính xác từ NLG2 để NLG3. Các kết quả không trọng số cho thấy NLG1 cơ sở làm tốt trên bộ thuộc tính phổ biến, vì nó tạo ra một cách chính xác chỉ có ít hơn 50% các trường hợp không trọng nhưng hơn 80% các trường hợp eighted.
đang được dịch, vui lòng đợi..
