Mỗi hệ thống được đưa ra một tập hợp các câu như đầu vào, và trả về một bộ nhị phân nhổ như sản lượng. Chúng tôi tạo ra một bộ thử nghiệm của 500 câu lấy mẫu từ các trang Web, bằng cách sử dụng của Yahoo liên kết ngẫu nhiên service.3 sau khi chạy mỗi vắt lên câu đầu vào, hai thẩm phán của con người một cách độc lập đánh giá mỗi khai thác như là đúng hay sai. Các thẩm phán đã đạt thỏa thuận trên 86% các nhổ, với số điểm thỏa thuận là κ = 0,68. Chúng tôi báo cáo kết quả về tập hợp con của dữ liệu mà hai thẩm phán tán. Các thẩm phán có nhãn uninformative nhổ (nơi mà thông tin quan trọng đã được giảm xuống từ việc khai thác) là không chính xác. Đây là một tiêu chuẩn nghiêm ngặt hơn được sử dụng trong các trình duyệt IE mở trước đánh giá
đang được dịch, vui lòng đợi..