The existence of duplicate and near-duplicate documents in the data raises the question whether it is reasonable to measure performance in terms of URL matches, or whether evaluation should be based on the distance between retrieved and expected documents.
Sự tồn tại của văn bản trùng lặp và gần trùng lặp trong dữ liệu làm tăng các câu hỏi cho dùnó là hợp lý để đo lường hiệu suất về trận đấu URL, hoặc cho dù đánh giá cầnDựa vào khoảng cách giữa các tài liệu truy cập và dự kiến.
Sự tồn tại của bản sao và gần trùng lặp các tài liệu trong các dữ liệu đặt ra câu hỏi liệu nó là hợp lý để đo lường hiệu suất về trận URL, hoặc cho dù đánh giá cần được dựa vào khoảng cách giữa các tài liệu lấy ra và mong đợi.
Trong dữ liệu. Nhắc lại, và sự tồn tại của tài liệu xấp xỉ lặp đi lặp lại, gây ra một vấn đề.Nó là hợp lý phù hợp với khả năng cân URL, hoặc có nên đánh giá.Retrieved tài liệu dựa trên khoảng cách giữa.