Mỗi máy chủ web (và thực sự bất kỳ máy chủ kết nối với internet) có một địa chỉ IP duy nhất: là dãy số bốn byte thường đại diện là bốn số nguyên cách nhau bởi dấu chấm; ví dụ 207.142.131.248 là địa chỉ IP bằng số liên kết với các www.wikipedia.org chủ. Cho một URL như www.wikipedia.org ở dạng văn bản, dịch nó đến một địa chỉ IP (trong trường hợp này, 207.142.131.248) là một quá trình được gọi là độ phân giải DNS hoặc tra cứu DNS, độ phân giải DNS DNS ở đây là viết tắt của dịch vụ tên miền. Trong độ phân giải DNS, các chương trình muốn thực hiện bản dịch này (trong trường hợp của chúng tôi, một thành phần của web crawler) liên lạc một máy chủ DNS trả về máy chủ IP address.DNS dịch (Trong thực tế, toàn bộ dịch thuật có thể không xảy ra tại một đơn máy chủ DNS;. thay, các máy chủ DNS đã liên lạc với ban đầu có thể đệ quy gọi khi máy chủ DNS khác để hoàn thành bản dịch) Đối với một URL phức tạp hơn như en.wikipedia.org/wiki/Domain_Name_System, thành phần bánh xích trách nhiệm phân giải DNS chiết xuất từ các máy chủ tên - trong trường hợp này en.wikipedia.org - và trông lên các địa chỉ IP cho các máy chủ en.wikipedia.org. Độ phân giải DNS là một nút cổ chai nổi tiếng trong web bò. Do tính chất phân phối của các dịch vụ tên miền, độ phân giải DNS có thể kéo theo nhiều yêu cầu và roundtrips qua mạng Internet, đòi hỏi giây và sometimesevenlonger.Rightaway, điều này đặt vào nguy hiểm mục tiêu của chúng tôi lấy vài trăm tài liệu một lần thứ hai. Một biện pháp khắc phục tiêu chuẩn là để giới thiệu bộ nhớ đệm: URL mà chúng tôi đã thực hiện gần đây tra cứu DNS có khả năng được tìm thấy trong bộ nhớ cache DNS, tránh sự cần thiết để đi đến các máy chủ DNS trên Internet. Tuy nhiên, tuân theo các ràng buộc lịch sự (xem phần 20.2.3) giới hạn tốc độ hit cache. Có một quan trọng gặp khó khăn ở độ phân giải DNS; các mentations tra cứu imple trong thư viện tiêu chuẩn (có khả năng được sử dụng bởi bất cứ ai phát triển một trình thu thập) nói chung là đồng bộ. Điều này có nghĩa rằng một khi một request được gửi đến các dịch vụ tên miền, bài xích khác tại nút bị chặn cho đến khi yêu cầu fi đầu tiên được hoàn thành. Để phá vỡ này, hầu hết các trình thu thập web thực hiện DNS resolver riêng của họ như một thành phần của bánh xích. Gởi i thực hiện các mã resolver sẽ gửi một thông điệp tới các máy chủ DNS và sau đó thực hiện một chờ đợi theo thời gian: Nó lại tiếp tục, hoặc khi được báo hiệu bởi một sợi hoặc khi một lượng tử thời gian đặt hết hạn. Một đơn, sợi DNS riêng biệt lắng nghe trên các cổng tiêu chuẩn DNS (port 53) cho gói tin phản hồi đến từ các dịch vụ tên. Khi nhận được phản hồi thì tín hiệu sợi xích thích hợp (trong trường hợp này, tôi) và đưa cho nó gói tin trả lời nếu tôi vẫn chưa trở lại vì lượng tử thời gian của mình có expired.A sợi xích đó lại tiếp tục vì lượng tử thời gian chờ đợi của nó đã hết hạn thử lại cho một số cố định fi nỗ lực, việc gửi đi một thông điệp mới đến máy chủ DNS và thực hiện một timed chờ đợi từng thời gian; các nhà thiết kế của Mercator khuyên của thứ tự của fi đã nỗ lực. Thời gian lượng tử của sự gia tăng theo cấp số nhân với nhau chờ đợi của những nỗ lực này; Mercator bắt đầu với một thứ hai và kết thúc với khoảng 90 giây, trong việc xem xét thực tế là có những tên máy chủ mà phải mất vài chục giây để giải quyết.
đang được dịch, vui lòng đợi..
