4.2.1 một ví dụ Motivating
vấn đề chung, chúng tôi sẽ giải quyết là lựa chọn một tập hợp con của một dòng do đó chúng tôi có thể yêu cầu truy vấn về tập con được lựa chọn và có các câu trả lời thống kê đại diện của dòng như một toàn thể. Nếu chúng tôi biết những gì đang có truy vấn được yêu cầu, sau đó có là một số phương pháp có thể làm việc, nhưng chúng tôi đang tìm kiếm một kỹ thuật mà sẽ cho phép truy vấn quảng cáo-hoc trên mẫu. Chúng tôi sẽ xem xét một vấn đề cụ thể, mà từ đó những ý tưởng chung sẽ nổi lên. Ví dụ chạy là sau. Công cụ tìm kiếm sẽ nhận được một dòng của các truy vấn, và nó muốn nghiên cứu hành vi điển hình users.1 chúng ta giả định các dòng bao gồm tuples (người dùng, truy vấn, thời gian). Giả sử rằng chúng tôi muốn trả lời truy vấn chẳng hạn như "những gì phần của truy vấn của người dùng tiêu biểu được lặp lại trong những tháng qua?" Cũng giả định rằng chúng tôi muốn lưu trữ chỉ 1/10 của các yếu tố stream. Phương pháp tiếp cận rõ ràng sẽ là để tạo ra một số ngẫu nhiên, nói rằng một số nguyên từ 0 đến 9, để đáp ứng với mỗi truy vấn tìm kiếm. Lưu trữ tuple nếu và chỉ nếu số ngẫu nhiên là 0. Nếu chúng tôi làm như vậy, mỗi người dùng có, Trung bình, 1/10 của truy vấn của họ được lưu trữ. Thống kê fluctuations sẽ giới thiệu một số tiếng ồn vào dữ liệu, nhưng nếu người dùng phát hành nhiều truy vấn, luật số lớn sẽ đảm bảo chúng tôi rằng hầu hết người dùng sẽ có một phần nhỏ khá gần gũi với 1/10 của truy vấn của họ được lưu trữ. Tuy nhiên, chương trình này cho chúng ta câu trả lời sai cho truy vấn yêu cầu cho con số trung bình của các truy vấn lặp lại cho người dùng. Giả sử một người sử dụng đã ban hành s truy vấn tìm kiếm một thời gian trong tháng vừa qua, truy vấn tìm kiếm d hai lần, và không có truy vấn tìm kiếm nhiều hơn gấp đôi. Nếu chúng tôi có một mẫu 1/10, truy vấn, chúng tôi sẽ nhìn thấy trong mẫu cho người dùng đó một s/10 dự kiến của các truy vấn tìm kiếm đã ban hành một lần. Các truy vấn tìm kiếm d phát hành hai lần, d/100 duy nhất sẽ xuất hiện hai lần trong mẫu; phần đó là d lần khả năng mà cả hai lần xuất hiện của các truy vấn sẽ trong mẫu 1/10. Truy vấn xuất hiện hai lần trong dòng đầy đủ, 18d/100 sẽ xuất hiện đúng một lần. Để xem lý do tại sao, lưu ý rằng 18/100 là xác suất mà một trong hai lần xuất hiện sẽ trong 1/10 của dòng được chọn, trong khi các khác là trong các 9/10 mà không được chọn.
đang được dịch, vui lòng đợi..