4.2.1 Một Thúc đẩy Ví dụ
Các vấn đề chung, chúng ta sẽ giải quyết được lựa chọn một tập hợp con của một dòng suối để chúng tôi có thể yêu cầu truy vấn về các tập con được lựa chọn và có câu trả lời là đại diện thống kê của các dòng như một toàn thể. Nếu chúng ta biết những gì các truy vấn sẽ được hỏi, sau đó có một số phương pháp có thể làm việc, nhưng chúng tôi đang tìm kiếm một kỹ thuật mà sẽ cho phép truy vấn ad-hoc trên mẫu. Chúng ta sẽ xem xét một vấn đề cụ thể, từ đó ý tưởng chung sẽ xuất hiện. Ví dụ của chúng tôi chạy là sau đây. Một công cụ tìm kiếm nhận được một dòng của các truy vấn, và nó muốn nghiên cứu hành vi của users.1 điển hình Chúng tôi cho rằng dòng bao gồm các bộ dữ liệu (người sử dụng, truy vấn, thời gian). Giả sử chúng ta muốn trả lời các truy vấn như "gì phần nhỏ của câu truy vấn của người dùng thông thường được lặp đi lặp lại trong tháng qua?" Cũng Giả sử rằng chúng ta muốn lưu trữ chỉ có 1/10th của các yếu tố dòng. Cách tiếp cận rõ ràng sẽ được để tạo ra một số ngẫu nhiên, nói một số nguyên từ 0 đến 9, để đáp ứng với mỗi truy vấn tìm kiếm. Lưu trữ các tuple khi và chỉ khi các số ngẫu nhiên là 0. Nếu chúng ta làm như vậy, mỗi người dùng có, trung bình, 1/10th của truy vấn của họ được lưu trữ. Biến động thống kê sẽ giới thiệu một số tiếng ồn vào các dữ liệu, nhưng nếu người dùng ra nhiều truy vấn, pháp luật của một số lượng lớn sẽ đảm bảo với chúng tôi rằng hầu hết người dùng sẽ có một phần khá gần với 1/10th của truy vấn của họ được lưu trữ. Tuy nhiên, chương trình này cho chúng ta câu trả lời sai với truy vấn yêu cầu số lượng trung bình của các truy vấn trùng lặp cho một người sử dụng. Tìm kiếm Giả sử một người sử dụng đã ban hành s truy vấn một lần trong tháng vừa qua, các truy vấn tìm kiếm d hai lần, và không có truy vấn tìm kiếm nhiều hơn hai lần. Nếu chúng ta có một mẫu 1/10th, truy vấn, chúng ta sẽ thấy trong mẫu cho người dùng một s/10 dự kiến của các truy vấn tìm kiếm phát hành một lần. Truy vấn tìm kiếm d ban hành hai lần, chỉ d/100 sẽ xuất hiện hai lần trong mẫu; phần đó là d lần xác suất mà cả hai lần xuất hiện của các truy vấn sẽ được trong mẫu 1/10th. Các truy vấn xuất hiện hai lần trong dòng đầy đủ, 18d/100 sẽ xuất hiện đúng một lần. Để xem lý do tại sao, lưu ý rằng 18/100 là xác suất mà một trong hai lần xuất hiện sẽ được trong 1/10th của dòng được chọn, trong khi khác là trong 9/10th mà không được chọn.
đang được dịch, vui lòng đợi..
