4.2.4 thay đổi kích thước mẫu
thông thường, mẫu sẽ phát triển như nhiều dòng vào hệ thống. Trong ví dụ chạy, chúng tôi giữ lại tất cả các truy vấn tìm kiếm đã chọn 1/10 của những người sử dụng, mãi mãi. Như thời gian đi, thêm tìm kiếm cho cùng người dùng sẽ được tích lũy, và người dùng mới được lựa chọn cho mẫu sẽ xuất hiện trong luồng. Nếu chúng tôi có một ngân sách cho bao nhiêu tuples từ các dòng có thể được lưu trữ như mẫu, sau đó phần nhỏ của giá trị quan trọng phải thay đổi, giảm như thời gian đi vào. Để đảm bảo rằng tất cả thời gian, mẫu bao gồm tất cả tuples từ một tập hợp con của các giá trị quan trọng, chúng tôi chọn một hàm băm h từ giá trị quan trọng để một số lượng rất lớn các giá trị 0,1,..., B−1. Chúng tôi duy trì một t ngưỡng, mà ban đầu có thể là lớn nhất thùng số, B −1. Tại mọi thời điểm, mẫu bao gồm những tuples có phím K satisfies h(K) ≤ t. Tuples mới từ các dòng được bổ sung vào mẫu nếu và chỉ nếu họ đáp ứng các điều kiện tương tự. Nếu vượt quá số lượng lưu trữ tuples của mẫu không gian quy định, chúng tôi thấp hơn t để t−1 và loại bỏ từ mẫu tất cả những tuples có phím K nhập để t. Cho efficiency, chúng tôi có thể giảm t bởi hơn 1, và loại bỏ tuples với một số giá trị hash cao nhất, bất cứ khi nào chúng ta cần phải ném một số giá trị quan trọng trong mẫu. Thêm efficiency thu được bằng cách duy trì một chỉ mục trên giá trị băm, Vì vậy, chúng tôi có thể nhiều tất cả những tuples có phím băm để một cụ thể giá trị một cách nhanh chóng.
đang được dịch, vui lòng đợi..
