4.4.2 the Flajolet-Martin thuật toán
có thể ước tính số lượng các yếu tố khác biệt bởi băm ments ele universal các thiết lập để một chút-chuỗi đó là sufficiently dài. Chiều dài của chuỗi bit phải là sufficient rằng không có kết quả hơn có thể của hàm băm hơn có các yếu tố của bộ universal. Ví dụ, 64 bit là sufficient để băm URL. Chúng tôi sẽ chọn nhiều chức năng băm different và băm mỗi phần tử của dòng bằng cách sử dụng các chức năng băm. Tài sản quan trọng của một hàm băm là rằng khi áp dụng cho các yếu tố tương tự, nó luôn luôn tạo ra kết quả tương tự. Thông báo rằng tài sản này cũng rất cần thiết cho phương pháp lấy mẫu trong phần phần 4.2. Ý tưởng đằng sau thuật toán Flajolet-Martin là các yếu tố different thêm chúng ta thấy trong luồng, thêm different băm-giá trị chúng ta sẽ thấy. Như chúng ta thấy thêm different băm-giá trị, nó trở nên nhiều khả năng rằng một trong những giá trị này sẽ là "không bình thường." Tài sản cụ thể, không bình thường, chúng tôi sẽ khai thác là giá trị kết thúc trong nhiều 0 của, mặc dù nhiều lựa chọn khác tồn tại. Bất cứ khi nào chúng tôi áp dụng một chức năng băm h đến một yếu tố dòng một, các bit chuỗi h(a) sẽ kết thúc trong một số số 0, có thể không có. Goïi ñeán soá naøy chiều dài đuôi cho a và h. Hãy để R là chiều dài đuôi tối đa của bất kỳ một nhìn thấy cho đến nay trong dòng. Sau đó chúng tôi sẽ sử dụng ước tính 2R cho số lượng các yếu tố khác biệt trong dòng. Ước tính này làm cho ý thức trực quan. Xác suất mà một yếu tố nhất định dòng một đã h(a) kết thúc bằng ít r của 0 là 2−r. Giả sử có các yếu tố khác biệt m trong dòng. Sau đó xác suất rằng không ai trong số chúng có đuôi dài ít nhất là r là (1 − 2−r) m. Sắp xếp của biểu thức nên quen thuộc bây giờ. Chúng tôi có thể viết lại nó như là (1−2−r) 2r m2−r. Giả sử r là hợp lý lớn, là biểu hiện bên trong của các hình thức (1−ǫ) 1/ǫ, đó là khoảng 1/e. Vì vậy, khả năng không finding một yếu tố stream với càng nhiều như r của 0 vào giữa giá trị băm của nó là e−m2−r. Chúng tôi có thể kết luận:
1. Nếu m là lớn hơn nhiều so với 2r, sau đó xác suất rằng chúng tôi sẽ nhiều một đuôi dài tối thiểu r phương pháp tiếp cận 1.
2. Nếu m là ít hơn nhiều so với 2r, sau đó xác suất của finding một chiều dài đuôi tối thiểu r phương pháp tiếp cận 0.
Chúng tôi kết luận từ những hai điểm rằng các ước tính được đề xuất của m, là 2R (nhớ lại R là chiều dài đuôi lớn nhất cho bất kỳ yếu tố stream) dường như là nhiều quá cao hoặc nhiều quá thấp.
đang được dịch, vui lòng đợi..
