4.4.2 The Flajolet-Martin Algorithm

4.4.2 The Flajolet-Martin Algorithm
It is possible to estimate the number of distinct elements by hashing the ele- ments of the universal set to a bit-string that is suﬃciently long. The length of the bit-string must be suﬃcient that there are more possible results of the hash function than there are elements of the universal set. For example, 64 bits is suﬃcient to hash URL’s. We shall pick many diﬀerent hash functions and hash each element of the stream using these hash functions. The important property of a hash function is that when applied to the same element, it always produces the same result. Notice that this property was also essential for the sampling technique of Section 4.2. The idea behind the Flajolet-Martin Algorithm is that the more diﬀerent elements we see in the stream, the more diﬀerent hash-values we shall see. As we see more diﬀerent hash-values, it becomes more likely that one of these values will be “unusual.” The particular unusual property we shall exploit is that the value ends in many 0’s, although many other options exist. Whenever we apply a hash function h to a stream element a, the bit string h(a) will end in some number of 0’s, possibly none. Call this number the tail length for a and h. Let R be the maximum tail length of any a seen so far in the stream. Then we shall use estimate 2R for the number of distinct elements seen in the stream. This estimate makes intuitive sense. The probability that a given stream element a has h(a) ending in at least r 0’s is 2−r. Suppose there are m distinct elements in the stream. Then the probability that none of them has tail length at least r is (1 − 2−r)m. This sort of expression should be familiar by now. We can rewrite it as (1−2−r)2rm2−r. Assuming r is reasonably large, the inner expression is of the form (1−ǫ)1/ǫ, which is approximately 1/e. Thus, the probability of not ﬁnding a stream element with as many as r 0’s at the end of its hash value is e−m2−r. We can conclude:
1. If m is much larger than 2r, then the probability that we shall ﬁnd a tail of length at least r approaches 1.
2. If m is much less than 2r, then the probability of ﬁnding a tail length at least r approaches 0.
We conclude from these two points that the proposed estimate of m, which is 2R (recall R is the largest tail length for any stream element) is unlikely to be either much too high or much too low.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

4.4.2 the Flajolet-Martin thuật toán
có thể ước tính số lượng các yếu tố khác biệt bởi băm ments ele universal các thiết lập để một chút-chuỗi đó là suﬃciently dài. Chiều dài của chuỗi bit phải là suﬃcient rằng không có kết quả hơn có thể của hàm băm hơn có các yếu tố của bộ universal. Ví dụ, 64 bit là suﬃcient để băm URL. Chúng tôi sẽ chọn nhiều chức năng băm diﬀerent và băm mỗi phần tử của dòng bằng cách sử dụng các chức năng băm. Tài sản quan trọng của một hàm băm là rằng khi áp dụng cho các yếu tố tương tự, nó luôn luôn tạo ra kết quả tương tự. Thông báo rằng tài sản này cũng rất cần thiết cho phương pháp lấy mẫu trong phần phần 4.2. Ý tưởng đằng sau thuật toán Flajolet-Martin là các yếu tố diﬀerent thêm chúng ta thấy trong luồng, thêm diﬀerent băm-giá trị chúng ta sẽ thấy. Như chúng ta thấy thêm diﬀerent băm-giá trị, nó trở nên nhiều khả năng rằng một trong những giá trị này sẽ là "không bình thường." Tài sản cụ thể, không bình thường, chúng tôi sẽ khai thác là giá trị kết thúc trong nhiều 0 của, mặc dù nhiều lựa chọn khác tồn tại. Bất cứ khi nào chúng tôi áp dụng một chức năng băm h đến một yếu tố dòng một, các bit chuỗi h(a) sẽ kết thúc trong một số số 0, có thể không có. Goïi ñeán soá naøy chiều dài đuôi cho a và h. Hãy để R là chiều dài đuôi tối đa của bất kỳ một nhìn thấy cho đến nay trong dòng. Sau đó chúng tôi sẽ sử dụng ước tính 2R cho số lượng các yếu tố khác biệt trong dòng. Ước tính này làm cho ý thức trực quan. Xác suất mà một yếu tố nhất định dòng một đã h(a) kết thúc bằng ít r của 0 là 2−r. Giả sử có các yếu tố khác biệt m trong dòng. Sau đó xác suất rằng không ai trong số chúng có đuôi dài ít nhất là r là (1 − 2−r) m. Sắp xếp của biểu thức nên quen thuộc bây giờ. Chúng tôi có thể viết lại nó như là (1−2−r) 2r m2−r. Giả sử r là hợp lý lớn, là biểu hiện bên trong của các hình thức (1−ǫ) 1/ǫ, đó là khoảng 1/e. Vì vậy, khả năng không ﬁnding một yếu tố stream với càng nhiều như r của 0 vào giữa giá trị băm của nó là e−m2−r. Chúng tôi có thể kết luận:
1. Nếu m là lớn hơn nhiều so với 2r, sau đó xác suất rằng chúng tôi sẽ nhiều một đuôi dài tối thiểu r phương pháp tiếp cận 1.
2. Nếu m là ít hơn nhiều so với 2r, sau đó xác suất của ﬁnding một chiều dài đuôi tối thiểu r phương pháp tiếp cận 0.
Chúng tôi kết luận từ những hai điểm rằng các ước tính được đề xuất của m, là 2R (nhớ lại R là chiều dài đuôi lớn nhất cho bất kỳ yếu tố stream) dường như là nhiều quá cao hoặc nhiều quá thấp.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

4.4.2 Các Flajolet-Martin thuật toán
Có thể ước tính số lượng các yếu tố riêng biệt bằng cách băm các yếu tố của các tập chung vào một chuỗi bit là đủ dài. Chiều dài của chuỗi bit phải là đủ mà có nhiều kết quả có thể có của hàm băm hơn có những yếu tố của tập phổ quát. Ví dụ, 64 bit là đủ để băm URL. Chúng ta sẽ nhận nhiều chức năng khác nhau và băm băm mỗi yếu tố của dòng sử dụng các chức năng này băm. Tài sản quan trọng của một hàm băm là khi áp dụng cho cùng một nguyên tố, nó luôn luôn tạo ra cùng một kết quả. Chú ý rằng khách sạn này cũng là cần thiết cho các kỹ thuật lấy mẫu của phần 4.2. Ý tưởng đằng sau Flajolet-Martin thuật toán là các yếu tố khác nhau hơn, chúng ta thấy trong dòng suối, băm-giá trị khác nhau hơn chúng ta sẽ thấy. Như chúng ta thấy khác nhau nhiều hơn băm giá trị, nó trở nên nhiều khả năng là một trong những giá trị sẽ là "bất thường." Các tài sản bất thường đặc biệt chúng ta sẽ khai thác là giá trị kết thúc trong nhiều 0, mặc dù nhiều lựa chọn khác tồn tại. Bất cứ khi nào chúng ta áp dụng một hàm băm h đến một dòng phần một, các bit chuỗi (a) h sẽ kết thúc trong một số số 0, có thể không. Gọi số này đuôi dài cho một và h. Cho R là đuôi dài tối đa của bất kỳ một thấy cho đến nay trong dòng. Sau đó chúng ta sẽ sử dụng ước tính 2R cho số yếu tố khác biệt nhìn thấy trong dòng. Ước tính này có ý nghĩa trực quan. Xác suất mà một dòng cho một yếu tố có h (a) kết thúc trong ít nhất r 0 là 2-r. Giả sử có m yếu tố khác biệt trong dòng. Sau đó xác suất mà không ai trong số họ có đuôi dài ít nhất r là (1 - 2-r) m. Loại này biểu hiện nên quen thuộc bây giờ. Chúng ta có thể viết lại nó như là (1-2-r) 2r? M2-r. Giả sử r là hợp lý lớn, các biểu hiện bên trong có dạng (1-ǫ) 1 / ǫ, đó là khoảng 1 / e. Như vậy, xác suất không tìm thấy một yếu tố dòng với bao nhiêu là r 0 vào cuối của giá trị băm của nó là e-m2-r. Chúng ta có thể kết luận:
1. Nếu m là lớn hơn nhiều so 2r, sau đó xác suất mà chúng ta sẽ tìm thấy một cái đuôi dài ít nhất r phương pháp tiếp cận 1.
2. Nếu m là ít hơn nhiều so 2r, sau đó xác suất tìm thấy một đuôi dài ít nhất r phương pháp tiếp cận 0.
Chúng tôi kết luận từ hai điểm này mà dự toán đề xuất của m, đó là 2R (nhớ lại R là đuôi dài lớn nhất đối với bất kỳ yếu tố dòng ) cũng không thể là quá cao hoặc quá thấp.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.