4.4.3 Combining EstimatesUnfortunat

4.4.3 Combining Estimates
Unfortunately, there is a trap regarding the strategy for combining the estimates of m, the number of distinct elements, that we obtain by using many diﬀerent hash functions. Our ﬁrst assumption would be that if we take the average of the values 2R that we get from each hash function, we shall get a value that approaches the true m, the more hash functions we use. However, that is not the case, and the reason has to do with the inﬂuence an overestimate has on the average. Consider a value of r such that 2r is much larger than m. There is some probability p that we shall discover r to be the largest number of 0’s at the end of the hash value for any of the m stream elements. Then the probability of ﬁnding r+1 to be the largest number of 0’s instead is at least p/2. However, if we do increase by 1 the number of 0’s at the end of a hash value, the value of 2R doubles. Consequently, the contribution from each possible large R to the expected value of 2R grows as R grows, and the expected value of 2R is actually inﬁnite.3 Another way to combine estimates is to take the median of all estimates. The median is not aﬀected by the occasional outsized value of 2R, so the worry described above for the average should not carry over to the median. Unfortu- nately, the median suﬀers from another defect: it is always a power of 2. Thus, no matter how many hash functions we use, should the correct value of m be between two powers of 2, say 400, then it will be impossible to obtain a close estimate. There is a solution to the problem, however. We can combine the two methods. First, group the hash functions into small groups, and take their average. Then, take the median of the averages. It is true that an occasional outsized 2R will bias some of the groups and make them too large. However, taking the median of group averages will reduce the inﬂuence of this eﬀect almost to nothing. Moreover, if the groups themselves are large enough, then the averages can be essentially any number, which enables us to approach the true value m as long as we use enough hash functions. In order to guarantee that any possible average can be obtained, groups should be of size at least a small multiple of log2 m.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

4.4.3 kết hợp các ước tính
thật không may, có là một cái bẫy liên quan đến các chiến lược cho kết hợp các ước tính của m, số lượng các yếu tố khác biệt, mà chúng tôi có được bằng cách sử dụng nhiều chức năng băm diﬀerent. Chúng tôi giả định chính sẽ là rằng nếu chúng tôi có mức trung bình của giá trị 2R rằng chúng tôi nhận được từ mỗi hàm băm, chúng tôi sẽ nhận được một giá trị đó phương pháp tiếp cận đúng m, các chức năng băm thêm chúng tôi sử dụng. Tuy nhiên, đó không phải là trường hợp, và lý do đã làm với inﬂuence một overestimate đã trên mức trung bình. Xem xét một giá trị của r sao cho 2r là lớn hơn nhiều so với m. Đó là một số p xác suất mà chúng tôi sẽ khám phá ra r là số 0, lớn nhất của ở phần cuối của giá trị băm cho bất kỳ yếu tố dòng m. Sau đó, xác suất của ﬁnding r 1 là số 0 của, lớn nhất thay vào đó là ít p/2. Tuy nhiên, nếu chúng ta tăng bởi 1 số 0 vào một giá trị băm, giá trị của 2R đôi. Do đó, sự đóng góp từ mỗi R lớn nhất có thể với giá trị kỳ vọng của 2R phát triển như R phát triển, và giá trị kỳ vọng của 2R là thực sự inﬁnite.3 một cách khác để kết hợp các ước tính là phải trung bình tất cả ước tính. Trung bình không phải là aﬀected bởi giá trị outsized thỉnh thoảng của 2R, để lo lắng mô tả ở trên mức trung bình nên không mang với trung bình. Unfortu-nately, suﬀers trung bình từ một khiếm khuyết: nó luôn luôn là một sức mạnh của 2. Vì vậy, không có vấn đề bao nhiêu chức năng băm chúng tôi sử dụng, nên giá trị chính xác m nằm giữa hai cường quốc của 2, nói 400, sau đó nó sẽ không thể để có được một ước tính gần gũi. Đó là một giải pháp cho vấn đề, Tuy nhiên. Chúng tôi có thể kết hợp hai phương pháp. Đầu tiên, nhóm chức năng băm vào nhóm nhỏ, và mất của họ trung bình. Sau đó, mất trung bình Trung bình. Đó là sự thật rằng một 2R outsized thỉnh thoảng sẽ thiên vị một số các nhóm và làm cho họ quá lớn. Tuy nhiên, tham gia trung vị của nhóm trung bình sẽ làm giảm inﬂuence này eﬀect gần như để không có gì. Hơn nữa, nếu các nhóm mình đủ lớn, sau đó trung bình có thể là về cơ bản là bất kỳ số lượng, mà cho phép chúng tôi tiếp cận m giá trị đích thực miễn là chúng tôi sử dụng chức năng băm đủ. Để đảm bảo rằng bất kỳ là có thể có thể được lấy, nhóm nên kích thước tối thiểu một nhiều nhỏ của log2 m.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.