4.2.2 Obtaining a Representative Sa

4.2.2 Obtaining a Representative Sample
The query of Section 4.2.1, like many queries about the statistics of typical users, cannot be answered by taking a sample of each user’s search queries. Thus, we must strive to pick 1/10th of the users, and take all their searches for the sample, while taking none of the searches from other users. If we can store a list of all users, and whether or not they are in the sample, then we could do the following. Each time a search query arrives in the stream, we look up the user to see whether or not they are in the sample. If so, we add this search query to the sample, and if not, then not. However, if we have no record of ever having seen this user before, then we generate a random integer between 0 and 9. If the number is 0, we add this user to our list with value “in,” and if the number is other than 0, we add the user with the value “out.” That method works as long as we can aﬀord to keep the list of all users and their in/out decision in main memory, because there isn’t time to go to disk for every search that arrives. By using a hash function, one can avoid keeping the list of users. That is, we hash each user name to one of ten buckets, 0 through 9. If the user hashes to bucket 0, then accept this search query for the sample, and if not, then not. Note we do not actually store the user in the bucket; in fact, there is no data in the buckets at all. Eﬀectively, we use the hash function as a random-number generator, with the important property that, when applied to the same user several times, we always get the same “‘random” number. That is, without storing the in/out decision for any user, we can reconstruct that decision any time a search query by that user arrives. More generally, we can obtain a sample consisting of any rational fraction a/b of the users by hashing user names to b buckets, 0 through b−1. Add the search query to the sample if the hash value is less than a.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

4.2.2 Lấy một mẫu đại diện
truy vấn phần 4.2.1, giống như nhiều truy vấn về số liệu thống kê của người dùng tiêu biểu, không thể trả lời bằng cách tham gia một mẫu truy vấn tìm kiếm của mỗi người dùng. Vì vậy, chúng tôi phải cố gắng chọn 1/10 của những người sử dụng, và đi tất cả các tìm kiếm của họ cho mẫu, trong khi dùng không ai trong số các tìm kiếm từ những người dùng khác. Nếu chúng tôi có thể lưu trữ một danh sách tất cả người dùng, và họ hay không trong mẫu, sau đó chúng tôi có thể thực hiện như sau. Mỗi khi một truy vấn tìm kiếm đến trong dòng, chúng tôi tìm kiếm người dùng xem hay không mà họ đang có trong mẫu. Nếu như vậy, chúng tôi thêm này truy vấn tìm kiếm vào mẫu, và nếu không, sau đó không. Tuy nhiên, nếu chúng tôi đã có bằng chứng về từng có nhìn thấy người dùng này trước, sau đó chúng tôi tạo ra một số nguyên ngẫu nhiên giữa 0 và 9. Nếu số là 0, chúng tôi thêm người dùng này vào danh sách của chúng tôi với giá trị "trong", và nếu số nào khác hơn là 0, chúng tôi thêm người dùng với giá trị "ra." Phương pháp làm việc miễn là chúng tôi có thể aﬀord để giữ cho danh sách của tất cả người dùng và quyết định ở/ra của họ trong bộ nhớ chính, bởi vì không có thời gian để đi vào đĩa cho mọi tìm kiếm đến. Bằng cách sử dụng một hàm băm, người ta có thể tránh việc giữ danh sách người dùng. Đó là chúng tôi băm mỗi tên người dùng đến một trong mười nhóm, 0 đến 9. Nếu người sử dụng băm để xô 0, sau đó chấp nhận truy vấn tìm kiếm cho mẫu, và nếu không, sau đó không. Lưu ý chúng tôi không thực sự lưu trữ người sử dụng trong thùng; trong thực tế, không có không có dữ liệu trong các Xô ở tất cả. Eﬀectively, chúng tôi sử dụng hàm băm như một máy phát điện số ngẫu nhiên, với các tài sản quan trọng đó, Khi áp dụng cho cùng một người dùng nhiều lần, chúng tôi luôn luôn nhận được cùng "' ngẫu nhiên" số. Có nghĩa là, mà không cần lưu trữ quyết định in /-out cho người dùng bất kỳ, chúng tôi có thể tái tạo lại rằng quyết định bất cứ lúc nào một truy vấn tìm kiếm của người dùng đó đến. Nói chung, chúng tôi có thể có được một mẫu bao gồm bất kỳ phần hợp lý một / b của những người sử dụng bởi băm người dùng tên để b Xô, 0 đến b−1. Thêm truy vấn tìm kiếm vào mẫu nếu giá trị băm nhỏ hơn một.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

4.2.2 Lấy một mẫu đại diện
các truy vấn của Phần 4.2.1, cũng như nhiều thắc mắc về số liệu thống kê của người sử dụng điển hình, có thể không được trả lời bằng cách lấy một mẫu truy vấn tìm kiếm của người dùng. Vì vậy, chúng ta phải phấn đấu để chọn 1/10th của người dùng, và thực hiện tất cả tìm kiếm của họ cho mẫu, trong khi không ai trong số các tìm kiếm từ người dùng khác. Nếu chúng ta có thể lưu trữ một danh sách của tất cả người dùng, và có hay không họ đang có trong mẫu, sau đó chúng ta có thể làm như sau. Mỗi lần truy vấn tìm kiếm đến trong dòng suối, chúng tôi tìm kiếm người sử dụng để xem có hay không họ đang có trong mẫu. Nếu như vậy, chúng ta thêm truy vấn tìm kiếm này để mẫu, và nếu không, sau đó không. Tuy nhiên, nếu chúng ta không có kỷ lục nào khi nhìn thấy người sử dụng này trước, sau đó chúng tôi tạo ra một số ngẫu nhiên từ 0 đến 9. Nếu số lượng là 0, chúng tôi thêm người dùng này vào danh sách của chúng tôi có giá trị "trong", và nếu con số này khác 0, chúng tôi thêm người sử dụng với giá trị "ra ngoài." Đó là phương pháp làm việc miễn là chúng ta có thể đủ khả năng để tiếp tục danh sách của tất cả người sử dụng và trong quyết định của họ ra / vào bộ nhớ chính, bởi vì không có thời gian để đi vào đĩa cho mỗi tìm kiếm mà đến. Bằng cách sử dụng một hàm băm, có thể tránh giữ danh sách của người sử dụng. Có nghĩa là, chúng ta băm mỗi tên người dùng đến một trong mười xô, từ 0 đến 9. Nếu người dùng băm để xô 0, sau đó chấp nhận truy vấn tìm kiếm này cho mẫu, và nếu không, sau đó không. Lưu ý chúng tôi không thực sự lưu trữ của người dùng trong xô, trong thực tế, không có dữ liệu trong các thùng ở tất cả. Hiệu quả, chúng ta sử dụng hàm băm như một máy phát điện số ngẫu nhiên, với các tài sản quan trọng là, khi áp dụng cho cùng một người dùng nhiều lần, chúng tôi luôn nhận được cùng một "" ngẫu nhiên "số. Đó là, không lưu trữ vào / ra quyết định đối với bất kỳ người sử dụng, chúng ta có thể tái tạo lại quyết định rằng bất cứ lúc nào một truy vấn tìm kiếm của người sử dụng mà đến. Nói chung, chúng ta có thể có được một mẫu bao gồm bất kỳ phần hợp lý a / b của người sử dụng bằng cách băm tên người dùng b xô, 0 đến b-1. Thêm các truy vấn tìm kiếm để mẫu nếu giá trị băm là ít hơn một.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.