4.2.1 A Motivating ExampleThe gener

4.2.1 A Motivating Example
The general problem we shall address is selecting a subset of a stream so that we can ask queries about the selected subset and have the answers be statistically representative of the stream as a whole. If we know what queries are to be asked, then there are a number of methods that might work, but we are looking for a technique that will allow ad-hoc queries on the sample. We shall look at a particular problem, from which the general idea will emerge. Our running example is the following. A search engine receives a stream of queries, and it would like to study the behavior of typical users.1 We assume the stream consists of tuples (user, query, time). Suppose that we want to answer queries such as “What fraction of the typical user’s queries were repeated over the past month?” Assume also that we wish to store only 1/10th of the stream elements. The obvious approach would be to generate a random number, say an integer from 0 to 9, in response to each search query. Store the tuple if and only if the random number is 0. If we do so, each user has, on average, 1/10th of their queries stored. Statistical ﬂuctuations will introduce some noise into the data, but if users issue many queries, the law of large numbers will assure us that most users will have a fraction quite close to 1/10th of their queries stored. However, this scheme gives us the wrong answer to the query asking for the average number of duplicate queries for a user. Suppose a user has issued s search queries one time in the past month, d search queries twice, and no search queries more than twice. If we have a 1/10th sample, of queries, we shall see in the sample for that user an expected s/10 of the search queries issued once. Of the d search queries issued twice, only d/100 will appear twice in the sample; that fraction is d times the probability that both occurrences of the query will be in the 1/10th sample. Of the queries that appear twice in the full stream, 18d/100 will appear exactly once. To see why, note that 18/100 is the probability that one of the two occurrences will be in the 1/10th of the stream that is selected, while the other is in the 9/10th that is not selected.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

4.2.1 một ví dụ Motivating
vấn đề chung, chúng tôi sẽ giải quyết là lựa chọn một tập hợp con của một dòng do đó chúng tôi có thể yêu cầu truy vấn về tập con được lựa chọn và có các câu trả lời thống kê đại diện của dòng như một toàn thể. Nếu chúng tôi biết những gì đang có truy vấn được yêu cầu, sau đó có là một số phương pháp có thể làm việc, nhưng chúng tôi đang tìm kiếm một kỹ thuật mà sẽ cho phép truy vấn quảng cáo-hoc trên mẫu. Chúng tôi sẽ xem xét một vấn đề cụ thể, mà từ đó những ý tưởng chung sẽ nổi lên. Ví dụ chạy là sau. Công cụ tìm kiếm sẽ nhận được một dòng của các truy vấn, và nó muốn nghiên cứu hành vi điển hình users.1 chúng ta giả định các dòng bao gồm tuples (người dùng, truy vấn, thời gian). Giả sử rằng chúng tôi muốn trả lời truy vấn chẳng hạn như "những gì phần của truy vấn của người dùng tiêu biểu được lặp lại trong những tháng qua?" Cũng giả định rằng chúng tôi muốn lưu trữ chỉ 1/10 của các yếu tố stream. Phương pháp tiếp cận rõ ràng sẽ là để tạo ra một số ngẫu nhiên, nói rằng một số nguyên từ 0 đến 9, để đáp ứng với mỗi truy vấn tìm kiếm. Lưu trữ tuple nếu và chỉ nếu số ngẫu nhiên là 0. Nếu chúng tôi làm như vậy, mỗi người dùng có, Trung bình, 1/10 của truy vấn của họ được lưu trữ. Thống kê ﬂuctuations sẽ giới thiệu một số tiếng ồn vào dữ liệu, nhưng nếu người dùng phát hành nhiều truy vấn, luật số lớn sẽ đảm bảo chúng tôi rằng hầu hết người dùng sẽ có một phần nhỏ khá gần gũi với 1/10 của truy vấn của họ được lưu trữ. Tuy nhiên, chương trình này cho chúng ta câu trả lời sai cho truy vấn yêu cầu cho con số trung bình của các truy vấn lặp lại cho người dùng. Giả sử một người sử dụng đã ban hành s truy vấn tìm kiếm một thời gian trong tháng vừa qua, truy vấn tìm kiếm d hai lần, và không có truy vấn tìm kiếm nhiều hơn gấp đôi. Nếu chúng tôi có một mẫu 1/10, truy vấn, chúng tôi sẽ nhìn thấy trong mẫu cho người dùng đó một s/10 dự kiến của các truy vấn tìm kiếm đã ban hành một lần. Các truy vấn tìm kiếm d phát hành hai lần, d/100 duy nhất sẽ xuất hiện hai lần trong mẫu; phần đó là d lần khả năng mà cả hai lần xuất hiện của các truy vấn sẽ trong mẫu 1/10. Truy vấn xuất hiện hai lần trong dòng đầy đủ, 18d/100 sẽ xuất hiện đúng một lần. Để xem lý do tại sao, lưu ý rằng 18/100 là xác suất mà một trong hai lần xuất hiện sẽ trong 1/10 của dòng được chọn, trong khi các khác là trong các 9/10 mà không được chọn.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.