4.2.1 A Motivating ExampleThe gener

4.2.1 A Motivating Example
The general problem we shall address is selecting a subset of a stream so that we can ask queries about the selected subset and have the answers be statistically representative of the stream as a whole. If we know what queries are to be asked, then there are a number of methods that might work, but we are looking for a technique that will allow ad-hoc queries on the sample. We shall look at a particular problem, from which the general idea will emerge. Our running example is the following. A search engine receives a stream of queries, and it would like to study the behavior of typical users.1 We assume the stream consists of tuples (user, query, time). Suppose that we want to answer queries such as “What fraction of the typical user’s queries were repeated over the past month?” Assume also that we wish to store only 1/10th of the stream elements. The obvious approach would be to generate a random number, say an integer from 0 to 9, in response to each search query. Store the tuple if and only if the random number is 0. If we do so, each user has, on average, 1/10th of their queries stored. Statistical ﬂuctuations will introduce some noise into the data, but if users issue many queries, the law of large numbers will assure us that most users will have a fraction quite close to 1/10th of their queries stored. However, this scheme gives us the wrong answer to the query asking for the average number of duplicate queries for a user. Suppose a user has issued s search queries one time in the past month, d search queries twice, and no search queries more than twice. If we have a 1/10th sample, of queries, we shall see in the sample for that user an expected s/10 of the search queries issued once. Of the d search queries issued twice, only d/100 will appear twice in the sample; that fraction is d times the probability that both occurrences of the query will be in the 1/10th sample. Of the queries that appear twice in the full stream, 18d/100 will appear exactly once. To see why, note that 18/100 is the probability that one of the two occurrences will be in the 1/10th of the stream that is selected, while the other is in the 9/10th that is not selected.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

4.2.1 một ví dụ Motivating
vấn đề chung, chúng tôi sẽ giải quyết là lựa chọn một tập hợp con của một dòng do đó chúng tôi có thể yêu cầu truy vấn về tập con được lựa chọn và có các câu trả lời thống kê đại diện của dòng như một toàn thể. Nếu chúng tôi biết những gì đang có truy vấn được yêu cầu, sau đó có là một số phương pháp có thể làm việc, nhưng chúng tôi đang tìm kiếm một kỹ thuật mà sẽ cho phép truy vấn quảng cáo-hoc trên mẫu. Chúng tôi sẽ xem xét một vấn đề cụ thể, mà từ đó những ý tưởng chung sẽ nổi lên. Ví dụ chạy là sau. Công cụ tìm kiếm sẽ nhận được một dòng của các truy vấn, và nó muốn nghiên cứu hành vi điển hình users.1 chúng ta giả định các dòng bao gồm tuples (người dùng, truy vấn, thời gian). Giả sử rằng chúng tôi muốn trả lời truy vấn chẳng hạn như "những gì phần của truy vấn của người dùng tiêu biểu được lặp lại trong những tháng qua?" Cũng giả định rằng chúng tôi muốn lưu trữ chỉ 1/10 của các yếu tố stream. Phương pháp tiếp cận rõ ràng sẽ là để tạo ra một số ngẫu nhiên, nói rằng một số nguyên từ 0 đến 9, để đáp ứng với mỗi truy vấn tìm kiếm. Lưu trữ tuple nếu và chỉ nếu số ngẫu nhiên là 0. Nếu chúng tôi làm như vậy, mỗi người dùng có, Trung bình, 1/10 của truy vấn của họ được lưu trữ. Thống kê ﬂuctuations sẽ giới thiệu một số tiếng ồn vào dữ liệu, nhưng nếu người dùng phát hành nhiều truy vấn, luật số lớn sẽ đảm bảo chúng tôi rằng hầu hết người dùng sẽ có một phần nhỏ khá gần gũi với 1/10 của truy vấn của họ được lưu trữ. Tuy nhiên, chương trình này cho chúng ta câu trả lời sai cho truy vấn yêu cầu cho con số trung bình của các truy vấn lặp lại cho người dùng. Giả sử một người sử dụng đã ban hành s truy vấn tìm kiếm một thời gian trong tháng vừa qua, truy vấn tìm kiếm d hai lần, và không có truy vấn tìm kiếm nhiều hơn gấp đôi. Nếu chúng tôi có một mẫu 1/10, truy vấn, chúng tôi sẽ nhìn thấy trong mẫu cho người dùng đó một s/10 dự kiến của các truy vấn tìm kiếm đã ban hành một lần. Các truy vấn tìm kiếm d phát hành hai lần, d/100 duy nhất sẽ xuất hiện hai lần trong mẫu; phần đó là d lần khả năng mà cả hai lần xuất hiện của các truy vấn sẽ trong mẫu 1/10. Truy vấn xuất hiện hai lần trong dòng đầy đủ, 18d/100 sẽ xuất hiện đúng một lần. Để xem lý do tại sao, lưu ý rằng 18/100 là xác suất mà một trong hai lần xuất hiện sẽ trong 1/10 của dòng được chọn, trong khi các khác là trong các 9/10 mà không được chọn.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

4.2.1 Một Thúc đẩy Ví dụ
Các vấn đề chung, chúng ta sẽ giải quyết được lựa chọn một tập hợp con của một dòng suối để chúng tôi có thể yêu cầu truy vấn về các tập con được lựa chọn và có câu trả lời là đại diện thống kê của các dòng như một toàn thể. Nếu chúng ta biết những gì các truy vấn sẽ được hỏi, sau đó có một số phương pháp có thể làm việc, nhưng chúng tôi đang tìm kiếm một kỹ thuật mà sẽ cho phép truy vấn ad-hoc trên mẫu. Chúng ta sẽ xem xét một vấn đề cụ thể, từ đó ý tưởng chung sẽ xuất hiện. Ví dụ của chúng tôi chạy là sau đây. Một công cụ tìm kiếm nhận được một dòng của các truy vấn, và nó muốn nghiên cứu hành vi của users.1 điển hình Chúng tôi cho rằng dòng bao gồm các bộ dữ liệu (người sử dụng, truy vấn, thời gian). Giả sử chúng ta muốn trả lời các truy vấn như "gì phần nhỏ của câu truy vấn của người dùng thông thường được lặp đi lặp lại trong tháng qua?" Cũng Giả sử rằng chúng ta muốn lưu trữ chỉ có 1/10th của các yếu tố dòng. Cách tiếp cận rõ ràng sẽ được để tạo ra một số ngẫu nhiên, nói một số nguyên từ 0 đến 9, để đáp ứng với mỗi truy vấn tìm kiếm. Lưu trữ các tuple khi và chỉ khi các số ngẫu nhiên là 0. Nếu chúng ta làm như vậy, mỗi người dùng có, trung bình, 1/10th của truy vấn của họ được lưu trữ. Biến động thống kê sẽ giới thiệu một số tiếng ồn vào các dữ liệu, nhưng nếu người dùng ra nhiều truy vấn, pháp luật của một số lượng lớn sẽ đảm bảo với chúng tôi rằng hầu hết người dùng sẽ có một phần khá gần với 1/10th của truy vấn của họ được lưu trữ. Tuy nhiên, chương trình này cho chúng ta câu trả lời sai với truy vấn yêu cầu số lượng trung bình của các truy vấn trùng lặp cho một người sử dụng. Tìm kiếm Giả sử một người sử dụng đã ban hành s truy vấn một lần trong tháng vừa qua, các truy vấn tìm kiếm d hai lần, và không có truy vấn tìm kiếm nhiều hơn hai lần. Nếu chúng ta có một mẫu 1/10th, truy vấn, chúng ta sẽ thấy trong mẫu cho người dùng một s/10 dự kiến của các truy vấn tìm kiếm phát hành một lần. Truy vấn tìm kiếm d ban hành hai lần, chỉ d/100 sẽ xuất hiện hai lần trong mẫu; phần đó là d lần xác suất mà cả hai lần xuất hiện của các truy vấn sẽ được trong mẫu 1/10th. Các truy vấn xuất hiện hai lần trong dòng đầy đủ, 18d/100 sẽ xuất hiện đúng một lần. Để xem lý do tại sao, lưu ý rằng 18/100 là xác suất mà một trong hai lần xuất hiện sẽ được trong 1/10th của dòng được chọn, trong khi khác là trong 9/10th mà không được chọn.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.