The only tricky part of Pw is when

The only tricky part of Pw is when a word has not been seen in the corpus. This happens
sometimes even with a trillion-word corpus, so it would be a mistake to return 0 for the
probability. But what should it be? The number of tokens in the corpus, N, is about a trillion,
and the least common word in vocab_common has a count of 12,711. So a previously
unseen word should have a probability of somewhere between 0 and 12,710/N. Not all
unseen words are equally unlikely: a random sequence of 20 letters is less likely to be a
word than a random sequence of 6 letters. We will define a class for probability distributions,
Pdist, which loads a datafile of (key, count) pairs. By default, the probability of an
unknown word is 1/N, but each instance of a Pdist can supply a custom function to override
the default. We want to avoid having too high a probability for very long words, so
we (rather arbitrarily) start at a probability of 10/N, and decrease by a factor of 10 for
every letter in the candidate word. We then define Pw as a Pdist:

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Phần khôn lanh chỉ của Pw là khi một từ đã không được nhìn thấy trong các văn thể. Điều này xảy rađôi khi ngay cả với một tỷ đồng từ corpus, do đó, nó sẽ là một sai lầm để trở về 0 cho cácxác suất. Nhưng nó nên những gì? Số lượng thẻ trong các văn thể, N, là về một tỷ đồng,và từ ít nhất là phổ biến trong vocab_common có một số 12,711. Vì vậy một trước đókhông nhìn thấy từ nên có một xác suất của một nơi nào đó giữa 0 và 12,710/N. Không phải tất cảkhông nhìn thấy từ ít có khả năng như nhau: một chuỗi ngẫu nhiên các 20 thư là ít có khả năng mộttừ hơn một chuỗi ngẫu nhiên các 6 chữ cái. Chúng tôi sẽ xác định một lớp học cho các phân bố xác suất,Pdist, tải một datafile (phím, Bá tước) cặp. Theo mặc định, xác suất của mộtkhông biết chữ là 1/N, nhưng mỗi trường hợp của một Pdist có thể cung cấp một chức năng tùy chỉnh để ghi đè lênmặc định. Chúng tôi muốn tránh có một xác suất quá cao cho từ rất lâu, vì vậychúng tôi (thay vì tự ý) bắt đầu tại một xác suất của 10/N, và giảm bởi một nhân tố của 10 chomỗi chữ trong word ứng cử viên. Sau đó chúng tôi xác định Pw là một Pdist:

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Chỉ có một phần khó khăn của Pw là khi một từ đã không được nhìn thấy trong các ngữ liệu. Điều này xảy ra
đôi khi ngay cả với một corpus nghìn tỷ từ, do đó, nó sẽ là một sai lầm để trở về 0 cho
xác suất. Nhưng những gì nó nên được? Số lượng thẻ trong corpus, N, khoảng một nghìn tỷ đồng,
và từ phổ biến nhất trong vocab_common có một số của 12.711. Vì vậy, một trước đó
từ vô hình nên có một xác suất của một nơi nào đó giữa 0 và 12.710 / N. Không phải tất cả
những lời vô hình là như nhau không: một chuỗi ngẫu nhiên của 20 chữ cái là ít có khả năng là một
từ là một chuỗi ngẫu nhiên của 6 chữ cái. Chúng tôi sẽ định nghĩa một lớp cho các phân phối xác suất,
Pdist, mà tải một datafile của (, số lượng key) cặp. Theo mặc định, xác suất của một
từ lạ là 1 / N, nhưng mỗi thể hiện của một Pdist có thể cung cấp một chức năng tùy chỉnh để ghi đè
mặc định. Chúng tôi muốn tránh việc quá cao một xác suất cho các từ rất lâu, vì vậy
chúng tôi (thay vì tự ý) bắt đầu tại một xác suất 10 / N, và giảm theo hệ số 10 cho
mỗi chữ trong từ ứng cử viên. Sau đó chúng tôi xác định Pw như một Pdist:

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.