1. When segment added one new word

1. When segment added one new word to a sequence of n words segmented in the
remainder, it called Pwords to multiply together all n+1 probabilities. But segment had
already multiplied all the probabilities in the remainder. It would be more efficient to
remember the probability of the remainder and then just do one more multiplication.
2. There is a potential problem with arithmetic underflow. If we apply Pwords to a
sequence consisting of the word “blah” repeated 61 times, we get 5.2•10–321, but if
we add one more “blah,” we get 0.0. The smallest positive floating-point number that
can be represented is about 4.9•10–324; anything smaller than that rounds to 0.0. To
avoid underflow, the simplest solution is to add logarithms of numbers rather than
multiplying the numbers themselves.
We will define segment2, which differs from segment in three ways: first, it uses a conditional
bigram language model, cPw, rather than the unigram model Pw. Second, the function
signature is different. Instead of being passed a single argument (the text), segment2 is
also passed the previous word. At the start of the sentence, the previous word is the special
beginning-of-sentence marker, . The return value is not just a list of words, but
rather a pair of values: the probability of the segmentation, followed by the list of words.
We return the probability so that it can be stored (by memo) and need not be recomputed;
this fixes problem (1), the inefficiency. The function combine takes four inputs—the first
word and the remaining words, plus their probabilities—and combines them by appending
the first word to the remaining words, and by multiplying the probabilities—except
that in order to solve problem (2), we introduce the third difference: we add logarithms of
probabilities instead of multiplying the raw probabilities.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

1. khi phân đoạn thêm một từ mới vào một chuỗi các n từ phân đoạn trong cáccòn lại, nó gọi là Pwords nhân với nhau tất cả n + 1 xác suất. Nhưng phân đoạn cóđã nhân với tất cả các xác suất phần còn lại. Nó sẽ hiệu quả hơn đểHãy nhớ rằng xác suất của phần còn lại và sau đó chỉ cần làm một thêm nhân.2. không là một vấn đề tiềm năng với số học underflow. Nếu chúng tôi áp dụng Pwords để mộttrình tự bao gồm chữ "blah" lặp đi lặp lại 61 lần, chúng tôi nhận được 5.2•10-321, nhưng nếuchúng tôi thêm một hơn "blah," chúng tôi nhận được 0.0. Tích cực nhỏ nhất floating-point số đócó thể được biểu diễn là về 4.9•10-324; bất cứ điều gì nhỏ hơn mà các vòng để 0.0. Đểtránh underflow, các giải pháp đơn giản nhất là để thêm logarit của số điện thoại thay vìnhân số mình.Chúng tôi sẽ xác định segment2, mà khác với các phân đoạn trong ba cách: đầu tiên, nó sử dụng một có điều kiệnbigram ngôn ngữ mô hình, cPw, chứ không phải là unigram mẫu Pw. Thứ hai, các chức năngchữ ký là khác nhau. Thay vì được thông qua một đối số duy nhất (văn bản), segment2 làcũng được thông qua từ trước. Đầu câu, từ trước đó là đặc biệtđánh dấu khởi đầu của câu, . Giá trị trả lại không phải là chỉ là một danh sách các từ, nhưngthay vào đó là một cặp giá trị: xác suất của phân khúc, theo sau là danh sách các từ.Chúng tôi trở lại xác suất để nó có thể được lưu trữ (bởi bản ghi nhớ) và cần không được recomputed;Điều này sửa chữa vấn đề (1), là không hiệu quả. Kết hợp chức năng mất bốn đầu vào-đầu tiêntừ và từ còn lại, cộng với xác suất của họ- và kết hợp chúng bằng cách phụ thêmtừ đầu tiên đến những từ còn lại, và bằng cách nhân các xác suất-ngoại trừđể giải quyết vấn đề (2), chúng tôi giới thiệu sự khác biệt thứ ba: chúng tôi thêm logarit củaxác suất thay vì nhân nguyên xác suất.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

1. Khi phân khúc thêm một từ mới vào một chuỗi các từ n phân đoạn trong
phần còn lại, nó được gọi là Pwords nhân với nhau tất cả n + 1 xác suất. Nhưng phân khúc có
đã nhân với tất cả các xác suất trong thời gian còn lại. Nó sẽ hiệu quả hơn để
nhớ xác suất của phần còn lại và sau đó chỉ cần làm thêm một phép nhân.
2. Có một vấn đề tiềm năng với số học underflow. Nếu chúng ta áp dụng Pwords để một
chuỗi gồm các chữ "blah" lặp đi lặp lại 61 lần, chúng tôi nhận được 5.2 • 10-321, nhưng nếu
chúng ta thêm một "blah", chúng tôi nhận được 0.0. Việc tích cực số dấu chấm nhỏ nhất mà
có thể được biểu diễn là khoảng 4,9 • 10-324; bất cứ điều gì nhỏ hơn tròn đến 0,0. Để
tránh underflow, các giải pháp đơn giản nhất là thêm logarit của số chứ không phải là
nhân số bản thân mình.
Chúng tôi sẽ xác định segment2, mà khác với phân khúc trong ba cách: thứ nhất, nó sử dụng một điều kiện
mô hình ngôn ngữ Bigram, CPW, chứ không phải là mô hình unigram pw. Thứ hai, các chức năng
chữ ký là khác nhau. Thay vì được thông qua một đối số duy nhất (văn bản), segment2 được
cũng đã thông qua từ trước đó. Vào lúc bắt đầu của câu, từ trước đó là đặc biệt
đầu-của-câu marker,. Giá trị trả về không chỉ là một danh sách các từ, nhưng
đúng hơn là một cặp giá trị:. Xác suất của các phân khúc, theo sau là danh sách các từ
Chúng tôi trở về xác suất để nó có thể được lưu trữ (bằng cách ghi nhớ) và không cần phải được tính toán lại ;
này sửa chữa vấn đề (1), sự kém hiệu quả. Các chức năng kết hợp có bốn đầu vào-đầu tiên
từ và các từ còn lại, cộng với họ xác suất và kết hợp chúng bằng cách thêm
các từ đầu tiên đến những từ còn lại, và bằng cách nhân với xác suất-ngoại trừ
rằng để giải quyết vấn đề (2), chúng tôi giới thiệu sự khác biệt thứ ba: chúng ta thêm logarit của
xác suất thay vì nhân xác suất thô.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.