1. Khi phân khúc thêm một từ mới vào một chuỗi các từ n phân đoạn trong
phần còn lại, nó được gọi là Pwords nhân với nhau tất cả n + 1 xác suất. Nhưng phân khúc có
đã nhân với tất cả các xác suất trong thời gian còn lại. Nó sẽ hiệu quả hơn để
nhớ xác suất của phần còn lại và sau đó chỉ cần làm thêm một phép nhân.
2. Có một vấn đề tiềm năng với số học underflow. Nếu chúng ta áp dụng Pwords để một
chuỗi gồm các chữ "blah" lặp đi lặp lại 61 lần, chúng tôi nhận được 5.2 • 10-321, nhưng nếu
chúng ta thêm một "blah", chúng tôi nhận được 0.0. Việc tích cực số dấu chấm nhỏ nhất mà
có thể được biểu diễn là khoảng 4,9 • 10-324; bất cứ điều gì nhỏ hơn tròn đến 0,0. Để
tránh underflow, các giải pháp đơn giản nhất là thêm logarit của số chứ không phải là
nhân số bản thân mình.
Chúng tôi sẽ xác định segment2, mà khác với phân khúc trong ba cách: thứ nhất, nó sử dụng một điều kiện
mô hình ngôn ngữ Bigram, CPW, chứ không phải là mô hình unigram pw. Thứ hai, các chức năng
chữ ký là khác nhau. Thay vì được thông qua một đối số duy nhất (văn bản), segment2 được
cũng đã thông qua từ trước đó. Vào lúc bắt đầu của câu, từ trước đó là đặc biệt
đầu-của-câu marker,. Giá trị trả về không chỉ là một danh sách các từ, nhưng
đúng hơn là một cặp giá trị:. Xác suất của các phân khúc, theo sau là danh sách các từ
Chúng tôi trở về xác suất để nó có thể được lưu trữ (bằng cách ghi nhớ) và không cần phải được tính toán lại ;
này sửa chữa vấn đề (1), sự kém hiệu quả. Các chức năng kết hợp có bốn đầu vào-đầu tiên
từ và các từ còn lại, cộng với họ xác suất và kết hợp chúng bằng cách thêm
các từ đầu tiên đến những từ còn lại, và bằng cách nhân với xác suất-ngoại trừ
rằng để giải quyết vấn đề (2), chúng tôi giới thiệu sự khác biệt thứ ba: chúng ta thêm logarit của
xác suất thay vì nhân xác suất thô.
đang được dịch, vui lòng đợi..
