Chúng tôi sẽ xác định segment2, mà khác với phân khúc trong ba cách: thứ nhất, nó sử dụng một điều kiện
mô hình ngôn ngữ Bigram, CPW, chứ không phải là mô hình unigram Pw. Thứ hai, các chức năng
chữ ký là khác nhau. Thay vì được thông qua một đối số duy nhất (văn bản), segment2 được
cũng đã thông qua từ trước đó. Vào lúc bắt đầu của câu, từ trước đó là đặc biệt
đầu-của-câu marker,. Giá trị trả về không chỉ là một danh sách các từ, nhưng
đúng hơn là một cặp giá trị:. Xác suất của các phân khúc, theo sau là danh sách các từ
Chúng tôi trở về xác suất để nó có thể được lưu trữ (bằng cách ghi nhớ) và không cần phải được tính toán lại ;
này sửa chữa vấn đề (1), sự kém hiệu quả. Các chức năng kết hợp có bốn đầu vào-đầu tiên
từ và các từ còn lại, cộng với họ xác suất và kết hợp chúng bằng cách thêm
các từ đầu tiên đến những từ còn lại, và bằng cách nhân với xác suất-ngoại trừ
rằng để giải quyết vấn đề (2), chúng tôi giới thiệu sự khác biệt thứ ba: chúng ta thêm logarit của
xác suất thay vì nhân xác suất thô.
đang được dịch, vui lòng đợi..
