Đối với Pw, chúng ta đọc trong đếm unigram từ một datafile. Nếu một từ xuất hiện trong các ngữ liệu,
xác suất ước tính của nó là Count (word) / N, trong đó N là kích thước corpus. Trên thực tế, thay vì
sử dụng đầy đủ 13-triệu-type unigram datafile, tôi tạo ra vocab_common, trong đó (a) là caseinsensitive,
do đó tính cho "the", "The", và "THE" được thêm vào với nhau dưới một single
entry cho"; (b) chỉ có mục cho những từ được làm bằng các chữ cái, không phải con số hoặc
dấu chấm câu (như vậy "170,002" là ra, như là "không thể"); và (c) liệt kê chỉ là phổ biến nhất 1/3
của một triệu từ (mà cùng nhau trải 98% của thẻ).
đang được dịch, vui lòng đợi..
