Phần khôn lanh chỉ của Pw là khi một từ đã không được nhìn thấy trong các văn thể. Điều này xảy rađôi khi ngay cả với một tỷ đồng từ corpus, do đó, nó sẽ là một sai lầm để trở về 0 cho cácxác suất. Nhưng nó nên những gì? Số lượng thẻ trong các văn thể, N, là về một tỷ đồng,và từ ít nhất là phổ biến trong vocab_common có một số 12,711. Vì vậy một trước đókhông nhìn thấy từ nên có một xác suất của một nơi nào đó giữa 0 và 12,710/N. Không phải tất cảkhông nhìn thấy từ ít có khả năng như nhau: một chuỗi ngẫu nhiên các 20 thư là ít có khả năng mộttừ hơn một chuỗi ngẫu nhiên các 6 chữ cái. Chúng tôi sẽ xác định một lớp học cho các phân bố xác suất,Pdist, tải một datafile (phím, Bá tước) cặp. Theo mặc định, xác suất của mộtkhông biết chữ là 1/N, nhưng mỗi trường hợp của một Pdist có thể cung cấp một chức năng tùy chỉnh để ghi đè lênmặc định. Chúng tôi muốn tránh có một xác suất quá cao cho từ rất lâu, vì vậychúng tôi (thay vì tự ý) bắt đầu tại một xác suất của 10/N, và giảm bởi một nhân tố của 10 chomỗi chữ trong word ứng cử viên. Sau đó chúng tôi xác định Pw là một Pdist:
đang được dịch, vui lòng đợi..
