Điều đó không có chứng minh chúng tôi đã giải quyết vấn đề: chúng ta sẽ phải đặt lại tất cả các khác
từ can thiệp, không chỉ là những gì chúng tôi muốn, và chúng tôi sẽ phải sau đó chạy lại tất cả các
trường hợp thử nghiệm để đảm bảo rằng việc thêm các từ khác đã không mess lên bất kỳ kết quả khác.
Lỗi thứ hai xảy ra bởi vì, mặc dù "ngồi" và "xuống" là những từ phổ biến (với
xác suất 0,003% và 0,04%, tương ứng), các sản phẩm của hai xác suất của chúng chỉ là
hơi ít hơn xác suất của "sitdown" của chính nó. Tuy nhiên, xác suất của
chuỗi hai chữ "ngồi xuống," theo số đếm Bigram, là khoảng 100 lần
lớn hơn. Chúng tôi có thể cố gắng để khắc phục vấn đề này bằng cách mô hình bigrams; đó là, xem xét các khả năng
của mỗi từ, được đưa ra từ trước đó:
đang được dịch, vui lòng đợi..
