Sự chính xác về out-of-từ vựng (OOV) mã thông báo nói chung là thấp, và biến thể chính tả là một nguồn chính của thẻ OOV. Ví dụ, 'anh em' và 'vua', các hình thức cũ của '' và 'bạn', thường không đúng cách gắn thẻ như NN và JJ trong PPCEME. Nhìn chung, độ chính xác mỗi thẻ được khoảng tương quan với tỷ lệ phần trăm của thẻ OOV. Một số trường hợp ngoại lệ bao gồm VB, NNP và NNS, nơi mà các tính năng đóng có thể rất hữu ích cho việc gắn thẻ token OOV.
đang được dịch, vui lòng đợi..
