Ví dụ, bảng 2 có chứa một đoạn trích từ dữ liệu đào tạo trong khi bảng 3 có chứa các tính năng được tạo ra trong khi quét (Hà, t3), trong đó bệnh hoạn - thuê từ là về, và bảng 4 có tính năng được tạo ra trong khi quét (h4, t4), trong đó bệnh hoạn - thuê từ, Well-heeled, xảy ra 3 lần trong đào tạo- dữ liệu ing và do đó được phân loại là "hiếm". Hành vi của một tính năng mà xảy ra rất thưa thớt trong tập huấn luyện thường là khó khăn để trước dict, kể từ khi số liệu thống kê của nó có thể không được tin cậy. Đó- phía trước, các mô hình sử dụng heuristic rằng bất cứ tính năng 1VBG là Treebank POS thẻ cho động từ Gerund. 2A "hiếm" từ ở đây là một từ đó xảy ra ít hơn 5 lần trong tập huấn luyện. Đếm đến 5 đã được lựa chọn bởi các kiểm tra chủ quan của các từ trong các dữ liệu đào tạo.
đang được dịch, vui lòng đợi..
