Hầu hết các taggers corpusbased POS tại trong Các tài liệu hoặc là thống kê dựa trên, và sử dụng Markov Model(Weischedel et al., 1993, Merialdo, 1994) hoặc quyết định thống kê Cây (Jelinek et al., năm 1994, Magerman, 1995)(SDT) kỹ thuật, hoặc là chủ yếu là cai trị dựa, chẳng hạn như khoan của chuyển đổi dựa Người học (khoan, 1994)(TBL). Tối đa Dữ liệu ngẫu nhiên (MaxEnt) tagger trình bày trong bài báo này kết hợp những lợi thế của tất cả những phương pháp này. Nó sử dụng một đại diện tính năng phong phú, như TBL và SDT, và tạo ra một phân phối xác suất từ khóa Đối với mỗi từ, như Decision Tree và Markov Kỹ thuật mô hình. Ánh xạ 5The từ bài viết để annotator là trong các file doc/wsj .wht trên Treebank CDROM. 6The đào tạo đơn-annotator dữ liệu được thu được bằng cách chiết các bài viết được gắn thẻ của "maryann" trong Treebank v.5 CDROM. Dữ liệu đào tạo này có không chồng chéo với bộ phát triển và thử nghiệm trong bài báo. Đĩa đơn-annotator phát triển Set là phần của các phát triển Set có cũng được chú thích bởi "maryann". Từ vựng và thẻ từ điển là tương tự như trong đường cơ sở thử nghiệm.
đang được dịch, vui lòng đợi..
