Văn bản báo là nguồn dữ liệu chính cho đào tạo hệ thống NLP hiện đại. Ví dụ, hầu hết "off-the-shelf" Anh POS người gắn thẻ (ví dụ, các Tagger Stanford (Toutanova et al., 2003), SVMTool
(Gim'enez và Marquez, 2004), và CRFTagger (Phan, 2006)) được đào tạo trên phần WSJ của Penn Treebank, trong đó bao gồm các văn bản tin tức chuyên nghiệp được viết từ năm 1989. Điều này sẽ thúc đẩy kịch bản đánh giá này, trong đó chúng tôi đào tạo các tagger trên các dữ liệu Penn Treebank WSJ và áp dụng nó vào văn bản tiếng Anh lịch sử, sử dụng tất cả các câu của PPCMBE và PPCEME để thử nghiệm.
đang được dịch, vui lòng đợi..
