Ở Colorado đa dạng về chú thích văn bản đầy đủ(THỦ CÔNG) Corpus được phát triển tại trường đại họcColorado Denver được sử dụng cho công việc này.Hiện nay, các văn thể tổng 97 văn bản đầy đủ openaccessbài báo khoa học đã được chú thích bởiChuột gen viện 1 với khái niệm từGene Ontology 2và động vật có vú kiểu hìnhOntology3. Ba mươi sáu của các bài viết đãchú thích với cú pháp sâu cấu trúc tương tự nhưvới các văn thể Penn Treebank được mô tả trong(Marcus et al., 1994). Vì đây là một công việc trong tiến trình,Tám người trong số các bài viết đã được đặt sang một bên cho một trận chung kếtđánh giá holdout và kết quả cho những bài viết nàykhông được báo cáo ở đây. Ngoài các tiêu chuẩntreebank chú thích, thẻ NML thảo luận trong(Bies và ctv., 2005) và (Vadas và Curran, 2007)mà đánh dấu trên danh nghĩa subconstituents làmkhông quan sát cấu trúc phân nhánh quyền phổ biếnnhiều (nhưng không phải tất cả) danh từ cụm từ được chú thích.Điều này là đặc biệt quan trọng cho phối hợpCác cụm từ danh từ vì nó cung cấp một rõ ràngđại diện của cấu trúc chính xác điều phối.Các trường hợp phối hợp trong dữ liệu thủ côngđược cải biến thành cấu trúc đơn giản phối hợpbao gồm Liên từ và conjuncts của họ bằng cách sử dụngmột kịch bản sạch dịch đa sốphối hợp cấu trúc.
đang được dịch, vui lòng đợi..
