GTREC07 chỉ gồm wh-câu hỏi mà một
wh-word phục vụ như là một sửa đổi lần tiền danh nghĩa (WDT).
Trong ca khúc năm 2007, không giống như trong những người của hai năm qua,
câu hỏi không được phân loại theo các mẫu, nhưng
dựa vào các nhà sinh học ' thông tin cần mà
câu trả lời là danh sách các thực thể có tên của một định
dạng. Các câu hỏi được bắt đầu với "những gì +
loại thực thể" (45 câu), "mà + loại thực thể" (4
câu), hoặc "Trong những gì + loại thực thể" (1 câu).
Ngược lại, GENIA Treebank Corpus (Tateisi
et al., 2005) 5
được ước tính không có câu mệnh lệnh
và chỉ bảy câu nghi vấn (xem
mục 5.2.2). Vì vậy, các công trình xây dựng câu trong
GTREC04-07 là rất khác nhau từ những người trong
Treebank GENIA.
đang được dịch, vui lòng đợi..
