Reuters Tin tức câu chuyện bộ sưu tập là thường sử dụng corpora trong nghiên cứu phân loại văn bản [13, 1, 21, 16, 3] 1. Có 21,450 tài liệu trong bộ sưu tập đầy đủ; ít hơn một nửa các tài liệu có chủ đề của con người được gán nhãn. Chúng tôi sử dụng chỉ là những tài liệu đó có ít nhất một chủ đề, chia ngẫu nhiên vào bộ đào tạo của 9,610 và một bộ kiểm tra 3.662 tài liệu. Điều nàyphân vùng là tương tự như làm việc trong [1], nhưng khác với [13] người sử dụng bộ sưu tập đầy đủ bao gồm cả unlabelled tài liệu 2. Những câu chuyện có chiều dài amean 90,6 từ với độ lệch chuẩn 91.6. Chúng tôi xem xét các loại 92 xuất hiện ít nhất một lần trongtập huấn luyện. Các loại này bao gồm các chủ đề như hàng hóa, lãi suất, và ngoại hối. Trong khi một số tài liệu có lên đến mười bốn được chỉ định loại, có nghĩa là chỉ là 1,24 thể loại cho mỗi tài liệu. Tần số của sự xuất hiện khác nhau rất nhiều từ thể loại để thể loại; Các khoản thu nhập, ví dụ, xuất hiện trong khoảng 30% các tài liệu, trong khi bạch kimgiao chỉ fi ve đào tạo những tài liệu. Có 16,039 điều khoản duy nhất trong bộ sưu tập (sau khi thực hiện việc ngăn chặn inflectional, dừng từ loại bỏ và chuyển đổi trường hợp thấp hơn).
đang được dịch, vui lòng đợi..