The Reuters news story collection i

The Reuters news story collection is commonly used corpora in text categorization research [13 , 1, 21 , 16, 3 ]1. There are 21,450 documents in the full collection; less than half of the documents have human assigned topic labels. We used only those documents that had at least one topic, divided randomly into a training set of 9,610 and a test set of 3,662 documents. This
partition is similar to that employed in [1 ], but differs from [13 ] who use the full collection including unlabelled documents 2 . The stories have amean length of 90.6 words with standard deviation 91.6. We considered the 92 categories that appear at least once in
the training set. These categories cover topics such as commodities, interest rates, and foreign exchange. While some documents have up to fourteen assigned categories, the mean is only 1.24 categories per document. The frequency of occurrence varies greatly from category to category; earnings, for example, appears in roughly 30% of the documents, while platinum is
assigned to only five training documents. There are 16,039 unique terms in the collection (after performing inflectional stemming, stop word removal, and conversion to lower case).

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Reuters Tin tức câu chuyện bộ sưu tập là thường sử dụng corpora trong nghiên cứu phân loại văn bản [13, 1, 21, 16, 3] 1. Có 21,450 tài liệu trong bộ sưu tập đầy đủ; ít hơn một nửa các tài liệu có chủ đề của con người được gán nhãn. Chúng tôi sử dụng chỉ là những tài liệu đó có ít nhất một chủ đề, chia ngẫu nhiên vào bộ đào tạo của 9,610 và một bộ kiểm tra 3.662 tài liệu. Điều nàyphân vùng là tương tự như làm việc trong [1], nhưng khác với [13] người sử dụng bộ sưu tập đầy đủ bao gồm cả unlabelled tài liệu 2. Những câu chuyện có chiều dài amean 90,6 từ với độ lệch chuẩn 91.6. Chúng tôi xem xét các loại 92 xuất hiện ít nhất một lần trongtập huấn luyện. Các loại này bao gồm các chủ đề như hàng hóa, lãi suất, và ngoại hối. Trong khi một số tài liệu có lên đến mười bốn được chỉ định loại, có nghĩa là chỉ là 1,24 thể loại cho mỗi tài liệu. Tần số của sự xuất hiện khác nhau rất nhiều từ thể loại để thể loại; Các khoản thu nhập, ví dụ, xuất hiện trong khoảng 30% các tài liệu, trong khi bạch kimgiao chỉ fi ve đào tạo những tài liệu. Có 16,039 điều khoản duy nhất trong bộ sưu tập (sau khi thực hiện việc ngăn chặn inflectional, dừng từ loại bỏ và chuyển đổi trường hợp thấp hơn).

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Reuters thu thập câu chuyện tin tức thường được sử dụng corpora trong phân loại văn bản nghiên cứu [13, 1, 21, 16, 3] 1. Có 21.450 tài liệu trong bộ sưu tập đầy đủ; ít hơn một nửa số tài liệu có nhãn chủ đề giao của con người. Chúng tôi chỉ sử dụng những tài liệu đó có ít nhất một chủ đề, chia ngẫu nhiên thành một tập huấn luyện của 9610 và một bộ kiểm tra của 3662 tài liệu. Đây
là phân vùng tương tự như được sử dụng trong [1], nhưng khác [13] người sử dụng các bộ sưu tập đầy đủ bao gồm tài liệu không dán nhãn 2. Những câu chuyện có amean chiều dài 90,6 từ với độ lệch chuẩn 91,6. Chúng tôi xem xét 92 loại xuất hiện ít nhất một lần trong
tập huấn luyện. Các loại này bao gồm các chủ đề như hàng hóa, lãi suất, ngoại hối. Trong khi một số tài liệu có đến mười bốn hạng mục được giao, trung bình chỉ là 1,24 loại mỗi tài liệu. Tần suất xảy ra khác nhau rất nhiều từ thể loại thể loại; thu nhập, ví dụ, xuất hiện trong khoảng 30% các văn bản, trong khi bạch kim được
giao cho chỉ fi đã tài liệu đào tạo. Có 16.039 thuật ngữ độc đáo trong bộ sưu tập (sau khi thực hiện inflectional xuất phát, ngăn chặn loại bỏ từ, và chuyển đổi để giảm trường hợp).

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.