OHSUMED is a bibliographical docume

OHSUMED is a bibliographical document collection 3 , developed by William Hersh and colleagues at the Oregon Health Sciences University. It is a subset of the MEDLINE database[9], consisting of 348,566 references from 270 medical journals from the years 1987 to 1991. All of the references have titles, but only 233,445 of them have abstracts. We refer to the title plus abstract as a document. The documents were manually indexed using subject categories (Medical Subject Headings, or MeSH) in the NationalLibrary of Medicine. There are ab out 18,000 categories defined in MeSH, and 14,321 categories present in the OHSUMED document collection. We used the 1990 documents as a training set and the 1991 documents as the test set in this study. There are 72,076 unique terms in the training set. The average length of a document is 167 words. On average 12 categories are assigned to each document. In some sense the OHSUMED corpus is more difficult than Reuters because the data are more "noisy". That is, the word/category correspondences are more "fuzzy" in OHSUMED. Consequently, the categorization is more difficult to learn for a classier.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

OHSUMED là một bộ sưu tập tài liệu bibliographical 3, phát triển bởi William Hersh và đồng nghiệp tại Đại học khoa học y tế Oregon. Nó là một tập hợp con của cơ sở dữ liệu MEDLINE [9], bao gồm 348,566 tài liệu tham khảo từ 270 tạp chí y khoa từ năm 1987 đến năm 1991. Tất cả các tài liệu tham khảo có tiêu đề, nhưng chỉ 233,445 của họ đã tóm tắt. Chúng tôi đề cập đến tiêu đề cộng với tóm tắt như là một tài liệu. Các tài liệu theo cách thủ công được lập chỉ mục bằng cách sử dụng thể loại chủ đề (y tế chủ đề đề mục, hoặc lưới) trong NationalLibrary y học. Có ab trong thể loại 18.000 được định nghĩa trong lưới, và 14,321 thể loại trình bày trong bộ sưu tập tài liệu OHSUMED. Chúng tôi sử dụng các tài liệu năm 1990 như là một tập hợp đào tạo và các tài liệu năm 1991 như thử nghiệm thiết lập trong nghiên cứu này. Không có điều khoản duy nhất 72,076 trong bộ đào tạo. Chiều dài trung bình của một tài liệu là từ 167. Trung bình 12 thư mục được chỉ định cho mỗi tài liệu. Trong một số ý nghĩa OHSUMED corpus là khó khăn hơn so với Reuters bởi vì dữ liệu nhiều hơn "ồn ào". Đó là, từ/thể loại correspondences là hơn "mờ" trong OHSUMED. Kết quả là, các loại là khó khăn hơn để tìm hiểu cho một vu er.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

OHSUMED là một bộ sưu tập tài liệu thư tịch 3, được phát triển bởi William Hersh và các đồng nghiệp tại Đại học Khoa học Y tế Oregon. Đó là một tập hợp con của các cơ sở dữ liệu MEDLINE [9], bao gồm 348.566 tài liệu tham khảo từ 270 tạp chí y khoa từ năm 1987 đến năm 1991. Tất cả các tài liệu tham khảo có tiêu đề, nhưng chỉ có 233.445 trong số họ có tóm tắt. Chúng tôi tham khảo các tiêu đề cộng với trừu tượng như là một tài liệu. Các tài liệu đã được lập chỉ mục bằng tay sử dụng loại chủ đề (Medical Subject Headings, hoặc MeSH) trong NationalLibrary of Medicine. Có ab ra 18.000 danh mục quy định tại MeSH, và 14.321 loại hiện diện trong bộ sưu tập tài liệu OHSUMED. Chúng tôi sử dụng các tài liệu năm 1990 như là một tập huấn luyện và các văn bản năm 1991 như là thử nghiệm thiết lập trong nghiên cứu này. Có 72.076 thuật ngữ duy nhất trong tập huấn luyện. Chiều dài trung bình của một tài liệu là 167 từ. Trung bình 12 loại được gán cho mỗi tài liệu. Trong một nghĩa nào đó corpus OHSUMED là khó khăn hơn Reuters vì dữ liệu được nhiều hơn "ồn ào". Đó là, các thư từ từ / thể loại có nhiều "mờ" trong OHSUMED. Do đó, việc phân loại là khó khăn hơn để tìm hiểu cho một er phân loại.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.