OHSUMED là một bộ sưu tập tài liệu bibliographical 3, phát triển bởi William Hersh và đồng nghiệp tại Đại học khoa học y tế Oregon. Nó là một tập hợp con của cơ sở dữ liệu MEDLINE [9], bao gồm 348,566 tài liệu tham khảo từ 270 tạp chí y khoa từ năm 1987 đến năm 1991. Tất cả các tài liệu tham khảo có tiêu đề, nhưng chỉ 233,445 của họ đã tóm tắt. Chúng tôi đề cập đến tiêu đề cộng với tóm tắt như là một tài liệu. Các tài liệu theo cách thủ công được lập chỉ mục bằng cách sử dụng thể loại chủ đề (y tế chủ đề đề mục, hoặc lưới) trong NationalLibrary y học. Có ab trong thể loại 18.000 được định nghĩa trong lưới, và 14,321 thể loại trình bày trong bộ sưu tập tài liệu OHSUMED. Chúng tôi sử dụng các tài liệu năm 1990 như là một tập hợp đào tạo và các tài liệu năm 1991 như thử nghiệm thiết lập trong nghiên cứu này. Không có điều khoản duy nhất 72,076 trong bộ đào tạo. Chiều dài trung bình của một tài liệu là từ 167. Trung bình 12 thư mục được chỉ định cho mỗi tài liệu. Trong một số ý nghĩa OHSUMED corpus là khó khăn hơn so với Reuters bởi vì dữ liệu nhiều hơn "ồn ào". Đó là, từ/thể loại correspondences là hơn "mờ" trong OHSUMED. Kết quả là, các loại là khó khăn hơn để tìm hiểu cho một vu er.
đang được dịch, vui lòng đợi..