Several approaches to cluster evalu

Several approaches to cluster evaluation with specific applicability to document retrieval have been tried. These approaches try to determine whether a given collection is a good candidate for clustering, i.e., whether clustering will promote retrieval effectiveness. One approach, due to van Rijsbergen and his associates [van Rijsbergen et al., 1973] is to compare the average interdocument similarity among relevant documents to the average similarity among relevant-nonrelevant document pairs. This average can be computed for a given query or over a set of queries. If the cluster hypothesis holds, the average similarity among relevant documents should be substantially larger than the average over relevant-nonrelevant pairs. A second approach, due to Voorhees, is to determine for each document relevant to a given query how many of its nearest neighbors are also relevant to the query. In her experiments, Voorhees [TR 85-658] considered the five nearest neighbors to each relevant document. These two methods both require that a query or set of queries be applied to the collection and that relevance judgments be applied to the documents retrieved by these queries. The assumption is made that the results for the given queries characterize the given collection in the sense that other queries applied to the collection will give similar results. A third approach, due to El-Hamdouchi and Willett [JIS, 1987] depends entirely on properties of the collection itself, or more precisely on the terms that index the documents in the collection. They calculate a term density, defined as the number of occurrences of all index terms in the collection (the number of postings) divided by the product of the number of documents in the collection and the number of unique index terms. This density is a measure of how densely populated the term-document matrix is. The theory is that the greater the term density, the more frequently documents will share terms, and hence the better a clustering can represent degrees of similarity between documents. In a reported comparison of these methods, the term density measure correlated best with effectiveness of cluster searching. [Willetts, IP&M, 1988]

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Một số phương pháp tiếp cận để cụm đánh giá với các ứng dụng cụ thể để thu hồi tài liệu đã được thử. Phương pháp tiếp cận những cố gắng để xác định xem một bộ sưu tập nhất định là một ứng cử viên tốt cho cụm, ví dụ, cho dù clustering sẽ thúc đẩy hiệu quả thu hồi. Một cách tiếp cận, do van Rijsbergen và cộng sự của mình [van Rijsbergen et al., 1973] là để so sánh những nét tương đồng interdocument trung bình trong số các tài liệu liên quan đến sự giống nhau trung bình trong cặp tài liệu có liên quan nonrelevant. Này là có thể được tính cho một truy vấn nhất định hoặc trên một tập hợp các truy vấn. Nếu giả thuyết cụm giữ, sự giống nhau trung bình giữa các tài liệu liên quan nên đáng kể lớn hơn mức trung bình hơn có liên quan nonrelevant cặp. Một cách tiếp cận thứ hai, do Voorhees, là để xác định cho mỗi tài liệu có liên quan đến một truy vấn nhất định bao nhiêu nước láng giềng gần nhất có cũng được liên quan đến truy vấn. Trong các thí nghiệm của mình, Voorhees [TR 85-658] coi là những người hàng xóm gần nhất năm cho mỗi tài liệu có liên quan. Những hai phương pháp cả hai yêu cầu rằng một truy vấn hoặc thiết lập các truy vấn được áp dụng cho việc thu thập và bản án liên quan được áp dụng cho các tài liệu lấy bởi các truy vấn này. Giả định được thực hiện rằng các kết quả cho các truy vấn nhất định đặc trưng bộ sưu tập nhất định trong ý nghĩa rằng các truy vấn được áp dụng cho bộ sưu tập sẽ cho kết quả tương tự. Một phần ba cách tiếp cận, do El-Hamdouchi và Willett [JIS, 1987] phụ thuộc hoàn toàn vào tính chất của bộ sưu tập riêng của mình, hoặc chính xác hơn trên các cụm từ chỉ mục tài liệu trong bộ sưu tập. Họ tính toán mật độ hạn, định nghĩa là số lần xuất hiện của tất cả các điều khoản chỉ mục trong bộ sưu tập (số lượng bài đăng) chia cho sản phẩm của số lượng các tài liệu trong bộ sưu tập và số cụm từ chỉ mục duy nhất. Mật độ này là một thước đo như thế nào có mật độ dân số là ma trận hạn-tài liệu. Lý thuyết là thuật ngữ lớn hơn mật độ, càng thường xuyên tài liệu sẽ chia sẻ điều khoản, và do đó tốt hơn một cụm có thể đại diện cho độ nét tương đồng giữa các tài liệu. Trong một báo cáo so sánh của những phương pháp này, thuật ngữ mật độ đo tương quan tốt nhất với hiệu quả của cụm tìm kiếm. [Willetts, IP & M, 1988]

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Một số phương pháp tiếp cận để nhóm đánh giá có tính ứng dụng cụ thể để thu hồi tài liệu đã được thử nghiệm. Những cách tiếp cận thử để xác định xem một tập cho trước là một ứng cử viên tốt cho clustering, tức là, cho dù phân nhóm sẽ phát huy hiệu quả phục hồi. Một cách tiếp cận, do van Rijsbergen và các cộng sự [van Rijsbergen et al., 1973] là để so sánh sự giống nhau interdocument trung bình trong số các tài liệu có liên quan đến sự tương trung bình giữa các cặp tài liệu có liên quan-nonrelevant. Trung bình này có thể được tính cho một truy vấn nhất định hoặc trên một tập các câu truy vấn. Nếu giả thuyết cụm giữ, sự giống nhau trung bình trong số tài liệu liên quan nên được lớn hơn nhiều so với mức trung bình trong cặp có liên quan-nonrelevant. Một cách tiếp cận thứ hai, do Voorhees, là để xác định cho mỗi tài liệu có liên quan đến một truy vấn được đưa ra cách nhiều nước láng giềng gần nhất của nó cũng có liên quan đến các truy vấn. Trong thí nghiệm của mình, Voorhees [TR 85-658] coi là năm láng giềng gần nhất cho mỗi tài liệu có liên quan. Hai phương pháp này đều đòi hỏi rằng một truy vấn hoặc thiết lập các truy vấn được áp dụng cho các bộ sưu tập và các bản án liên quan được áp dụng cho các tài liệu lấy được bằng các truy vấn này. Các giả định được đưa ra rằng kết quả cho các truy vấn được đặc trưng cho các bộ sưu tập được đưa ra trong ý nghĩa rằng các truy vấn khác áp dụng cho bộ sưu tập sẽ cho kết quả tương tự. Một cách tiếp cận thứ ba, do El-Hamdouchi và Willett [JIS, 1987] phụ thuộc hoàn toàn vào tính chất của các bộ sưu tập riêng của mình, hay chính xác hơn về các điều khoản mà chỉ mục các tài liệu trong bộ sưu tập. Họ tính toán mật độ hạn, định nghĩa là số lần xuất hiện của tất cả các thuật ngữ chỉ mục trong bộ sưu tập (số lượng tin đăng) chia cho các sản phẩm của số lượng tài liệu trong bộ sưu tập và các số từ ngữ chỉ số duy nhất. Mật độ này là một thước đo về cách tập trung đông dân ma trận hạn tài liệu được. Các lý thuyết thì mật độ dài lớn hơn, các tài liệu thường xuyên hơn sẽ chia sẻ điều khoản, và do đó tốt hơn một phân nhóm có thể đại diện cho mức độ tương đồng giữa các tài liệu. Trong một so sánh báo cáo của các phương pháp này, các biện pháp hạn mật độ tương quan tốt nhất với hiệu quả của các cụm tìm kiếm. [Willetts, IP & M, 1988]

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.