The STC method appears to achieve t

The STC method appears to achieve the quality of a “complete,” i.e., O(N2) method (see discussion of Cluster Validation below), while running in linear time, i.e., O(N). The “secret” is the nature of the “similarity” measure STC uses, and the efficient data structure and algorithm STC uses to index the documents and compute the similarity. Practically all other cluster methods use a measure such that if document D1 is similar to document D2, and document D2 is similar to D3, one cannot assume that D1 is similar to D3. In a word, these measures, e.g., cosine similarity, are nontransitive. As a result, every pair of interdocument similarities needs to be computed and accessed for “completeness.” By contrast, STC forms its base clusters on the basis of shared phrases. If D1 and D2 share a phrase, and D2 and D3 share the same phrase, then D1 and D3 certainly share that phrase too! Hence, STC can perform complete clustering at the base cluster level without incurring the O(N2) penalty. STC achieves O(N) time and space by employing a suffix tree to index the document collection, and an efficient algorithm due to Ukkonen [Algorith, 1995] [Nelson, 1996] to build and update the suffix tree. The second-stage clustering of base clusters is not transitive, but involves clustering of base clusters, not documents. Moreover (and this is the most “heuristic” element of the method), during the incremental reclustering of base clusters, only the q “best” existing clusters are revisited, as noted above. This keeps the time (actually the maximum time) required for stage two constant as the number of documents grows.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Phương pháp STC xuất hiện để đạt được chất lượng của một ", hoàn thành" phương pháp tức là O (N2) (xem thảo luận của Cluster Validation dưới đây), trong khi chạy trong thời gian tuyến tính, tức là O (N). "Bí mật" là bản chất của "tương tự" đo STC sử dụng, và các cấu trúc dữ liệu và thuật toán hiệu quả sử dụng STC để chỉ mục các tài liệu và tính toán tương tự. Thực tế tất cả các phương pháp cụm khác sử dụng một biện pháp như vậy là nếu tài liệu D1 là tương tự như tài liệu D2, và tài liệu D2 là tương tự như D3, người ta không thể giả định rằng D1 là tương tự như D3. Trong một từ, các biện pháp này, ví dụ như, cosin tương, là nontransitive. Kết quả là, mỗi cặp tương đồng interdocument cần phải được tính toán và truy cập cho "đầy đủ". Ngược lại, STC hình cụm cơ sở của nó trên cơ sở của các cụm từ được chia sẻ. Nếu D1 và D2 chia sẻ một cụm từ, và D2 và D3 chia sẻ cùng một cụm từ, sau đó D1 và D3 chắc chắn chia sẻ cụm từ đó quá! Do đó, có thể thực hiện phân nhóm STC hoàn chỉnh ở cấp cụm cơ sở mà không phải gánh chịu O (N2) penalty. STC đạt được O (N) thời gian và không gian bằng cách sử dụng một cây hậu tố để chỉ mục các bộ sưu tập tài liệu, và một thuật toán hiệu quả do Ukkonen [algorith, 1995] [Nelson, 1996] để xây dựng và cập nhật các cây hậu tố. Các clustering giai đoạn thứ hai của cụm cơ sở không phải là transitive, nhưng liên quan clustering của cụm cơ sở, không phải văn bản. Hơn nữa (và điều này là "phỏng đoán" phần tử nhất của phương pháp), trong reclustering gia tăng của các cụm cơ sở, chỉ có q "tốt nhất" cụm hiện đang xem xét lại, như đã nói ở trên. Điều này làm cho thời gian (thực sự là thời gian tối đa) cần thiết cho giai đoạn hai hằng số như số lượng tài liệu phát triển.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.