When clustering email messages, both the envelope fields and contents  dịch - When clustering email messages, both the envelope fields and contents  Việt làm thế nào để nói

When clustering email messages, bot

When clustering email messages, both the envelope fields and contents of the message must be taken into account. Therefore several metrics for envelope fields must be combined with the metric of the document clustering component to get the final distance function using combination, as described in the previous section.
3.2.5 Document clustering
Document clustering aims at grouping similar documents based on analysis of their text. It is a field of text mining, which derives many concepts from information retrieval and statistics.Many approaches to determining similarity between texts exist, but the process has usually two parts: document processing and similarity calculation. The document processing takes place at the beginning of the text clustering process and can be divided into several steps:

Decompose the text to single tokens - in most cases words. Apply preprocessing to the words, such as stemming, case conversion or stop words exclusion. Preprocessed words are now regarded as terms.

Analyze terms in context of the document they were extracted from and calculate values necessary to determine term ’s relevance scoring later. The relevance scoring isn’t usually calculated during document processing, as its formula parameters change when other documents are clustered. Therefore, it is preferable to store intermediate values that relate only to this document.

Update global values relating to each term processed in the document’s analysis.When the clustering itself takes place, pair wise document similarities are being calculated.Ideally, during this calculation documents’ texts aren’t being processed, as all necessary information - the terms the documents contain associated with the values necessary for term’s relevance calculation - is already known from the initial documents’ analysis.Document similarity calculation iterates through documents’ terms, determines a relevance scoring for each term and uses the selected measure to calculate the similarity value from all term scorings from both documents.In following sections, we will describe the relevant parts of this process in more detail
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Khi cụm các thư điện tử, lĩnh vực phong bì và nội dung thư phải được đưa vào tài khoản. Do đó một số số liệu cho lĩnh vực phong bì phải được kết hợp với số liệu của tài liệu cụm các thành phần để có được hàm khoảng cách cuối cùng sử dụng kết hợp, như được diễn tả trong phần trước.3.2.5 các tài liệu clusteringTài liệu kết cụm nhằm mục đích nhóm các tài liệu tương tự dựa trên phân tích các văn bản của họ. Nó là một lĩnh vực khai thác mỏ văn bản, có nhiều khái niệm từ thông tin tra cứu và thống kê. Tồn tại nhiều cách tiếp cận để xác định sự tương tự giữa các văn bản, nhưng quá trình này có thường có hai phần: tài liệu xử lý và sự tương tự tính toán. Tài liệu chế biến mất diễn ra lúc bắt đầu của văn bản clustering quá trình và có thể được chia thành một vài bước:•Phân hủy các văn bản duy nhất thẻ - trong hầu hết trường hợp từ. Áp dụng tiền xử lý từ, chẳng hạn như việc ngăn chặn, trường hợp chuyển đổi hoặc dừng từ loại trừ. Preprocessed từ bây giờ được coi là điều khoản.•Phân tích các điều khoản trong bối cảnh của tài liệu mà họ đã được chiết xuất từ và tính toán giá trị cần thiết để xác định mức độ phù hợp của thuật ngữ điểm sau đó. Mức độ liên quan điểm không phải là thường tính trong quá trình xử lý tài liệu, như các tham số công thức thay đổi khi các tài liệu khác được tập trung. Vì vậy, nó là thích hợp hơn để lưu trữ các giá trị trung gian có liên quan chỉ cho tài liệu này.•Cập Nhật giá trị toàn cầu liên quan đến mỗi thời hạn xử lý trong các tài liệu phân tích. Khi các cụm chính nó diễn ra, cặp khôn ngoan tài liệu tương tự đang được tính toán. Lý tưởng nhất, trong quá trình tính toán này tài liệu văn bản không được xử lý, như tất cả thông tin cần thiết - các điều khoản có chứa các tài liệu liên kết với các giá trị cần thiết để tính toán mức độ phù hợp của nhiệm kỳ - đã được biết đến từ phân tích các tài liệu ban đầu. Tài liệu tương tự tính toán iterates thông qua các điều khoản của tài liệu, xác định một mức độ liên quan được ghi cho mỗi nhiệm kỳ và sử dụng các biện pháp được chọn để tính toán các giá trị tương tự từ tất cả cụm từ scorings từ cả hai tài liệu. Ở phần sau, chúng tôi sẽ mô tả các bộ phận có liên quan của quá trình này chi tiết hơn
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Khi phân nhóm thư điện tử, cả hai lĩnh vực và nội dung thông điệp phong bì phải được đưa vào tài khoản. Vì vậy một số số liệu cho các lĩnh vực phong bì phải được kết hợp với các số liệu của các thành phần tài liệu phân nhóm để có được những chức năng khoảng cách thức sử dụng kết hợp, như được mô tả trong phần trước.
3.2.5 Tài liệu phân nhóm
tài liệu phân nhóm nhằm nhóm các tài liệu tương tự dựa trên các phân tích của họ bản văn. Đây là một lĩnh vực khai thác văn bản, mà xuất phát nhiều khái niệm từ hồi thông tin và statistics.Many cách tiếp cận để xác định sự tương đồng giữa văn bản tồn tại, nhưng quá trình này thường có hai phần: xử lý văn bản và tính toán tương tự. Việc xử lý tài liệu diễn ra vào đầu của quá trình phân nhóm văn bản và có thể được chia thành một số bước sau:

Phân hủy các văn bản để thẻ duy nhất - trong nhiều trường hợp từ. Áp dụng tiền xử lý để những từ ngữ, chẳng hạn như xuất phát, trường hợp chuyển đổi hoặc ngừng từ loại trừ. Nói cách xử lý trước bây giờ được coi là điều kiện.

Phân tích các điều khoản trong bối cảnh của các tài liệu mà họ được trích xuất từ và tính toán các giá trị cần thiết để xác định sự liên quan ngữ 's ghi được sau đó. Các điểm liên quan thường không được tính trong xử lý văn bản, như các thông số công thức của nó thay đổi khi các tài liệu khác được gộp lại. Vì vậy, nó là thích hợp để lưu trữ các giá trị trung gian mà chỉ liên quan đến tài liệu này.

Cập nhật các giá trị toàn cầu liên quan đến từng hạn chế trong analysis.When của tài liệu các phân nhóm chính diễn ra, cặp tương đồng văn minh đang được calculated.Ideally, trong tính toán này tài liệu "văn bản không được xử lý, như tất cả các thông tin cần thiết - các điều khoản các tài liệu có chứa kết hợp với các giá trị cần thiết để tính phù hợp của hạn - đã được biết đến từ những tài liệu ban đầu 'lặp tính analysis.Document giống nhau thông qua các điều khoản tài liệu, xác định một liên quan ghi cho từng kỳ hạn và sử dụng các biện pháp được lựa chọn để tính toán các giá trị tương tự từ tất cả scorings hạn từ cả hai phần sau đây documents.In, chúng tôi sẽ mô tả các bộ phận liên quan của quá trình này một cách chi tiết hơn
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: