3.2.5.1 TokenizationTokenization is

3.2.5.1 Tokenization
Tokenization is a process of splitting a string of characters into tokens based on predeﬁned lexical grammar. In case of document clustering a simple grammar defining one token consisting of letters and separated by a non-letter character may be sufficient.
3.2.5.2 Term ranking and TF-IDF
It has been described that each term needs to have a relevance scoring that is used during similarity calculation. There are following reasons that require such scoring to exist and the formula used to calculate the score has to address them:
•
Documents vary in length. Even if one document has more occurrences of a term than other document, it doesn’t mean that it is more related to the term. The ﬁrst documentmay just be several times longer and it may even deal with completely unrelated topic.Therefore the term’s number of occurrences must be put in relation to the document 's length.
•
Individual terms highly vary in their importance. Some words are very frequent and may be found in large portion of a document set, while others have very specific meaning and are present only in few documents. The fact that two documents share aspecific, infrequent term has thus much higher weight than if they shared a term that can be found in most of the other documents. Thus a notion about global relevance of a term must be maintained and used appropriately in the similarity calculation.Both of these issues are addressed in a popular term ranking measure named ”TF-IDF”(Term Frequency - Inverse Document Frequency). It is a product of term ’s frequency with in a document and an inverse frequency of the term ’s presence in all documents. TF-IDF value

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

3.2.5.1 tokenizationTokenization là một quá trình chia tách một chuỗi ký tự vào thẻ dựa trên ngữ pháp từ vựng predeﬁned. Trong trường hợp tài liệu clustering một ngữ pháp đơn giản xác định một mã thông báo bao gồm các chữ cái và tách biệt nhau bởi một nhân vật thư có thể được đầy đủ.3.2.5.2 hạn xếp hạng và lực lượng đặc nhiệm-IDFMô tả mỗi thuật ngữ cần phải có một mức độ liên quan ghi được sử dụng trong tính toán tương tự. Có sau đây là lý do yêu cầu ghi như vậy để tồn tại và công thức được sử dụng để tính toán các điểm có đến địa chỉ:•Tài liệu khác nhau về chiều dài. Thậm chí nếu một trong những tài liệu có thêm các sự kiện của cụm từ hơn so với tài liệu khác, nó không có nghĩa là nó có nhiều liên quan đến cụm từ. Documentmay chính chỉ là một vài lần nữa và nó thậm chí có thể đối phó với chủ đề hoàn toàn không liên quan. Do đó các thuật ngữ số lần xuất hiện phải được đặt trong mối quan hệ theo chiều dài của tài liệu.•Điều khoản cá nhân rất khác nhau về tầm quan trọng của họ. Một số từ là rất thường xuyên và có thể được tìm thấy trong phần lớn của một tập hợp tài liệu, trong khi những người khác có ý nghĩa rất cụ thể và xuất hiện chỉ trong vài tài liệu. Một thực tế rằng hai tài liệu chia sẻ aspecific, thuật ngữ không thường xuyên có do đó là nhiều trọng lượng hơn hơn nếu họ chia sẻ một thuật ngữ đó có thể được tìm thấy trong hầu hết các tài liệu khác. Do đó một khái niệm về sự liên quan toàn cầu của một thuật ngữ phải được duy trì và sử dụng một cách thích hợp trong các tính toán tương tự. Cả hai người trong số những vấn đề được đề cập trong một thuật ngữ phổ biến, xếp hạng các biện pháp đặt tên là "lực lượng đặc nhiệm-IDF" (thuật ngữ tần số - nghịch đảo tài liệu tần số). Nó là một sản phẩm của tần số của thuật ngữ với trong một tài liệu và một tần số nghịch đảo của một thuật ngữ hiện diện trong tất cả các tài liệu. Lực lượng đặc nhiệm-IDF giá trị

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

3.2.5.1 tokenization
tokenization là một quá trình tách một chuỗi các ký tự vào thẻ dựa trên prede fi ned ngữ pháp từ vựng. Trong trường hợp của tài liệu phân nhóm một ngữ pháp đơn giản xác định một dấu hiệu gồm các chữ và cách nhau bằng một phi thư nhân vật có thể là đủ.
3.2.5.2 Hạn xếp hạng và TF-IDF
Nó đã được mô tả rằng mỗi học kỳ cần phải có một điểm liên quan đó là được sử dụng trong tính toán tương tự. Có những lý do sau đây đòi hỏi phải có điểm như vậy để tồn tại và công thức sử dụng để tính toán điểm số có để giải quyết chúng:
•
Tài liệu khác nhau về chiều dài. Ngay cả khi một tài liệu có nhiều lần xuất hiện của một từ khác với tài liệu khác, nó không có nghĩa rằng nó là có liên quan đến thuật ngữ này. Việc đầu tiên fi documentmay chỉ có một vài lần nữa và nó thậm chí có thể đối phó với topic.Therefore hoàn toàn không liên quan số của thuật ngữ lần xuất hiện phải được đặt trong mối quan hệ với chiều dài tài liệu.
•
Về cá nhân rất khác nhau về tầm quan trọng của họ. Một số từ rất thường xuyên và có thể được tìm thấy trong phần lớn của một tập tài liệu, trong khi những người khác có ý nghĩa rất cụ thể và chỉ xuất hiện trong vài tài liệu. Thực tế là hai tài liệu chia sẻ aspecific, không thường xuyên hạn có như vậy cao hơn nhiều trọng lượng hơn nếu họ chia sẻ một thuật ngữ có thể được tìm thấy trong hầu hết các văn bản khác. Vì vậy, một ý niệm về sự phù hợp toàn cầu của một thuật ngữ phải được duy trì và sử dụng một cách thích hợp trong calculation.Both giống nhau của những vấn đề này được giải quyết trong một biện pháp xếp hạng dài nổi tiếng có tên "TF-IDF" (Term Frequency - Inverse Document Frequency). Nó là một sản phẩm của thuật ngữ 'tần s với một tài liệu và một tần số nghịch đảo của thuật ngữ "sự hiện diện của tất cả các tài liệu trong. Giá trị TF-IDF

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.