Back in elementary school you learn

Back in elementary school you learnt the difference between nouns, verbs, adjectives, and adverbs. These "word classes" are not just the idle invention of grammarians, but are useful categories for many language processing tasks. As we will see, they arise from simple analysis of the distribution of words in text. The goal of this chapter is to answer the following questions:

What are lexical categories and how are they used in natural language processing?
What is a good Python data structure for storing words and their categories?
How can we automatically tag each word of a text with its word class?
Along the way, we'll cover some fundamental techniques in NLP, including sequence labeling, n-gram models, backoff, and evaluation. These techniques are useful in many areas, and tagging gives us a simple context in which to present them. We will also see how tagging is the second step in the typical NLP pipeline, following tokenization.

The process of classifying words into their parts of speech and labeling them accordingly is known as part-of-speech tagging, POS-tagging, or simply tagging. Parts of speech are also known as word classes or lexical categories. The collection of tags used for a particular task is known as a tagset. Our emphasis in this chapter is on exploiting tags, and tagging text automatically.

What are lexical categories and how are they used in natural language processing?
What is a good Python data structure for storing words and their categories?
How can we automatically tag each word of a text with its word class?
Along the way, we'll cover some fundamental techniques in NLP, including sequence labeling, n-gram models, backoff, and evaluation. These techniques are useful in many areas, and tagging gives us a simple context in which to present them. We will also see how tagging is the second step in the typical NLP pipeline, following tokenization.

The process of classifying words into their parts of speech and labeling them accordingly is known as part-of-speech tagging, POS-tagging, or simply tagging. Parts of speech are also known as word classes or lexical categories. The collection of tags used for a particular task is known as a tagset. Our emphasis in this chapter is on exploiting tags, and tagging text automatically.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Trở lại trong trường tiểu học, bạn học được sự khác biệt giữa các danh từ, động từ, tính từ và trạng từ. Các "lớp học từ" không được phát minh nhàn rỗi của chính, nhưng loại hữu ích cho nhiều ngôn ngữ xử lý công việc. Như chúng ta sẽ thấy, họ phát sinh từ các phân tích đơn giản của việc phân phối các từ trong văn bản. Mục tiêu của chương này là để trả lời các câu hỏi sau đây:Những gì là thể loại từ vựng và cách họ sử dụng trong xử lý ngôn ngữ tự nhiên?Một cấu trúc dữ liệu Python tốt để lưu trữ các từ và thể loại của họ là gì?Làm thế nào chúng tôi có thể tự động gắn thẻ mỗi từ một văn bản với các lớp học từ?Trên đường đi, chúng tôi sẽ bao gồm một số kỹ thuật cơ bản trong NLP, bao gồm cả dãy nhãn mác, n-gam mô hình, Unicom, và đánh giá. Các kỹ thuật này là hữu ích trong nhiều lĩnh vực, và gắn thẻ cho chúng ta một bối cảnh đơn giản trong đó trình bày chúng. Chúng tôi cũng sẽ nhìn thấy như thế nào gắn thẻ là bước thứ hai trong các đường ống NLP điển hình, theo tokenization.Quá trình phân loại từ thành phần của bài phát biểu của họ và ghi nhãn chúng cho phù hợp được gọi là một phần của lời nói gắn thẻ, gắn thẻ POS, hoặc đơn giản chỉ cần gắn thẻ. Phần của bài phát biểu là cũng được gọi là các lớp học từ hoặc danh mục từ vựng. Các bộ sưu tập thẻ được sử dụng cho một nhiệm vụ cụ thể được gọi là một tagset. Chúng tôi nhấn mạnh trong chương này là về khai thác tags, và gắn thẻ văn bản tự động.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Quay lại trường tiểu học bạn học được sự khác biệt giữa danh từ, động từ, tính từ, trạng từ và. Những "lớp học từ" không chỉ là phát minh nhàn rỗi của ngữ pháp, nhưng là loại hữu ích cho nhiều nhiệm vụ xử lý ngôn ngữ. Như chúng ta sẽ thấy, nó phát sinh từ phân tích đơn giản về sự phân bố của các từ trong văn bản. Mục tiêu của chương này là để trả lời những câu hỏi sau: ? loại từ vựng là gì và làm thế nào chúng được sử dụng trong xử lý ngôn ngữ tự nhiên ? một cấu trúc dữ liệu Python tốt để lưu trữ từ và danh mục của họ là gì Làm thế nào chúng ta có thể tự động gắn thẻ mỗi từ của một văn bản với lớp học từ nó? Trên đường đi, chúng tôi sẽ giới thiệu một số kỹ thuật cơ bản trong NLP, bao gồm cả mô hình dán nhãn tự, n-gram, backoff, và đánh giá. Những kỹ thuật này rất hữu ích trong nhiều lĩnh vực, và gắn thẻ cho chúng ta một bối cảnh đơn giản, trong đó để trình bày chúng. Chúng tôi cũng sẽ thấy cách gắn thẻ là bước thứ hai trong các đường ống NLP điển hình, sau tokenization. Quá trình phân loại từ thành các phần của họ về bài phát biểu và ghi nhãn phù hợp được biết đến như là một phần-of-speech tagging, POS-tagging, hoặc chỉ đơn giản là gắn thẻ . Thành phần của câu cũng được biết đến như là các lớp từ hoặc danh mục từ vựng. Các bộ sưu tập của thẻ được sử dụng cho một công việc cụ thể được gọi là một tagset. Sự nhấn mạnh của chúng tôi trong chương này là khai thác thẻ, và gắn thẻ văn bản tự động.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.