Quay lại trường tiểu học bạn học được sự khác biệt giữa danh từ, động từ, tính từ, trạng từ và. Những "lớp học từ" không chỉ là phát minh nhàn rỗi của ngữ pháp, nhưng là loại hữu ích cho nhiều nhiệm vụ xử lý ngôn ngữ. Như chúng ta sẽ thấy, nó phát sinh từ phân tích đơn giản về sự phân bố của các từ trong văn bản. Mục tiêu của chương này là để trả lời những câu hỏi sau: ? loại từ vựng là gì và làm thế nào chúng được sử dụng trong xử lý ngôn ngữ tự nhiên ? một cấu trúc dữ liệu Python tốt để lưu trữ từ và danh mục của họ là gì Làm thế nào chúng ta có thể tự động gắn thẻ mỗi từ của một văn bản với lớp học từ nó? Trên đường đi, chúng tôi sẽ giới thiệu một số kỹ thuật cơ bản trong NLP, bao gồm cả mô hình dán nhãn tự, n-gram, backoff, và đánh giá. Những kỹ thuật này rất hữu ích trong nhiều lĩnh vực, và gắn thẻ cho chúng ta một bối cảnh đơn giản, trong đó để trình bày chúng. Chúng tôi cũng sẽ thấy cách gắn thẻ là bước thứ hai trong các đường ống NLP điển hình, sau tokenization. Quá trình phân loại từ thành các phần của họ về bài phát biểu và ghi nhãn phù hợp được biết đến như là một phần-of-speech tagging, POS-tagging, hoặc chỉ đơn giản là gắn thẻ . Thành phần của câu cũng được biết đến như là các lớp từ hoặc danh mục từ vựng. Các bộ sưu tập của thẻ được sử dụng cho một công việc cụ thể được gọi là một tagset. Sự nhấn mạnh của chúng tôi trong chương này là khai thác thẻ, và gắn thẻ văn bản tự động.
đang được dịch, vui lòng đợi..
