Về A Part-Of-Speech Tagger (POS Tagger) là một phần của phần mềm đọc văn bản trong một số ngôn ngữ và giao cho các bộ phận của bài phát biểu với mỗi từ (và mã thông báo khác), chẳng hạn như danh từ, động từ, tính từ, vv, mặc dù thường ứng dụng tính toán sử dụng thẻ POS nhiều hạt mịn như 'danh từ số nhiều-". Phần mềm này là một thực hiện Java của phần-of-speech người gắn thẻ log tuyến tính mô tả trong các giấy tờ (nếu trích dẫn chỉ là một tờ giấy, trích dẫn một 2003): Kristina Toutanova và Christopher D. Manning. 2000. Làm giàu các nguồn kiến thức sử dụng trong một Maximum Entropy Part-of-Speech Tagger. Trong Kỷ yếu của Hội nghị SIGDAT chung về thực nghiệm phương pháp trong xử lý ngôn ngữ tự nhiên và Very Large Corpora (EMNLP / VLC-2000), pp. 63-70. Kristina Toutanova, Dan Klein, Christopher Manning, và Yoram Singer. 2003. Tính năng-Rich Part-of-Speech Tagging với một phụ thuộc Mạng Cyclic. Trong Kỷ yếu của HLT-NAACL 2003, tr. 252-259. Các tagger ban đầu được viết bởi Kristina Toutanova. Kể từ thời điểm đó, Dan Klein, Christopher Manning, William Morgan, Anna Rafferty, Michel Galley, và John Bauer đã được cải thiện của nó tốc độ, hiệu suất, khả năng sử dụng, và hỗ trợ cho các ngôn ngữ khác. Hệ thống yêu cầu Java 1.8+ được cài đặt. Tùy thuộc vào việc bạn đang chạy 32 hoặc 64 bit Java và sự phức tạp của mô hình tagger, bạn sẽ cần một nơi nào giữa 60 và 200 MB bộ nhớ để chạy một tagger đào tạo (ví dụ, bạn có thể cần phải cung cấp cho java một tùy chọn như java -mx200m). Rất nhiều bộ nhớ là cần thiết để đào tạo một người rượt bắt. Nó lại phụ thuộc vào sự phức tạp của mô hình nhưng ít nhất 1GB thường là cần thiết, thường xuyên hơn. Một số tải có sẵn. Việc tải về cơ bản bao gồm hai mô hình tagger được đào tạo tiếng Anh. Đầy đủ tải về có chứa ba mô hình tagger tiếng Anh được đào tạo, một mô hình rập tagger, một mô hình tagger Trung Quốc, một mô hình tagger Pháp, và một mô hình tagger Đức. Cả hai phiên bản bao gồm cùng một nguồn và các tập tin cần thiết khác. Các tagger có thể được đào tạo lại về ngôn ngữ nào, cho văn bản đào tạo POS-chú thích cho ngôn ngữ. Phần-of-speech chữ viết tắt tên: Những người gắn thẻ tiếng Anh sử dụng thẻ bộ Penn Treebank. Dưới đây là một số liên kết đến các tài liệu của thẻ bộ Penn Treebank tiếng Anh POS: 1993 bài viết Computational Linguistics trong PDF, trang hỗn hợp, danh sách Aoife Cahill. Xem bao gồm README-Models.txt trong thư mục mô hình để biết thêm thông tin về các tagsets cho các ngôn ngữ khác. Các tagger được cấp phép theo Giấy phép GNU General Public (v2 hoặc sau đó). Nguồn được bao gồm. Các gói phần mềm bao gồm các thành phần cho dòng lệnh gọi, chạy như một máy chủ, và một API Java. Mã tagger được cấp phép kép (một cách tương tự như MySQL, vv). Cấp giấy phép mã nguồn mở đang được đầy đủ giấy phép GPL, cho phép nhiều người sử dụng miễn phí. Đối với các nhà phân phối phần mềm độc quyền, cấp phép thương mại có sẵn. Nếu bạn không cần phải có giấy phép thương mại, nhưng muốn hỗ trợ duy trì các công cụ, chúng tôi chào đón tài trợ quà tặng.
đang được dịch, vui lòng đợi..
