Khoa Công nghệ thông tin nqminh@fit.hcmuns.edu.vn - ddien@fit.hcmuns.edu.vn Tóm tắt-Part of Speech (POS) gắn thẻ là cơ bản trong xử lý ngôn ngữ tự nhiên. Cho đến nay, nhiều phương pháp đã được áp dụng cho tiếng Anh và các nhiệm vụ được tốt giải quyết. Tuy nhiên, có rất ít nghiên cứu về vấn đề này cho Việt Nam. Trong bài báo này, chúng tôi đánh giá tính năng phổ biến cho tiếng Anh POS tagging và sau đó đề xuất một số tính năng ngôn ngữ cụ thể cho POS Việt gắn thẻ. Kết quả thí nghiệm trên ngữ học Việt corpus nhóm nghiên cứu của Trung tâm cho thấy tagger POS của chúng tôi sử dụng tính năng này bộ được đào tạo bởi SVM nhanh hơn so với khác người gắn thẻ POS Việt. Xử lý ngôn ngữ tự nhiên; Part of Speech Tagging; Support Vector Machines Part-of-speech (POS) gắn thẻ là cơ bản trong tự nhiên xử lý ngôn ngữ (NLP). Đó là quá trình đánh dấu các từ trong một văn bản như tương ứng với một phần cụ thể của bài phát biểu, dựa trên cả hai định nghĩa của nó, cũng như bối cảnh của nó xuất hiện. Các POS của một từ cung cấp một số lượng đáng kể các thông tin về điều đó từ và từ láng giềng của nó, đó là hữu ích cho các vấn đề khác trong NLP như cụm từ chunking, phân tích, và nhập nhằng. Nhiều phương pháp đã được áp dụng cho việc gắn thẻ POS dựa trên kỹ thuật thống kê và máy, chẳng hạn như các Hidden Markov Model (HMM) (Charniak et al., 1993), các Neural Networks (Schmid, 1994), các cây quyết định (Schmid, 1994), chuyển đổi dựa trên học tập (Brill, 1995), các entropy mẫu tối đa (Ratnaparkhi, 1996), Support Vector Machines (SVM) (Nakagawa et al., 2001). Màn trình diễn của những phương pháp này là khá cao, đánh giá về tiếng Anh Wall Street Journal Corpus, sử dụng Penn Treebank POS tag-bộ. Mặc dù các phương pháp này có hiệu suất tốt, hầu hết các nghiên cứu đều tập trung vào tiếng Anh. Vì vậy, đến nay, chỉ có một tagger POS cho các tài liệu tiếng Việt đã được thực hiện công là HMM-dựa VNQTAG (Huyền Nguyễn T. M et Vì ngôn ngữ Việt có đặc điểm cụ thể, áp dụng người gắn thẻ khác sẽ dẫn đến hiệu suất hạn chế. Minh Nghiêm - Điện ĐÌNH Đại học Khoa học Hồ Chí Minh, Việt Nam Mai Nguyễn Khoa Khoa học máy tính Đại học Công nghệ Thông tin Hồ Chí Minh, Việt Nam maintn@uit.edu.vn I. GIỚI THIỆU Việt không phải là một ngôn ngữ "đơn âm". Việt có từ có thể bao gồm một hoặc nhiều âm tiết. là một xu hướng từ có hai âm tiết (có hai âm) với có lẽ 80% của từ vựng là có hai âm. một số từ có ba hoặc bốn syllables- nhiều từ đa âm tiết được hình thành bởi nguồn gốc nhắc lại. Ngoài ra, một từ tiếng Việt có thể bao gồm một hình vị đơn hoặc nhiều hơn một hình vị. Ví dụ: "cm" (cơm) là một mono-morphemic; "Dạ chụt" (dưa chuột) là một bi-morphemic; "Vi Vi vàng vàng" (nhanh-đua ngựa tơ) là một poly-morphemic, nó cũng là một loại nhắc lại. Hơn nữa, có một hiện tượng trong tiếng Việt gọi là "POS thay đổi". Ví dụ: "hnh phúc" (hạnh phúc) là một tính từ, nhưng khi trước nó là từ "nim" (nghĩa / cảm giác), POS của nó là danh từ. Những vấn đề này làm cho POS Việt gắn thẻ khó khăn hơn nhiều so với các ngôn ngữ như tiếng Anh. Trong bài báo này, chúng tôi đề xuất một phương pháp mạnh mẽ cho POS tagging trên các tài liệu tiếng Việt bằng cách sử dụng một loạt các tính năng, bao gồm cả tính năng ngôn ngữ cụ thể. SVM cách tiếp cận sử dụng của chúng tôi, một trong những nhà nước của các phương pháp học máy nghệ thuật để thực hiện gắn thẻ. Các tagger chúng tôi giới thiệu trong tác phẩm này đáp ứng các yêu cầu để được một tagger thực tế; thử nghiệm các kết quả nghiên cứu của Trung tâm ngữ học của Việt corpus nhóm chứng minh rằng tagger này đạt được độ chính xác cao và nhanh hơn so với những người gắn thẻ POS Việt khác. Phần còn lại của bài viết này được tổ chức như sau: Trong phần 2, chúng tôi trình bày tổng quan về khuôn khổ. Sau đó chúng tôi mô tả các tính năng sử dụng cho các tagger POS và phân tích xem là một trong những tốt cho ngôn ngữ tiếng Việt trong phần 3. Trong phần 4, chúng tôi mô tả các kết quả thí nghiệm của chúng tôi. Phần 5 kết luận bài báo và đưa ra con đường cho các công trình trong tương lai. Hình 1 cho thấy việc đào tạo và hình 2 cho thấy sự gắn thẻ quá trình của hệ thống. II. KHUNG TỔNG QUAN
đang được dịch, vui lòng đợi..