Faculty of Information Technologynqminh@fit.hcmuns.edu.vn – ddien@fit. dịch - Faculty of Information Technologynqminh@fit.hcmuns.edu.vn – ddien@fit. Việt làm thế nào để nói

Faculty of Information Technologynq

Faculty of Information Technology

nqminh@fit.hcmuns.edu.vn – ddien@fit.hcmuns.edu.vn

Abstract—Part of Speech (POS) tagging is fundamental in

natural language processing. So far, many methods have been

applied for English and the task is well solved. However, there

are few studies about this problem for Vietnamese. In this paper,

we evaluate common features for English POS tagging and then

propose some language specific features for Vietnamese POS

tagging. Experimental results on the Vietnamese Lexicography

Center's research group’s corpus show that our POS tagger

using this feature set trained by SVM outperforms other

Vietnamese POS taggers.

Natural Language Processing; Part of Speech Tagging;

Support Vector Machines

Part-of-speech (POS) tagging is fundamental in natural

language processing (NLP). It is the process of marking up the

words in a text as corresponding to a particular part of speech,

based on both its definition, as well as its context of

appearance. The POS of a word provides a significant amount

of information about that word and its neighboring words,

which is useful for other problems in NLP such as phrase

chunking, parsing, and word-sense disambiguation.

Many methods have been applied for POS tagging based on

statistical and machine learning techniques, such as the

Hidden Markov Model (HMM) (Charniak et al., 1993), the

Neural Networks (Schmid, 1994), the Decision Trees

(Schmid, 1994), the Transformation-based Learning (Brill,

1995), the Maximum Entropy Model (Ratnaparkhi, 1996), the

Support Vector Machines (SVM) (Nakagawa et al., 2001).

Performances of those methods are remarkably high,

evaluated on the English Wall Street Journal Corpus, using the

Penn Treebank POS tag-sets. Though these methods have

good performance, most studies are focused on English. So

far, only one POS tagger for Vietnamese documents was made

public is the HMM-based VNQTAG (Huyen Nguyen T. M et

Because Vietnamese language has specific characteristics,

applying other taggers will lead to limited performance.

Minh NGHIEM - Dien DINH

University of Sciences

Ho Chi Minh, Vietnam

Mai NGUYEN

Faculty of Computer Science

University of Information Technology

Ho Chi Minh, Vietnam

maintn@uit.edu.vn

I. INTRODUCTION

Vietnamese is not a "monosyllabic" language. Vietnamese

words may consist of one or more syllables. There is a

tendency for words have two syllables (disyllabic) with

perhaps 80% of the lexicon being disyllabic. Some words have

three or four syllables- many polysyllabic words are formed

by reduplicative derivation. Additionally, a Vietnamese word

may consist of a single morpheme or more than one

morpheme.

For example: “c˯m” (cooked rice) is a mono-morphemic;

“d˱a chu͡t” (cucumber) is a bi-morphemic; “v͡i v͡i vàng

vàng” (hurry-scurry) is a poly-morphemic, it is also a kind of

reduplicative.

Moreover, there is a phenomenon in Vietnamese language

called the “POS changing”. For example: “h̩nh phúc”

(happy) is an adjective, but when it is preceded by the word

“ni͉m” (sense/ feeling), its POS is noun. These problems make

Vietnamese POS tagging much more difficult than other

languages such as English.

In this paper, we propose a robust method for POS tagging

on Vietnamese documents by using a wide variety of features,

including language specific features. Our approach use SVM,

one of the state of the art machine learning methods to

perform tagging. The tagger we introduce in this work fulfills

the requirements for being a practical tagger; experimental

results on the Vietnamese Lexicography Center's research

group’s corpus prove that this tagger achieves high accuracy

and outperforms other Vietnamese POS taggers.

The remainder of this paper is organized as follows: In

section 2, we present the framework overview. We then

describe the features used for POS tagger and analyze which

one is good for Vietnamese language in section 3. In section 4,

we describe the results of our experiments. Section 5 concludes

the paper and gives avenues for future works.

Figure 1 shows the training and figure 2 shows the tagging

process of the system.

II. FRAMEWORK OVERVIEW
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Khoa công nghệ thông tinnqminh@Fit.hcmuns.edu.vn-ddien@fit.hcmuns.edu.vnTrừu tượng-một phần của bài phát biểu (POS) gắn thẻ là cơ bản trongxử lý ngôn ngữ tự nhiên. Đến nay, nhiều phương pháp đãáp dụng đối với tiếng Anh và nhiệm vụ cũng được giải quyết. Tuy nhiên, cócó vài nghiên cứu về vấn đề này cho Việt Nam. Trong bài báo này,chúng tôi đánh giá các tính năng phổ biến cho anh POS gắn thẻ và sau đóđề xuất một số ngôn ngữ cụ thể các tính năng cho Việt Nam POSgắn thẻ. Các kết quả thử nghiệm trên điển Việt NamCorpus nhóm của Trung tâm nghiên cứu cho thấy rằng chúng tôi tagger POSbằng cách sử dụng tính năng này thiết lập được đào tạo bởi SVM nhanh hơn so với khácPOS Việt Nam taggers.Xử lý ngôn ngữ tự nhiên; Một phần của bài phát biểu gắn thẻ;Máy vectơ hỗ trợMột phần của lời nói (POS) gắn thẻ là cơ bản trong tự nhiênxử lý ngôn ngữ (NLP). Nó là một quá trình đánh dấu cáctừ trong một văn bản như tương ứng với một đặc biệt một phần của bài phát biểu,Dựa trên cả hai định nghĩa của nó, cũng như bối cảnh củaxuất hiện. POS một từ cung cấp một số lượng đáng kểthông tin về từ đó và nó là một từ giáp ranhđó là hữu ích cho các vấn đề khác trong NLP như cụm từchunking, phân tích và định hướng từ cảm giác.Nhiều phương pháp đã được áp dụng cho tính năng gắn thẻ POS dựa trênthống kê và máy học kỹ thuật, chẳng hạn như cácẨn mô hình Markov (HMM) (Charniak et al., 1993), cácMạng nơ-ron (Schmid, 1994), cây quyết định(Schmid, 1994), dựa trên chuyển đổi học tập (Brill,năm 1995), tối đa Entropy mô hình (Ratnaparkhi, 1996), cácHỗ trợ máy móc Vector (SVM) (Nakagawa và ctv., 2001).Buổi biểu diễn của những phương pháp này là khá cao,đánh giá về Anh ngữ Wall Street Journal Corpus, bằng cách sử dụng cácPenn Treebank POS thẻ bộ. Mặc dù các phương pháp này cóhiệu năng tốt, hầu hết các nghiên cứu tập trung vào tiếng Anh. Vì vậyđến nay, chỉ có một POS tagger cho Việt Nam các tài liệu đã được thực hiệnkhu vực là HMM dựa trên VNQTAG (Huyền Nguyễn T. M etBởi vì ngôn ngữ Việt Nam có đặc điểm riêng,áp dụng các taggers khác sẽ dẫn đến hạn chế hiệu quả.Minh nghiêm - Dien DINHTrường đại học khoa họcTP. Hồ Chí Minh, Việt NamMai NguyễnKhoa Khoa học máy tínhTrường đại học công nghệ thông tinTP. Hồ Chí Minh, Việt Nammaintn@uit.edu.vnI. GIỚI THIỆUViệt Nam không phải là một ngôn ngữ "đơn âm". Việt Namtừ có thể bao gồm một hoặc nhiều âm tiết. Có mộtcác xu hướng cho các từ có hai âm tiết (disyllabic) vớicó lẽ 80% của lexicon được disyllabic. Một số từ cóba hoặc bốn rất nhiều âm tiết polysyllabic từ được hình thànhbởi reduplicative derivation. Ngoài ra, một từ tiếng Việtcó thể bao gồm một morpheme duy nhất hoặc nhiều hơn mộtmorpheme.Ví dụ: "c˯m" (nấu cơm) là một mono-morphemic;"d˱a chu͡t" (dưa chuột) là một bi-morphemic; "v͡i v͡i vàngmột poly-morphemic vàng"(hurry-scurry), nó cũng là một loại củareduplicative.Hơn nữa, đó là một hiện tượng trong ngôn ngữ Việt Namgọi là "POS thay đổi". Ví dụ: "h̩nh phúc"(hạnh phúc) là một tính từ, nhưng khi nó là trước bằng chữ"ni͉m" (tinh thần / cảm giác), POS của nó là danh từ. Những vấn đề này làm choPOS Việt Nam gắn thẻ nhiều khó khăn hơn so với khácngôn ngữ như tiếng Anh.Trong bài báo này, chúng tôi đề xuất một phương pháp mạnh mẽ đối với tính năng gắn thẻ POStrên các tài liệu tiếng Việt bằng cách sử dụng một loạt các tính năng,bao gồm các tính năng cụ thể của ngôn ngữ. Phương pháp tiếp cận của chúng tôi sử dụng SVM,một trong máy tính hiện đại học phương pháp đểthực hiện gắn thẻ. Tagger chúng tôi giới thiệu trong công việc này thực hiện tốt.Các yêu cầu cho là một tagger thực tế; thử nghiệmkết quả nghiên cứu của Trung tâm điển Việt Namchứng minh của nhóm corpus tagger này đạt được độ chính xác caovà nhanh hơn so với khác taggers POS Việt Nam.Phần còn lại của bài báo này được tổ chức như sau: trongphần 2, chúng tôi trình bày tổng quan về khuôn khổ. Chúng ta rồiMô tả các tính năng được sử dụng cho POS tagger và phân tích màmột là tốt cho các ngôn ngữ tiếng Việt trong phần 3. Trong phần 4,chúng tôi mô tả các kết quả của thí nghiệm của chúng tôi. Kết thúc phần 5con đường giấy và cung cấp cho cho các công trình trong tương lai.Hình 1 cho thấy việc đào tạo và hình 2 cho thấy các tính năng gắn thẻquá trình của hệ thống.II. KHUNG TỔNG QUAN
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Khoa Công nghệ thông tin nqminh@fit.hcmuns.edu.vn - ddien@fit.hcmuns.edu.vn Tóm tắt-Part of Speech (POS) gắn thẻ là cơ bản trong xử lý ngôn ngữ tự nhiên. Cho đến nay, nhiều phương pháp đã được áp dụng cho tiếng Anh và các nhiệm vụ được tốt giải quyết. Tuy nhiên, có rất ít nghiên cứu về vấn đề này cho Việt Nam. Trong bài báo này, chúng tôi đánh giá tính năng phổ biến cho tiếng Anh POS tagging và sau đó đề xuất một số tính năng ngôn ngữ cụ thể cho POS Việt gắn thẻ. Kết quả thí nghiệm trên ngữ học Việt corpus nhóm nghiên cứu của Trung tâm cho thấy tagger POS của chúng tôi sử dụng tính năng này bộ được đào tạo bởi SVM nhanh hơn so với khác người gắn thẻ POS Việt. Xử lý ngôn ngữ tự nhiên; Part of Speech Tagging; Support Vector Machines Part-of-speech (POS) gắn thẻ là cơ bản trong tự nhiên xử lý ngôn ngữ (NLP). Đó là quá trình đánh dấu các từ trong một văn bản như tương ứng với một phần cụ thể của bài phát biểu, dựa trên cả hai định nghĩa của nó, cũng như bối cảnh của nó xuất hiện. Các POS của một từ cung cấp một số lượng đáng kể các thông tin về điều đó từ và từ láng giềng của nó, đó là hữu ích cho các vấn đề khác trong NLP như cụm từ chunking, phân tích, và nhập nhằng. Nhiều phương pháp đã được áp dụng cho việc gắn thẻ POS dựa trên kỹ thuật thống kê và máy, chẳng hạn như các Hidden Markov Model (HMM) (Charniak et al., 1993), các Neural Networks (Schmid, 1994), các cây quyết định (Schmid, 1994), chuyển đổi dựa trên học tập (Brill, 1995), các entropy mẫu tối đa (Ratnaparkhi, 1996), Support Vector Machines (SVM) (Nakagawa et al., 2001). Màn trình diễn của những phương pháp này là khá cao, đánh giá về tiếng Anh Wall Street Journal Corpus, sử dụng Penn Treebank POS tag-bộ. Mặc dù các phương pháp này có hiệu suất tốt, hầu hết các nghiên cứu đều tập trung vào tiếng Anh. Vì vậy, đến nay, chỉ có một tagger POS cho các tài liệu tiếng Việt đã được thực hiện công là HMM-dựa VNQTAG (Huyền Nguyễn T. M et Vì ngôn ngữ Việt có đặc điểm cụ thể, áp dụng người gắn thẻ khác sẽ dẫn đến hiệu suất hạn chế. Minh Nghiêm - Điện ĐÌNH Đại học Khoa học Hồ Chí Minh, Việt Nam Mai Nguyễn Khoa Khoa học máy tính Đại học Công nghệ Thông tin Hồ Chí Minh, Việt Nam maintn@uit.edu.vn I. GIỚI THIỆU Việt không phải là một ngôn ngữ "đơn âm". Việt có từ có thể bao gồm một hoặc nhiều âm tiết. là một xu hướng từ có hai âm tiết (có hai âm) với có lẽ 80% của từ vựng là có hai âm. một số từ có ba hoặc bốn syllables- nhiều từ đa âm tiết được hình thành bởi nguồn gốc nhắc lại. Ngoài ra, một từ tiếng Việt có thể bao gồm một hình vị đơn hoặc nhiều hơn một hình vị. Ví dụ: "cm" (cơm) là một mono-morphemic; "Dạ chụt" (dưa chuột) là một bi-morphemic; "Vi Vi vàng vàng" (nhanh-đua ngựa tơ) là một poly-morphemic, nó cũng là một loại nhắc lại. Hơn nữa, có một hiện tượng trong tiếng Việt gọi là "POS thay đổi". Ví dụ: "hnh phúc" (hạnh phúc) là một tính từ, nhưng khi trước nó là từ "nim" (nghĩa / cảm giác), POS của nó là danh từ. Những vấn đề này làm cho POS Việt gắn thẻ khó khăn hơn nhiều so với các ngôn ngữ như tiếng Anh. Trong bài báo này, chúng tôi đề xuất một phương pháp mạnh mẽ cho POS tagging trên các tài liệu tiếng Việt bằng cách sử dụng một loạt các tính năng, bao gồm cả tính năng ngôn ngữ cụ thể. SVM cách tiếp cận sử dụng của chúng tôi, một trong những nhà nước của các phương pháp học máy nghệ thuật để thực hiện gắn thẻ. Các tagger chúng tôi giới thiệu trong tác phẩm này đáp ứng các yêu cầu để được một tagger thực tế; thử nghiệm các kết quả nghiên cứu của Trung tâm ngữ học của Việt corpus nhóm chứng minh rằng tagger này đạt được độ chính xác cao và nhanh hơn so với những người gắn thẻ POS Việt khác. Phần còn lại của bài viết này được tổ chức như sau: Trong phần 2, chúng tôi trình bày tổng quan về khuôn khổ. Sau đó chúng tôi mô tả các tính năng sử dụng cho các tagger POS và phân tích xem là một trong những tốt cho ngôn ngữ tiếng Việt trong phần 3. Trong phần 4, chúng tôi mô tả các kết quả thí nghiệm của chúng tôi. Phần 5 kết luận bài báo và đưa ra con đường cho các công trình trong tương lai. Hình 1 cho thấy việc đào tạo và hình 2 cho thấy sự gắn thẻ quá trình của hệ thống. II. KHUNG TỔNG QUAN

































































































































































đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: