In this section, we presents our mo

In this section, we presents our model for Vietnamese tweets recognition. The
model is described in Figure 1. We will describe detail for it in following subsections.
3.1 Normalization
As presenting in the previous sections, Vietnamese tweets contain a lot of spelling
errors. If we use these raw tweets for NER, the system can not classify it. Therefore, we will get a poor result of F1-Score (please refer to the first case of our
experiment). To improve it, we must detect and normalize these spelling errors.
3.1.1 The theoretical background
Currently, there are several view-points on what is a Vietnamese word. However,
to meet the goals of automatic error detection, normalization and classification,
the authors use the views in the thesis of Dinh Dien [4]: "A Vietnamese word is
composed of Vietnamese morphemes". And according to the syllable dictionary
of Hoang Phe [20], we split a word into two basic parts: consonant and syllable:
– Consonant and vowel:
• Consonant: Vietnamese language has 27 consonants: "b", "ch", "c", "d",
"đ", "gi", "gh", "g", "h", "kh", "k", "l", "m", "ngh", "ng", "nh", "n",
"ph", "q", "r", "s", "th", "tr", "t", "v", "x", "p". And in those, there
are 8 tail consonants: "c", "ch", "n", "nh", "ng", "m", "p", "t",
• vowel: Vietnamese language has 12 single vowels including: "a", "ă","â",
"e","ê", "i","o", "ô","ơ", "u","ư", "y".
– Syllable: the combination of vowels and tail consonants. According to the
syllable dictionary of Hoang Phe, Vietnamese language has 158 syllables
and the vowels do not occur consecutively more than once except “ooc” and
“oong” syllables.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Trong phần này, chúng tôi trình bày của chúng tôi mẫu cho tweets Việt Nam công nhận. CácMô hình được mô tả trong hình 1. Chúng tôi sẽ mô tả chi tiết cho nó trong phần phụ sau đây.3.1 bình thường hóaNhư trình bày ở phần trước, Việt Nam tweets có chứa rất nhiều lỗi chính tảlỗi. Nếu chúng tôi sử dụng các tweets nguyên cho NER, Hệ thống có thể không phân loại nó. Vì vậy, chúng tôi sẽ nhận được một kết quả nghèo của F1-điểm (vui lòng tham khảo trường hợp đầu tiên của chúng tôithử nghiệm). Để cải thiện nó, chúng ta phải phát hiện và bình thường hóa các lỗi chính tả.3.1.1 nền lý thuyếtHiện nay, có rất nhiều quan điểm trên những gì là một từ Việt Nam. Tuy nhiên,để đáp ứng các mục tiêu của phát hiện tự động lỗi, bình thường hóa và phân loại,Các tác giả sử dụng quan điểm trong luận án của Dinh Dien [4]: "một từ Việt Nam làbao gồm thức Việt Nam". Và theo từ điển âm tiếtcủa hoàng Phe [20], chúng tôi chia một từ thành hai phần cơ bản: phụ âm và âm tiết:-Phụ âm và nguyên âm:• Phụ âm: ngôn ngữ Việt Nam có 27 phụ âm: "b", "ch", "c", "d","Đ", "gi", "gh", "g", "h", "kh", "k", "l", "m", "ngh", "của", "nh", "n","ph", "q", "r", "s", "th", "tr", "t", "v", "x", "p". Và trong đó những,là 8 đuôi phụ âm: "c", "ch", "n", "nh", "của", "m", "p", "t",• nguyên âm: tiếng Việt có 12 nguyên âm đơn bao gồm: "a", "ă", "â","e", "ê", "tôi", "o", "ô", "ơ", "u", "ư", "y".-Âm tiết: sự kết hợp của nguyên âm và phụ âm đuôi. Theo cácâm tiết các từ điển của hoàng Phe, tiếng Việt có 158 âm tiếtvà các nguyên âm không xảy ra liên tiếp nhiều hơn một lần ngoại trừ "ooc" vàâm tiết "oong".

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Trong phần này, chúng tôi trình bày mô hình của chúng tôi cho tweets Việt công nhận. Các
mô hình được mô tả trong hình 1. Chúng tôi sẽ mô tả chi tiết cho nó trong phần dưới đây.
3.1 Normalization
Như trình bày trong các phần trước, tweets Việt chứa rất nhiều lỗi chính tả
lỗi. Nếu chúng ta sử dụng các tweets liệu cho NER, hệ thống không thể phân loại nó. Do đó, chúng ta sẽ có được một kết quả nghèo của F1-Score (vui lòng tham khảo các trường hợp đầu tiên của chúng tôi
thử nghiệm). Để cải thiện nó, chúng ta phải phát hiện và bình thường hóa các lỗi chính tả.
3.1.1 Các cơ sở lý thuyết
Hiện nay, có một số điểm-điểm vào một từ tiếng Việt là gì. Tuy nhiên,
để đáp ứng các mục tiêu của phát hiện lỗi tự động, chuẩn hóa và phân loại,
tác giả sử dụng các quan điểm trong luận án của Đinh Điền [4]: "Một từ tiếng Việt được
sáng tác của vị tiếng Việt ". Và theo từ điển âm tiết
của Hoàng Phe [20], chúng tôi chia một từ thành hai phần cơ bản: phụ âm và âm tiết:
- Phụ âm và nguyên âm:
• Phụ âm: tiếng Việt có 27 phụ âm: "b", "ch", "c "," d ",
"đ", "gi", "gh", "g", "h", "kh", "k", "l", "m", "ngh", "ng", "nh", "n",
"ph", "q", "r", "s", "th", "tr", "t", "v", "x", "p". Và trong đó, có
8 phụ âm đuôi: "c", "ch", "n", "nh", "ng", "m", "p", "t",
• nguyên âm: Tiếng Việt ngữ có 12 đơn nguyên âm bao gồm: "a", "ă", "â",
"e", "ê", "i", "o", "ô", "ơ", "u", "ư", "y" .
- Âm: sự kết hợp của các nguyên âm và phụ âm đuôi. Theo
từ điển âm tiết của Hoàng Phê, ngôn ngữ Việt có 158 âm tiết
và các nguyên âm không xảy ra liên tiếp hơn một lần, trừ "OOC" và
"Oong" âm tiết.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.