Trong phần này, chúng tôi trình bày mô hình của chúng tôi cho tweets Việt công nhận. Các
mô hình được mô tả trong hình 1. Chúng tôi sẽ mô tả chi tiết cho nó trong phần dưới đây.
3.1 Normalization
Như trình bày trong các phần trước, tweets Việt chứa rất nhiều lỗi chính tả
lỗi. Nếu chúng ta sử dụng các tweets liệu cho NER, hệ thống không thể phân loại nó. Do đó, chúng ta sẽ có được một kết quả nghèo của F1-Score (vui lòng tham khảo các trường hợp đầu tiên của chúng tôi
thử nghiệm). Để cải thiện nó, chúng ta phải phát hiện và bình thường hóa các lỗi chính tả.
3.1.1 Các cơ sở lý thuyết
Hiện nay, có một số điểm-điểm vào một từ tiếng Việt là gì. Tuy nhiên,
để đáp ứng các mục tiêu của phát hiện lỗi tự động, chuẩn hóa và phân loại,
tác giả sử dụng các quan điểm trong luận án của Đinh Điền [4]: "Một từ tiếng Việt được
sáng tác của vị tiếng Việt ". Và theo từ điển âm tiết
của Hoàng Phe [20], chúng tôi chia một từ thành hai phần cơ bản: phụ âm và âm tiết:
- Phụ âm và nguyên âm:
• Phụ âm: tiếng Việt có 27 phụ âm: "b", "ch", "c "," d ",
"đ", "gi", "gh", "g", "h", "kh", "k", "l", "m", "ngh", "ng", "nh", "n",
"ph", "q", "r", "s", "th", "tr", "t", "v", "x", "p". Và trong đó, có
8 phụ âm đuôi: "c", "ch", "n", "nh", "ng", "m", "p", "t",
• nguyên âm: Tiếng Việt ngữ có 12 đơn nguyên âm bao gồm: "a", "ă", "â",
"e", "ê", "i", "o", "ô", "ơ", "u", "ư", "y" .
- Âm: sự kết hợp của các nguyên âm và phụ âm đuôi. Theo
từ điển âm tiết của Hoàng Phê, ngôn ngữ Việt có 158 âm tiết
và các nguyên âm không xảy ra liên tiếp hơn một lần, trừ "OOC" và
"Oong" âm tiết.
đang được dịch, vui lòng đợi..
