Trong phần này, chúng tôi trình bày của chúng tôi mẫu cho tweets Việt Nam công nhận. CácMô hình được mô tả trong hình 1. Chúng tôi sẽ mô tả chi tiết cho nó trong phần phụ sau đây.3.1 bình thường hóaNhư trình bày ở phần trước, Việt Nam tweets có chứa rất nhiều lỗi chính tảlỗi. Nếu chúng tôi sử dụng các tweets nguyên cho NER, Hệ thống có thể không phân loại nó. Vì vậy, chúng tôi sẽ nhận được một kết quả nghèo của F1-điểm (vui lòng tham khảo trường hợp đầu tiên của chúng tôithử nghiệm). Để cải thiện nó, chúng ta phải phát hiện và bình thường hóa các lỗi chính tả.3.1.1 nền lý thuyếtHiện nay, có rất nhiều quan điểm trên những gì là một từ Việt Nam. Tuy nhiên,để đáp ứng các mục tiêu của phát hiện tự động lỗi, bình thường hóa và phân loại,Các tác giả sử dụng quan điểm trong luận án của Dinh Dien [4]: "một từ Việt Nam làbao gồm thức Việt Nam". Và theo từ điển âm tiếtcủa hoàng Phe [20], chúng tôi chia một từ thành hai phần cơ bản: phụ âm và âm tiết:-Phụ âm và nguyên âm:• Phụ âm: ngôn ngữ Việt Nam có 27 phụ âm: "b", "ch", "c", "d","Đ", "gi", "gh", "g", "h", "kh", "k", "l", "m", "ngh", "của", "nh", "n","ph", "q", "r", "s", "th", "tr", "t", "v", "x", "p". Và trong đó những,là 8 đuôi phụ âm: "c", "ch", "n", "nh", "của", "m", "p", "t",• nguyên âm: tiếng Việt có 12 nguyên âm đơn bao gồm: "a", "ă", "â","e", "ê", "tôi", "o", "ô", "ơ", "u", "ư", "y".-Âm tiết: sự kết hợp của nguyên âm và phụ âm đuôi. Theo cácâm tiết các từ điển của hoàng Phe, tiếng Việt có 158 âm tiếtvà các nguyên âm không xảy ra liên tiếp nhiều hơn một lần ngoại trừ "ooc" vàâm tiết "oong".
đang được dịch, vui lòng đợi..
