Phát hiện lỗi chính tả 3.1.2
Trước khi thực hiện bước này, tweets phải được loại bỏ nội dung ồn ào như
những biểu tượng cảm xúc (ví dụ: ❤❤, ..), biểu tượng hashtag, link urlusername, vv Để
phát hiện lỗi, chúng tôi tổng hợp và xây dựng một từ điển cho tất cả các từ tiếng Việt.
Từ điển này bao gồm hơn 7.300 từ. Trong phương pháp của chúng tôi, một từ sẽ được
xác định lỗi, nếu nó không xuất hiện trong từ điển. Thông thường, Việt
bao gồm hai loại lỗi:. gõ lỗi chính tả và lỗi
3.1.3 Normalization
. Sau giai đoạn phát hiện lỗi chính tả, từ ngữ với lỗi chính tả đã được xác định
hệ thống đầu tiên sử dụng cấu trúc từ vựng, thiết lập các quy tắc âm tiết để sửa chữa gõ này
lỗi, sau đó kết quả sẽ được đo sự tương tự với các từ trong từ điển để tìm từ có mức độ tương đồng cao nhất. Trong trường hợp chúng tôi không thể
tìm thấy từ kết quả trong từ điển, hệ thống sẽ sử dụng n-gram để bình thường hóa
từ lỗi. Bảng 1 cho thấy các kết quả bình thường tweets Việt.
đang được dịch, vui lòng đợi..
