Trong bước tiền xử lý của corpus, chúng tôi chủ yếu thực hiện sau hai operations-
• chúng tôi đặt tất cả các số trong các nhóm khác nhau dựa trên số lượng các chữ số trong họ. Ví dụ, tất cả các chữ số duy nhất được thay thế bởi các dấu hiệu "number1", tất cả các số chữ số gấp đôi vào các mã thông báo "number2" và như vậy.
• từng dấu chấm câu được coi là dấu hiệu riêng biệt
đang được dịch, vui lòng đợi..
