Mặt khác,
trong môi trường học thuật, một cản trở lớn nhất là sự khan hiếm của
các tập dữ liệu thư rác tin nhắn SMS nào, mà vô cùng cần thiết để xác nhận và so sánh các phân loại khác nhau. Hơn nữa,
như tin nhắn SMS là khá ngắn, các bộ lọc thư rác dựa trên nội dung có thể có hiệu suất của họ bị suy thoái. Trong bài báo này,
chúng tôi cung cấp một bộ sưu tập thư rác thực, công khai và không được mã hóa tin nhắn SMS mới là lớn nhất một xa như chúng ta biết. Hơn nữa,
chúng tôi so sánh hiệu suất đạt được nhiều thành lập
các phương pháp học máy. Kết quả chỉ ra rằng Support Vector Machine nhanh hơn so với phân loại đánh giá khác
, và do đó, nó có thể được sử dụng như một cơ sở tốt để biết thêm
so sánh
đang được dịch, vui lòng đợi..
