> Bộ sưu tập 425 tin nhắn spam SMS bằng tay được chiết xuất từ Grumbletext trang web. Đây là một diễn đàn UK mà người sử dụng điện thoại di động làm cho khu vực yêu cầu về SMS spam tin nhắn, hầu hết trong số họ mà không có báo cáo rất thư rác thư nhận được. Việc xác định các nội dung của tin nhắn rác trong các tuyên bố là một nhiệm vụ rất khó khăn và tốn thời gian, và nó liên quan đến hàng trăm cẩn thận quét các trang web. Trang Grumbletext Web là: [Link trang Web]. -> Một tập hợp con của 3,375 tin nhắn SMS, chọn ngẫu nhiên ham thư của NUS SMS Corpus (NSC), mà là một tập dữ liệu của khoảng 10.000 tin nhắn hợp pháp thu được qua nghiên cứu tại sở khoa học máy tính tại Đại học quốc gia Singapore. Các tin nhắn chủ yếu có nguồn gốc từ Singapore và chủ yếu là từ các sinh viên theo học các trường đại học. Những tin nhắn đã được thu thập từ các tình nguyện viên đã được thực hiện nhận thức được rằng sự đóng góp của họ sẽ được thực hiện công khai có sẵn. NUS SMS Corpus là avalaible tại: [Link trang Web]. -> Danh sách 450 ham tin nhắn SMS được thu thập từ luận án tiến sĩ Caroline Tag có sẵn tại [liên kết]. -> Cuối cùng, chúng tôi đã hợp nhất tin nhắn SMS rác Corpus v.0.1 lớn. 1.002 ham tin nhắn SMS và tin nhắn rác 322 và nó là khu vực có sẵn tại: [Link trang Web]. Corpus này đã được sử dụng trong các nghiên cứu học tập sau đây:
đang được dịch, vui lòng đợi..