Khái niệm "thư rác" rất đa dạng: các quảng cáo cho sản phẩm/web site, kiếm tiền nhanh đề án, Chuỗi ký tự, khiêu dâm... Của chúng tôi bộ sưu tập của thư rác e-mail đến từ bưu điện và cá nhân đã nộp thư rác của chúng tôi. Bộ sưu tập của chúng tôi không phải là thư rác e-mail đến từ công việc nộp và e-mail cá nhân, và vì thế chữ 'george' và mã vùng '650' là chỉ số không phải là thư rác. Đây là hữu ích khi xây dựng một bộ lọc thư rác được cá nhân hoá. Một hoặc phải mù quáng như vậy chỉ số không phải là thư rác hoặc nhận được một bộ sưu tập rất nhiều thư rác không tạo ra một bộ lọc thư rác thông dụng. Cho nền trên thư rác: Cranor, Lorrie F., LaMacchia, Brian A. Spam! Thông tin liên lạc của ACM, 41 (8): 74-83, 1998. (a) Hewlett-Packard nội bộ chỉ báo cáo kỹ thuật. Bên ngoài sắp tới. (b) xác định một email nhất định là thư rác hay không. (c) ~ 7% misclassification lỗi. Dương tính giả (đánh dấu tốt thư như thư rác) là rất không mong muốn. Nếu chúng ta đòi trên zero dương tính giả trong thùng dụng cụ phòng thí nghiệm, đào tạo đạc bộ, 20-25% số thư rác qua bộ lọc.
đang được dịch, vui lòng đợi..
