Cái gọi là "Spambase" dữ liệu này có thực ví dụ dữ liệu. Vì vậy, các tác giả đã phân tích các email thực sự.
Các dữ liệu chứa 57 thuộc tính hoặc các tính năng. Những bao gồm: 48 thực [0100] thuộc tính liên tục của các loại word_freq_WORD | = Tỷ lệ phần trăm của các từ trong các e-mail phù hợp với WORD, | tức là 100 * (số lần WORD xuất hiện trong e-mail) / | tổng số từ trong e-mail. A "từ" trong trường hợp này là bất kỳ | chuỗi các ký tự chữ và giáp khác số | ký tự cuối cùng của chuỗi. | | 6 liên tục thực [0100] thuộc tính của loại char_freq_CHAR | = Tỷ lệ phần trăm của các nhân vật trong e-mail phù hợp với CHAR, | tức là 100 * (số lần xuất hiện CHAR) / tổng số nhân vật trong e-mail | | 1 liên tục thực [1, ...] thuộc tính của loại capital_run_length_average | = Chiều dài trung bình của chuỗi liên tục của các chữ cái vốn | | 1 số nguyên liên tục [1, ...] thuộc tính của loại capital_run_length_longest | = Chiều dài của chuỗi liên tục dài nhất của các chữ cái vốn | | 1 số nguyên liên tục [1, ...] thuộc tính của loại capital_run_length_total | = Tổng độ dài của các chuỗi liên tục của các chữ cái vốn | = Tổng số chữ cái trong e-mail | | 1 danh nghĩa {0,1} class thuộc tính của loại hình thư rác | = Biểu thị cho dù các e-mail được coi là thư rác (1) hay không (0), | tức là không được yêu cầu thương mại điện tử. Vì vậy, trong 48 thuộc tính đầu tiên cho thấy các tần số của những từ đơn lẻ trong email. Những từ này là: điều đó có nghĩa rằng, trước khi bất kỳ phân tích thêm, một mail có một xác suất 0.4 là spam và 0,6 xác suất là hợp pháp (theo tập huấn luyện của chúng tôi).
đang được dịch, vui lòng đợi..