Máy vector hỗ trợ (SVM) [10, 13] là một trong những hầu hết
các kỹ thuật gần đây được sử dụng trong phân loại văn bản. Trong phương pháp này
một điểm dữ liệu được xem như là một vector p-chiều và cách tiếp cận nhằm mục đích tách các điểm đó với (p-1) chiều
siêu phẳng. Điều này được gọi là một phân lớp tuyến tính. Có
nhiều siêu phẳng mà có thể phân loại các dữ liệu. Một sự lựa chọn hợp lý như các siêu phẳng tốt nhất là một trong những đại diện cho sự tách biệt lớn nhất, hoặc lợi nhuận, giữa hai
lớp. Do đó, SVM chọn siêu phẳng sao cho
khoảng cách từ nó đến điểm dữ liệu gần nhất trên mỗi bên được
tối đa hóa. Nếu một siêu phẳng như vậy tồn tại, nó được gọi là
đang được dịch, vui lòng đợi..
