Không giống như việc phân tích dữ liệu bị mất, quá trình phát hiện outlier nhằm xác định vị trí "bất thường" hồ sơ dữ liệu được coi là tách biệt khỏi phần lớn các dữ liệu thu thập được. Có một số cách có thể xảy ra, trong đó để xác định nếu một hoặc nhiều giá trị là giá trị ngoại lai trong một tập dữ liệu đại diện. Nếu các giá trị được phân bố bình thường, sau đó một điều tra viên có thể cô lập kẻ xuất sử dụng các thủ tục thống kê (ví dụ, Grubbs 'kiểm tra, kiểm tra của Dixon, thân và hiển thị lá, biểu đồ, và các lô hộp). Nếu các giá trị có một phân bố không xác định hoặc không đúng tiêu chuẩn, sau đó có tồn tại không có thủ tục thống kê thắng kiện để xác định giá trị ngoại lai. Hãy xem xét việc sử dụng các phương pháp k-NN, đòi hỏi tính toán khoảng cách giữa mỗi bản ghi và tất cả các hồ sơ khác trong tập dữ liệu để xác định các k-NN cho mỗi bản ghi (Hodge et al., 2004). Khoảng cách đó có thể được kiểm tra để xác định vị trí những hồ sơ có cách xa nhất từ các nước láng giềng của họ và, do đó, giá trị mà có thể tương ứng với giá trị ngoại lai. Cách tiếp cận k-NN cũng có thể được sử dụng với dữ liệu bị mất bằng cách trao đổi các giá trị thiếu với các dữ liệu vô ích, có thể có thể sử dụng gần nhất đo khoảng cách ít nhất là tiêu chí phù hợp.
đang được dịch, vui lòng đợi..
![](//viimg.ilovetranslation.com/pic/loading_3.gif?v=b9814dd30c1d7c59_8619)