Với bốn tính năng bổ sung, bây giờ chúng tôi có bảy tính năng đại diện cho
bài viết cá nhân. Hãy xem cách chúng tôi đã tiến triển:
Mean (điểm số) = 0,57650 Stddev (điểm số) = 0,03557
Bây giờ đó là thú vị. Chúng tôi thêm bốn tính năng hơn và có phân loại tồi tệ hơn
chính xác. Làm thế nào mà có thể là có thể?
Để hiểu được điều này, chúng ta phải tự nhắc nhở mình về cách KNN hoạt động. 5NN chúng tôi
phân loại xác định lớp của một bài mới bằng cách tính toán trước bảy
tính năng mô tả, cụ thể là LinkCount, NumTextTokens, NumCodeLines, AvgSentLen,
AvgWordLen, NumAllCaps, và NumExclams, và sau đó tìm thấy những năm gần khác
viết. Lớp các bài mới là sau đó phần lớn các lớp học của những bài viết gần
đang được dịch, vui lòng đợi..
