Chúng tôi đã làm cho nó! Cho một tập dữ liệu rất ồn ào, chúng tôi xây dựng một loại phù hợp với một phần của chúng tôimục tiêu. Tất nhiên, chúng tôi đã phải được thực dụng và thích ứng với mục tiêu ban đầu của chúng tôi để những gì đãthành công. Nhưng trên đường, chúng tôi đã học được về những điểm mạnh và điểm yếu của cáchàng xóm gần nhất và thuật toán hồi quy logistic. Chúng tôi đã học được làm thế nào để giải néntính năng, chẳng hạn như LinkCount, NumTextTokens, NumCodeLines, AvgSentLen,AvgWordLen, NumAllCaps, NumExclams, và NumImages, và làm thế nào để phân tích của họtác động đến hiệu suất của loại.Nhưng những gì là có giá trị hơn là chúng tôi đã học được một cách thông báo như thế nào đểgỡ lỗi xấu thực hiện máy phân loại. Điều này sẽ giúp chúng tôi trong tương lai để đi lên vớicó thể sử dụng hệ thống nhanh hơn nhiều.Sau khi có nhìn vào hàng xóm gần nhất và thuật toán hồi quy logistic, trongchương kế tiếp chúng tôi sẽ làm quen với một đơn giản nhưng mạnh mẽthuật toán phân loại: ngây thơ Bayes. Trên đường đi, chúng tôi cũng sẽ tìm hiểu làm thế nào để sử dụngmột số công cụ thuận tiện hơn từ Scikit tìm hiểu.
đang được dịch, vui lòng đợi..
