Điều này sẽ cho biết GridSearchCV để thử unigrams, bigrams, và trigrams nhưtham số các giá trị cho tham số ngram_range của TfidfVectorizer.Sau đó nó xe lửa công cụ ước tính với tất cả có thể/giá trị tham số kết hợp. Cuối cùng,khách sạn cung cấp các công cụ ước tính tốt nhất trong các hình thức best_estimator_ biến thành viên.Như chúng tôi muốn so sánh loại tốt nhất trở lại với chúng tôi một trong những tốt nhất hiện tại, chúng tôibạn phải đánh giá nó theo cùng một cách. Vì vậy, chúng tôi có thể vượt qua ShuffleSplitVí dụ bằng cách sử dụng tham số CV (đây là lý do CV nay ở GridSearchCV).Thiếu điều duy nhất là để xác định như thế nào GridSearchCV nên xác định tốt nhấtcông cụ ước tính. Điều này có thể được thực hiện bằng cách cung cấp các mong muốn điểm chức năng (bất ngờ!)tham số score_func. Chúng tôi có thể viết một mình hoặc chọn một từCác gói phần mềm sklearn.metrics. Chúng ta nên chắc chắn không đi metric.accuracydo chúng tôi mất cân bằng lớp (chúng tôi có rất nhiều ít hơn tweets có tình cảm hơn "những người trung lập). Thay vào đó, chúng tôi muốn có độ chính xác tốt và thu hồi trên cả hai cácCác lớp học: các tweets với tình cảm và tweets mà không tích cực hay tiêu cựcý kiến. Một số liệu kết hợp chính xác và thu hồi là F-biện phápsố liệu, mà được thực hiện như là metrics.f1_score:
đang được dịch, vui lòng đợi..