Đối với hệ thống sản xuất, chúng ta không nên phân tích nội dung HTML với thường xuyên
biểu thức. Thay vào đó, chúng ta nên dựa trên các thư viện tuyệt vời như BeautifulSoup
mà không một công việc tuyệt vời của việc xử lý mạnh mẽ tất cả những điều kỳ lạ mà thường
xảy ra trong HTML hàng ngày.
Với ở nơi này, chúng ta có thể tạo ra một đặc điểm mỗi câu trả lời. Nhưng trước khi chúng tôi đào tạo các
phân loại, để chúng tôi đầu tiên có một cái nhìn vào những gì chúng tôi sẽ đào tạo nó với. Chúng tôi có thể có được một đầu
ấn tượng với sự phân bố tần số của tính năng mới của chúng tôi. Điều này có thể được thực hiện bằng cách
vẽ các tỷ lệ phần trăm của mỗi giá trị như thế nào thường xảy ra trong các dữ liệu như thể hiện trong
đồ thị dưới đây:
đang được dịch, vui lòng đợi..