Trong hình thức đơn giản nhất của nó, trong trường hợp của chúng tôi, ví dụ dữ liệu là nội dung của câu trả lời và các
nhãn là một giá trị nhị phân thể hiện hỏi đã chấp nhận văn bản này như một câu trả lời
hay không. Nguyên văn bản, tuy nhiên, là một đại diện rất bất tiện để xử lý cho
hầu hết các thuật toán máy học. Họ muốn các con số. Nó sẽ là nhiệm vụ của chúng tôi để
trích xuất các tính năng hữu ích từ nguyên văn bản, trong đó các thuật toán học máy có thể
sau đó sử dụng để tìm hiểu các nhãn đúng.
đang được dịch, vui lòng đợi..
