Định nghĩa một câu trả lời tốt là những gì
Trước khi chúng tôi có thể đào tạo một phân loại để phân biệt giữa câu trả lời tốt và xấu, chúng ta
phải tạo ra các dữ liệu huấn luyện. Cho đến nay, chúng ta chỉ có một loạt các dữ liệu. Những gì chúng ta vẫn
phải làm là xác định nhãn.
Chúng tôi có thể, tất nhiên, chỉ đơn giản là sử dụng các thuộc tính IsAccepted như một nhãn. Sau khi tất cả, nó
đánh dấu câu trả lời mà trả lời các câu hỏi. Tuy nhiên, đó chỉ là ý kiến của
người đặt. Đương nhiên, Người hỏi muốn có câu trả lời nhanh và chấp nhận là người đầu tiên
trả lời tốt nhất. Nếu câu trả lời thêm được đệ trình theo thời gian, một số trong số họ sẽ có xu hướng
tốt hơn so với một trong những đã được chấp nhận. Người hỏi, tuy nhiên, hiếm khi được trở lại các
câu hỏi và thay đổi / trả của mình. Vì vậy, chúng tôi kết thúc với nhiều câu hỏi với
câu trả lời được chấp nhận rằng đã không được ghi bàn cao nhất.
Ở thái cực khác, chúng ta có thể đưa ra câu trả lời tốt nhất và tồi tệ nhất ghi bàn cho mỗi câu hỏi
ví dụ như tích cực và tiêu cực. Tuy nhiên, chúng ta làm gì với câu hỏi mà
chỉ có câu trả lời tốt, nói, một trong hai và khác với bốn điểm? Nên
chúng tôi thực sự có những câu trả lời với hai điểm là một ví dụ tiêu cực?
Chúng ta nên giải quyết ở đâu đó giữa hai thái cực này. Nếu chúng ta lấy tất cả các câu trả lời
được ghi điểm cao hơn so với số không như tích cực và tất cả các câu trả lời với 0 hoặc ít hơn điểm là
tiêu cực, chúng ta kết thúc với nhãn khá hợp lý như sau:
>>> all_answers = [q q, v trong meta.iteritems ( ) nếu v ['ParentId'] = - 1]
>>> Y = np.asarray ([meta [trợ giúp] ['Điểm']> 0 cho viện trợ trong all_answers])
đang được dịch, vui lòng đợi..