Một ví dụ dựa trên văn bảnBây giờ chúng tôi sẽ chuyển sang một ví dụ mà đến từ một nghiên cứu thực hiện tại CarnegieMellon University bởi nhóm nghiên cứu giáo sư Noah Smith. Nghiên cứu dựa trênkhai thác các cái gọi là "10-K báo cáo" mà các tập tin với các chứng khoán các công ty vàExchange Commission (SEC) tại Hoa Kỳ. Nộp hồ sơ này bắt buộc của cácluật cho tất cả các công ty công khai giao dịch. Mục tiêu là để dự đoán, dựa trên mảnhthông tin công cộng, sự biến động trong tương lai của cổ phiếu của công ty sẽ. Trong cácđào tạo dữ liệu, chúng tôi thực sự sử dụng dữ liệu lịch sử mà chúng tôi đã biết những gìđã xảy ra.Có những 16,087 ví dụ có sẵn. Các tính năng tương ứng với các từ khác nhau,150,360 trong tổng số, mà đã được preprocessed cho chúng tôi. Vì vậy, chúng tôi cónhiều tính năng hơn so với ví dụ.Số liệu có sẵn trong SVMLight từ nhiều nguồn, bao gồm cả cácCác trang web bạn đồng hành của cuốn sách. Đây là một định dạng mà scikit-tìm hiểu có thể đọc. SVMLightlà, như tên của ông, một hỗ trợ vector máy thực hiện, đó là cũngcó sẵn thông qua scikit-học; ngay bây giờ, chúng tôi chỉ quan tâm đến các định dạng tập tin.
đang được dịch, vui lòng đợi..