Các bước cơ bản nêu trong "Bag of Words" trên trang 252 đã được áp dụng để giảm mỗi câu chuyện với một đại diện TFIDF. Đặc biệt, mỗi từ là trường hợp bình thường và xuất phát, và các tệp từ dừng đã được gỡ bỏ. Cuối cùng, chúng tôi tạo ra n-gram đến hai, như vậy mà mỗi cá nhân và hạn cặp từ ngữ liền kề đã được sử dụng để đại diện cho mỗi câu chuyện. Tiêu đề để chuẩn bị này, mỗi câu chuyện được gắn thẻ với một nhãn (thay đổi hoặc không thay đổi) dựa trên biến động giá chứng khoán liên quan (s), như mô tả trong hình 10-7. Điều này dẫn đến khoảng 16.000 câu chuyện gắn thẻ có thể sử dụng. Để tham khảo, các phân tích về những câu chuyện
là khoảng 75% không thay đổi, 13% tăng, và 12% lao. Những câu chuyện tăng và sụt giảm đã được sáp nhập để tạo sự thay đổi, vì vậy 25% trong những câu chuyện được theo sau bởi một sự thay đổi đáng kể giá các cổ phiếu liên quan, và 75% là không.
đang được dịch, vui lòng đợi..