Các dữ liệu, chúng tôi sẽ sử dụng bao gồm hai riêng biệt chuỗi thời gian: dòng chảy của câu chuyện tin tức (văn bản
tài liệu), và một dòng tương ứng của giá cổ phiếu hàng ngày. Internet có nhiều
nguồn dữ liệu tài chính, chẳng hạn như Google Finance và Yahoo Finance. Ví dụ, để
xem những gì các câu chuyện tin tức có sẵn về Apple Computer, Inc., xem tương ứng với
Yahoo! Trang Tài chính. Yahoo! tập hợp những câu chuyện tin tức từ nhiều nguồn khác nhau như
Reuters, PR Web, và Forbes. Giá cổ phiếu lịch sử có thể được mua từ nhiều nguồn khác nhau, chẳng hạn như Google Finance.
Các dữ liệu được khai thác là dữ liệu lịch sử từ năm 1999 cho cổ phiếu niêm yết trên New York
Stock Exchange và Nasdaq. Những thông tin này đã được sử dụng trong một nghiên cứu trước đó (Fawcett & Provost,
1999). Chúng tôi có giá mở và đóng các cổ phiếu trên sàn giao dịch lớn, và một lượng lớn
tóm câu chuyện tin tức tài chính trong suốt năm gần 36.000 câu chuyện hoàn toàn. Dưới đây là một câu chuyện tin tức mẫu từ khối liệu:
1999/03/30 14:45:00
WALTHAM, Mass .-- (BUSINESS WIRE) - ngày 30 tháng ba năm 1999 - Hội nghị thượng đỉnh Tech
đang được dịch, vui lòng đợi..