Các văn bản chú thích đã được dịch sang XML để tạo thuận lợi cho việc tạo ra nhiều quan điểm của văn bản, ví dụ, phân loại theo thể loại nguồn, hoặc các tài liệu mô hình khái niệm. Các bản án đã được xử lý trước bằng cách loại bỏ dấu chấm câu và dừng từ (bằng cách sử dụng khóa của âm nhạc danh sách tiếng Anh từ vô nghĩa có sẵn từ http://members.unine.ch/jacques.savoy/clef/englishST.txt) và loại bỏ những từ mà chỉ xảy ra trong một tài liệu. Chúng tôi không sử dụng xuất phát. Tất cả các từ được upcased.
đang được dịch, vui lòng đợi..