Ma trận hạn-tài liệu được thiết lập bằng cách đếm từ xuất hiện trong các tài liệu. Mỗi dòng trong ma trận tương ứng với cụm từ trong từ vựng, mỗi cột vào tài liệu. Các giá trị cá nhân trong ma trận là trọng hạn đếm của các thuật ngữ tương ứng trong các tài liệu tương ứng. Công việc này, chúng tôi sử dụng normalised đăng nhập thuật ngữ tính (lực lượng đặc nhiệm-kỳ tần) trọng bởi thuật ngữ đặc trưng được đo bằng tần số nghịch đảo tài liệu (idf; Spärck-Jones, 19721):
đang được dịch, vui lòng đợi..