IR kỹ thuật xem xét tất cả các phần mềm hiện vật như văn bản tài liệu. Họ trích xuất tất cả các điều khoản từ các tài liệu và tính toán sự giống nhau giữa hai tài liệu dựa trên sự giống nhau của các điều khoản và/hoặc các phân phối. Với bất kỳ kỹ thuật IR, một giá trị cao tương đồng giữa hai tài liệu cho thấy một liên kết tiềm năng giữa chúng. IR kỹ thuật có một số tài liệu preprocessed, như đã giải thích như sau, như đầu vào để xây dựng một ma trận n termby-tài liệu m, nơi m là số lượng tất cả giá trị duy nhất xảy ra trong các tài liệu và n là một số tài liệu trong các văn thể. Sau đó, mỗi tế bào của ma trận chứa một giá trị wi; j, đại diện cho trọng lượng của kỳ ith, các tài liệu jth, tức là, tầm quan trọng của các thuật ngữ trong các văn thể. Các thuật ngữ cân chương trình có sẵn để tính toán trọng lượng của một thuật ngữ [3], [15]. IR kỹ thuật khác nhau [3], [15], [16], [17] có thể được sử dụng để tính toán sự giống nhau giữa hai tài liệu.
đang được dịch, vui lòng đợi..