Các nguồn tài nguyên rõ ràng nhất để xác định các thực thể ứng cử viên cho một hashtag là qua tweets của nó. Chúng tôi thực hiện theo phương pháp thông thường mà sử dụng một từ vựng để phù hợp với mỗi cụm từ văn bản trong một tweet để một tập thực thể tiềm năng (Shen et al, 2013;. Fang và Chang, 2014) từ vựng của chúng tôi được xây dựng từ Wikipedia tiêu đề trang, neo liên kết, chuyển hướng, và các trang định hướng, được ánh xạ tới các thực thể tương ứng. Đối với các cụm từ tweet, chúng tôi trích xuất tất cả các n-gram (n ≤ 5) từ các tweets đầu vào trong
T. Chúng tôi áp dụng heuristic lâu nhất trận đấu (Meij etal, 2012.): Chúng tôi bắt đầu với dài nhất n-gram và dừng lại ngay khi tập thực thể được tìm thấy, nếu không chúng ta tiếp tục với các thành phần n-gram nhỏ
đang được dịch, vui lòng đợi..