Sự giống nhau của một thực thể có một đề cập đến cá nhân trong một tweet có thể được giải thích như là trước khi xác suất phát xạ sẽ đề cập đến các thực thể thông qua các từ vựng. Một trong những cách phổ biến để ước lượng các thực thể trước khi khai thác số liệu thống kê từ neo
liên kết Wikipedia, và đã được chứng minh để làm việc tốt trong các lĩnh vực khác nhau của văn bản. Chúng tôi làm theo cách này và xác định LP (e | m) = | lm (e) | Pm0 | lm0 (e) | như các liên kết trước khi các thực thể e đưa ra một đề cập đến m, nơi lm (e) là tập hợp các liên kết với neo m trỏ
tới e. Các fm đề cập đến sự giống nhau được đo như là sự tập hợp của priors liên kết của các thực thể e hơn tất cả đề cập đến trong tất cả các tweet với hashtag h:
đang được dịch, vui lòng đợi..