where tfw,c and tfw,cT are the term frequencies of w in the two text sources of C(e) and CT(e), respectively, and |C(e)| and |CT(e)| are the lengths of the two texts, respectively. We use the same estimation for tweets:
Phiên, c và Phi, cT đâu tần số hạn của w trong hai văn bản nguồn của C(e)và CT(e), tương ứng, và | C (e) | và | CT (e) | là độ dài của các văn bản hai, tương ứng. Chúng tôi sử dụng cùng một dự toán cho tweets:
nơi TFW, c và TFW, CT là các tần số hạn của w trong hai nguồn văn bản của C (e) và CT (e), tương ứng, và | C (e) | và | CT (e) | là độ dài của hai văn bản, tương ứng. Chúng tôi sử dụng các ước tính tương tự cho tweets: