where tfw,c and tfw,cT are the term frequencies of w in the two text sources of C(e) and CT(e), respectively, and |C(e)| and |CT(e)| are the lengths of the two texts, respectively. We use the same estimation for tweets:
where tfw,c and tfw,cT are the term frequencies of w in the two text sources of C(e)and CT(e), respectively, and |C(e)| and |CT(e)| are the lengths of the two texts, respectively. We use the same estimation for tweets:
nơi TFW, c và TFW, CT là các tần số hạn của w trong hai nguồn văn bản của C (e) và CT (e), tương ứng, và | C (e) | và | CT (e) | là độ dài của hai văn bản, tương ứng. Chúng tôi sử dụng các ước tính tương tự cho tweets: