Bộ dữ liệu đó là không có tiêu chuẩn điểm chuẩn cho vấn đề của chúng tôi, kể từ khi có datasets trên microblog chú thích (chẳng hạn như thách thức Microposts (Basave và ctv., 2014)) không có thống kê toàn cầu, do đó, chúng tôi không thể xác định hashtags xu hướng. Do đó,chúng tôi tạo ra số liệu riêng của chúng tôi. Chúng tôi sử dụng Twitter API để thu thập từ các dòng công cộng một mẫu của 500, 551, 041 tweets từ tháng Giêng đến tháng 4 năm 2014. Chúng tôi loại bỏ hashtags mà đã được thông qua bởi ít hơn 500 người dùng, có không có chữ, hoặc có ký tự lặp đi lặp lại nhiều hơn 4 lần (ví dụ như, ' #oooommgg'). Chúng tôi xác định hashtags xu hướng bởi tính toán dòng thời gian hàng ngày của hashtag tweet đếm, và loại bỏ những người trong đó có thời gian series phương sai được điểm là ít hơn 900. Để xác định hashtag burst khoảng thời gian T, chúng tôi tính toán outlier phần (Lehmann và ctv., 2012) cho mỗi hashtag h và ngày t: pt (h = |nt−nb|max (nb, nmin), nơi nt laø soá löôïng tweets có chứa h, nb là giá trị trung bình của nt trên tất cả các điểm trong một cửa sổ 2 tháng thời gian tập trung vào t, và nmin = 10 là ngưỡng để lọc hashtags hoạt động thấp. Hashtag bỏ qua nếu của nóoutlier phân số điểm cao nhất là ít hơn 15. Cuối cùng, chúng tôi xác định trong khoảng thời gian của một hashtag xu hướng như cửa sổ thời gian của kích thước w, Trung tâm tại ngày t 0 với t0(h) p cao nhất.
đang được dịch, vui lòng đợi..