Dataset Không có benchmark tiêu chuẩn cho vấn đề của chúng tôi, kể từ khi bộ dữ liệu có sẵn trên microblog chú thích (chẳng hạn như các thách thức Microposts (Basave et al., 2014)) không có số liệu thống kê toàn cầu, vì vậy chúng tôi không thể xác định được xu hướng hashtags. Do đó,
chúng tôi tạo ra bộ dữ liệu của chúng tôi. Chúng tôi sử dụng các API Twitter để thu thập từ các luồng công một mẫu 500, 551, 041 tweets từ tháng một-Tháng Tư năm 2014. Chúng tôi loại bỏ hashtags đã được thông qua bởi ít hơn 500 người sử dụng, không có chữ, hoặc có ký tự lặp đi lặp lại nhiều hơn 4 lần (ví dụ, '#oooommgg'). Chúng tôi xác định xu hướng hashtags bằng cách tính toán các chuỗi thời gian hàng ngày của tội hashtag tweet, và loại bỏ những người mà các chuỗi thời gian 'số phương sai nhỏ hơn 900. Để xác định các hashtag vỡ khoảng thời gian T, chúng tôi tính toán phần outlier (Lehmann et al. , 2012) cho mỗi h hashtag và ngày t: pt (h = | nt-nb | max (nb, nmin), nơi mà nt là số tweets có chứa h, nb là giá trị trung bình của các nt trên tất cả các điểm trong 2 cửa sổ thời gian -month trung vào t, và nmin = 10 là ngưỡng để lọc hashtags hoạt động thấp. Các hashtag được bỏ qua nếu nó
điểm outlier phần cao nhất là ít hơn 15. Cuối cùng, chúng tôi xác định khoảng thời gian bùng nổ của một hashtag xu hướng như cửa sổ thời gian của kích thước w, trung tâm tại ngày t 0 với p t0 cao nhất (h).
đang được dịch, vui lòng đợi..
