Học tập và Thủ tục phân loại Phần này cho thấy các thủ tục học tập và phân loại cho từ n-gram xác suất (EQS (8) -. (13)). Học xây dựng WSAs cho mỗi lớp. Thuật toán 1 cho thấy các thuật toán học cho một dòng văn bản, {dt, ct}. Các cập nhật liên tục của WSA không được hỗ trợ, do đó, nó tái thiết cấu trúc các WSA của lớp ct khi đưa ra một tweet mới (dt, ct). (đường 2-3) Đối với việc giảm thời gian học tập, đó là hiệu quả để phân chia thành các giai đoạn tweets và tái tạo lại các WSA mới nhất về các tweets gần đây nhất, trong khi vẫn giữ WSAs cũ. Chúng tôi lưu ý rằng nó có thể có được Jc (wi-n + 1) từ WSAs chia bằng cách lưu trữ vị trí offset của mỗi WSA và thêm nó vào vị trí của wi-n + 1 được tìm thấy bởi mỗi WSA. Phân loại nhu cầu của các fc ( wji), Jc (wji), và rc (wji) val- ues (0 ≤ i - j <n) để tính toán từ n-gram xác suất cho mỗi từ n-gram, wi-n + 1, trong lớp c. Thuật toán 2 cho thấy các mã giả mà mua lại các giá trị trên từ một WSA. Mô hình của chúng tôi sử dụng ba công nghệ tự động để nâng cao tốc độ: (1) kết quả tìm kiếm bộ nhớ đệm (dòng 6-11, 13), (2) bộ nhớ đệm các khoảng thời gian tìm kiếm ban đầu cho bảng chữ cái đầu tiên [19] (dòng 3), và (3) giảm số lượng so sánh nhân vật bằng cách ghi nhớ số lượng phù hợp với nhân vật [19] (dòng 9). Bộ nhớ đệm các kết quả tìm kiếm của (n-1) -grams cho phép mô hình của chúng để thu hẹp khoảng thời gian ban đầu khi tìm kiếm n-gram. Các trường hợp tồi tệ nhất của phương pháp tiếp cận của chúng tôi là O (m log k + fc (wi-n + 1)) thời gian; Tuy nhiên, Ferragina et al. báo cáo trong [7] là O (m log k + fc (wi-n + 1)) thuật toán, trong đó bao gồm công nghệ tự động 2 và 3, là nhanh hơn so với O (m + đăng k + fc (wi-n + 1)) [19] và O (m | Σ | + fc (wi-n + 1)) [1] thuật toán.
đang được dịch, vui lòng đợi..
