Learning and Classification Procedu

Learning and Classification Procedures

This section shows the learning and classification procedures for word n-gram probability (Eqs. (8)–(13)).

Learning constructs WSAs for each class. Algorithm 1 shows the learning algorithm for a document stream, {dt, ct}. The sequential update of WSA is not supported, so, it recon- structs the WSA of class ct when given a new tweet (dt,ct). (lines 2–3)

For reducing the learning time, it is effective to divide tweets into periods and reconstruct the newest WSA on the most recent tweets, while retaining old WSAs. We note that it is able to obtain Jc (wi−n+1 ) from the divided WSAs by storing the offset position of each WSA and adding it to the positions of wi−n+1 found by each WSA.

Classification needs the fc(wji), Jc(wji), and rc(wji) val- ues (0 ≤ i − j < n) to calculate the word n-gram probability for each word n-gram, wi−n+1, in class c. Algorithm 2 shows the pseudo-code that acquires the above values from a WSA.

Our model uses three heuristics for speed enhancement: (1) caching search results (lines 6–11, 13), (2) caching the initial search interval for the first alphabets [19] (line 3), and (3) reducing the number of character comparisons by remembering the number of matching characters [19] (line 9). Caching the search results of (n−1)-grams enables our model to narrow the initial interval when searching n-grams. The worst case of our approach is O(m log k + fc (wi−n+1 )) time; however, Ferragina et al. reported in [7] that the O(m log k+ fc (wi−n+1 )) algorithm, which includes heuristics 2 and 3, is faster than the O(m + log k + fc (wi−n+1 )) [19] and O(m|Σ| + fc (wi−n+1 )) [1] algorithms.

Learning and Classification Procedures

This section shows the learning and classification procedures for word n-gram probability (Eqs. (8)–(13)).

Learning constructs WSAs for each class. Algorithm 1 shows the learning algorithm for a document stream, {dt, ct}. The sequential update of WSA is not supported, so, it recon- structs the WSA of class ct when given a new tweet (dt,ct). (lines 2–3)

For reducing the learning time, it is effective to divide tweets into periods and reconstruct the newest WSA on the most recent tweets, while retaining old WSAs. We note that it is able to obtain Jc (wi−n+1 ) from the divided WSAs by storing the offset position of each WSA and adding it to the positions of wi−n+1 found by each WSA.

Classification needs the fc(wji), Jc(wji), and rc(wji) val- ues (0 ≤ i − j < n) to calculate the word n-gram probability for each word n-gram, wi−n+1, in class c. Algorithm 2 shows the pseudo-code that acquires the above values from a WSA.

Our model uses three heuristics for speed enhancement: (1) caching search results (lines 6–11, 13), (2) caching the initial search interval for the first alphabets [19] (line 3), and (3) reducing the number of character comparisons by remembering the number of matching characters [19] (line 9). Caching the search results of (n−1)-grams enables our model to narrow the initial interval when searching n-grams. The worst case of our approach is O(m log k + fc (wi−n+1 )) time; however, Ferragina et al. reported in [7] that the O(m log k+ fc (wi−n+1 )) algorithm, which includes heuristics 2 and 3, is faster than the O(m + log k + fc (wi−n+1 )) [19] and O(m|Σ| + fc (wi−n+1 )) [1] algorithms.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Học tập và phân loại thủ tụcPhần này cho thấy các thủ tục học tập và phân loại từ n-gam xác suất (Eqs. (8)–(13)).Học tập xây dựng WSAs cho mỗi lớp. Thuật toán 1 cho thấy các thuật toán học cho một tài liệu stream, {dt, ct}. Bản Cập Nhật tuần tự của WSA không được hỗ trợ, do đó, nó trinh sát-structs WSA lớp ct khi có một tweet mới (dt, ct). (đường dây 2-3)Để giảm thiểu thời gian học tập, nó là hiệu quả để chia tweets vào thời gian và tái tạo lại WSA mới nhất trên tweets gần đây nhất, trong khi giữ lại cũ WSAs. Chúng tôi lưu ý rằng nó có thể để có được Jc (wi−n + 1) từ WSAs chia bởi lưu trữ vị trí bù đắp của mỗi WSA và thêm nó vào các vị trí của wi−n + 1 tìm thấy bởi WSA mỗi.Phân loại cần các fc(wji), Jc(wji), và rc(wji) val-ues (0 ≤ tôi − j < n) để tính toán xác suất n-gam từ cho mỗi từ n-gam, wi−n + 1, trong lớp c. thuật toán 2 cho thấy mã giả mua lại các giá trị trên từ WSA một.Mô hình của chúng tôi sử dụng ba chẩn đoán cho việc tăng cường tốc độ: (1) bộ nhớ đệm kết quả tìm kiếm (dòng 6-11, 13), (2) bộ nhớ đệm khoảng thời gian ban đầu tìm các bảng chữ cái đầu tiên [19] (dòng 3), và (3) giảm số lượng các ký tự so sánh bằng ghi nhớ số lượng phù hợp với nhân vật [19] (dòng 9). Bộ nhớ đệm kết quả tìm kiếm của (n-1)-gam cho phép chúng tôi mô hình để thu hẹp khoảng thời gian ban đầu khi tìm kiếm n-gam. Trường hợp xấu nhất của cách tiếp cận của chúng tôi là O (m đăng nhập k + fc (wi−n + 1)) thời gian; Tuy nhiên, Ferragina et al. thông báo trong [7] mà O (m đăng nhập k + fc (wi−n + 1)) thuật toán, bao gồm chẩn đoán 2 và 3, là nhanh hơn so với O (m + đăng nhập k + fc (wi−n + 1)) [19] và O (m|Σ| + fc (wi−n + 1)) [1] thuật toán.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Học tập và Thủ tục phân loại Phần này cho thấy các thủ tục học tập và phân loại cho từ n-gram xác suất (EQS (8) -. (13)). Học xây dựng WSAs cho mỗi lớp. Thuật toán 1 cho thấy các thuật toán học cho một dòng văn bản, {dt, ct}. Các cập nhật liên tục của WSA không được hỗ trợ, do đó, nó tái thiết cấu trúc các WSA của lớp ct khi đưa ra một tweet mới (dt, ct). (đường 2-3) Đối với việc giảm thời gian học tập, đó là hiệu quả để phân chia thành các giai đoạn tweets và tái tạo lại các WSA mới nhất về các tweets gần đây nhất, trong khi vẫn giữ WSAs cũ. Chúng tôi lưu ý rằng nó có thể có được Jc (wi-n + 1) từ WSAs chia bằng cách lưu trữ vị trí offset của mỗi WSA và thêm nó vào vị trí của wi-n + 1 được tìm thấy bởi mỗi WSA. Phân loại nhu cầu của các fc ( wji), Jc (wji), và rc (wji) val- ues (0 ≤ i - j <n) để tính toán từ n-gram xác suất cho mỗi từ n-gram, wi-n + 1, trong lớp c. Thuật toán 2 cho thấy các mã giả mà mua lại các giá trị trên từ một WSA. Mô hình của chúng tôi sử dụng ba công nghệ tự động để nâng cao tốc độ: (1) kết quả tìm kiếm bộ nhớ đệm (dòng 6-11, 13), (2) bộ nhớ đệm các khoảng thời gian tìm kiếm ban đầu cho bảng chữ cái đầu tiên [19] (dòng 3), và (3) giảm số lượng so sánh nhân vật bằng cách ghi nhớ số lượng phù hợp với nhân vật [19] (dòng 9). Bộ nhớ đệm các kết quả tìm kiếm của (n-1) -grams cho phép mô hình của chúng để thu hẹp khoảng thời gian ban đầu khi tìm kiếm n-gram. Các trường hợp tồi tệ nhất của phương pháp tiếp cận của chúng tôi là O (m log k + fc (wi-n + 1)) thời gian; Tuy nhiên, Ferragina et al. báo cáo trong [7] là O (m log k + fc (wi-n + 1)) thuật toán, trong đó bao gồm công nghệ tự động 2 và 3, là nhanh hơn so với O (m + đăng k + fc (wi-n + 1)) [19] và O (m | Σ | + fc (wi-n + 1)) [1] thuật toán.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.