5.4 Algorithm of AWAPTThe algorithm

5.4 Algorithm of AWAPT

The algorithm scans the access sequence database first time to obtain the support of all events in the event set, E. All events that have a support greater than or equal to the minimum support are frequent. Each node in a AWAPT registers three pieces of information: node label, node count and node code, denoted as label: count: position. The root of the tree is a special virtual node with an empty label and count 0. Every other node is labeled by an event in the event set E. Then it scans the database a second time to obtain the frequent sequences in each transaction. The non-frequent events in each sequence are deleted from the sequence.

This algorithm also builds a prefix tree data structure by inserting the frequent sequence of each transaction in the tree the same way the WAP-tree algorithm would insert them. Once the frequent sequence of the last database transaction is inserted in the tree, the tree is traversed to build the frequent header node linkages. All the nodes in the tree with the same label are linked by shared-label linkages into a queue. Then, the algorithm recursively mines the tree using prefix conditional sequence search to find all web frequent access patterns.
Starting with an event, ei on the header list, it finds the next prefix frequent event to be appended to an already computed m-sequence frequent subsequence, which confirms an en node in the root set of ei, frequent only if the count of all current suffix trees of en is frequent. It continues the search for each next prefix event along the path, using subsequent suffix trees of some en (a frequent 1-event in the header table), until there are no more suffix trees to search.
To mine the tree, the algorithm starts with an empty list of already discovered frequent patterns and the list of frequent events in the head linkage table. Then, for each event, ei, in the head table, it follows its linkage to first mine 1- sequences, which are

recursively extended until the m-sequences are discovered. The algorithm finds the next tree node, en; to be appended to the last discovered sequence, by counting the support of en in the current suffix tree of ei (header linkage event). Note that ei and en could be the same events. The mining process would start with an ei event and given the tree, it first mines the first event in the frequent pattern by obtaining the sum of the counts of the first en nodes in the suffix subtrees of the Root. This event is confirmed frequent if this count is greater than or equal to minimum support. To find frequent 2-sequences that start with this event, the next suffix trees of ei are mined in turn to possibly obtain frequent 2- sequences respectively if support thresholds are met. Frequent 3-sequences are computed using frequent 2-sequences and the appropriate suffix subtrees. All frequent events in the header list are searched for, in each round of mining in each suffix tree set. Once the mining of the suffix subtrees near the leaves of the tree are completed, it recursively backtracks to the suffix trees towards the root of the tree until the mining of all suffix trees of all patterns starting with all elements in the header link table are completed.

6. Algorithm
Algorithm 1 (WAP-tree Construction for Web access sequences)
Input: Access sequence database D (i), min support MS (0< MS ≤ 1) Output: frequent sequential patterns in D (i).
Variables: Cn stores total number of events in suffix trees, A stores whether a node is ancestor in queue.

Begin
1. Create a root node for T;
2. For each access sequence S in the access sequence database AWAPT do a) Extract frequent subsequence S1 =S1 S2 …...Sn , WHERE S1(1

5.4 Algorithm of AWAPT

The algorithm scans the access sequence database first time to obtain the support of all events in the event set, E. All events that have a support greater than or equal to the minimum support are frequent. Each node in a AWAPT registers three pieces of information: node label, node count and node code, denoted as label: count: position. The root of the tree is a special virtual node with an empty label and count 0. Every other node is labeled by an event in the event set E. Then it scans the database a second time to obtain the frequent sequences in each transaction. The non-frequent events in each sequence are deleted from the sequence.

This algorithm also builds a prefix tree data structure by inserting the frequent sequence of each transaction in the tree the same way the WAP-tree algorithm would insert them. Once the frequent sequence of the last database transaction is inserted in the tree, the tree is traversed to build the frequent header node linkages. All the nodes in the tree with the same label are linked by shared-label linkages into a queue. Then, the algorithm recursively mines the tree using prefix conditional sequence search to find all web frequent access patterns.
Starting with an event, ei on the header list, it finds the next prefix frequent event to be appended to an already computed m-sequence frequent subsequence, which confirms an en node in the root set of ei, frequent only if the count of all current suffix trees of en is frequent. It continues the search for each next prefix event along the path, using subsequent suffix trees of some en (a frequent 1-event in the header table), until there are no more suffix trees to search.
To mine the tree, the algorithm starts with an empty list of already discovered frequent patterns and the list of frequent events in the head linkage table. Then, for each event, ei, in the head table, it follows its linkage to first mine 1- sequences, which are

recursively extended until the m-sequences are discovered. The algorithm finds the next tree node, en; to be appended to the last discovered sequence, by counting the support of en in the current suffix tree of ei (header linkage event). Note that ei and en could be the same events. The mining process would start with an ei event and given the tree, it first mines the first event in the frequent pattern by obtaining the sum of the counts of the first en nodes in the suffix subtrees of the Root. This event is confirmed frequent if this count is greater than or equal to minimum support. To find frequent 2-sequences that start with this event, the next suffix trees of ei are mined in turn to possibly obtain frequent 2- sequences respectively if support thresholds are met. Frequent 3-sequences are computed using frequent 2-sequences and the appropriate suffix subtrees. All frequent events in the header list are searched for, in each round of mining in each suffix tree set. Once the mining of the suffix subtrees near the leaves of the tree are completed, it recursively backtracks to the suffix trees towards the root of the tree until the mining of all suffix trees of all patterns starting with all elements in the header link table are completed.

6. Algorithm
Algorithm 1 (WAP-tree Construction for Web access sequences)
Input: Access sequence database D (i), min support MS (0< MS ≤ 1) Output: frequent sequential patterns in D (i).
Variables: Cn stores total number of events in suffix trees, A stores whether a node is ancestor in queue.

Begin
1. Create a root node for T;
2. For each access sequence S in the access sequence database AWAPT do a) Extract frequent subsequence S1 =S1 S2 …...Sn , WHERE S1(1

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

5.4 các thuật toán của AWAPTCác thuật toán quét cơ sở dữ liệu chuỗi truy cập lần đầu tiên để có được sự hỗ trợ của tất cả các sự kiện trong thiết lập tổ chức sự kiện, E. Tất cả các sự kiện mà có một hỗ trợ lớn hơn hoặc bằng với sự hỗ trợ tối thiểu là thường xuyên. Mỗi nút trong một AWAPT đăng ký ba mẩu thông tin: nút nhãn, nút xuất hiện và nút mã, biểu hiện như nhãn: tính: vị trí. Gốc cây là một nút ảo đặc biệt với một nhãn sản phẩm nào và số 0. Mỗi nút được dán nhãn bởi một sự kiện trong sự kiện này set E. Sau đó nó quét cơ sở dữ liệu một lần thứ hai để có được các chuỗi thường xuyên trong mỗi giao dịch. Những sự kiện không thường xuyên trong mỗi chuỗi sẽ được xóa khỏi dãy.Thuật toán này cũng xây dựng một cấu trúc dữ liệu tiền tố cây bằng cách chèn chuỗi mỗi giao dịch, thường xuyên trong cây theo cùng một cách các thuật toán WAP-cây nào chèn chúng. Một khi chuỗi thường xuyên các giao dịch cơ sở dữ liệu cuối cùng được đưa vào trong cây, cây ngang để xây dựng tiêu đề thường xuyên liên kết nút. Tất cả các nút trong cây với nhãn tương tự được liên kết bởi nhãn chia sẻ liên kết vào một hàng đợi. Sau đó, thuật toán đệ quy mines cây bằng tiền tố chuỗi có điều kiện tìm kiếm để tìm tất cả các mẫu web thường xuyên truy cập.Nó bắt đầu với một sự kiện, ei trong danh sách tiêu đề, tìm thấy sự kiện thường xuyên tiền tố tiếp theo để được gắn vào một subsequence thường xuyên đã tính m-trình tự, mà xác nhận một nút en trong bộ gốc ei, thường xuyên chỉ khi đếm tất cả các loại cây hậu tố hiện tại en là thường xuyên. Nó tiếp tục tìm kiếm cho mỗi sự kiện tiền tố tiếp theo dọc theo con đường, bằng cách sử dụng hậu tố tiếp theo cây một số en (một thường xuyên 1-sự kiện trong bảng tiêu đề), cho đến khi không có cây hậu tố thêm để tìm kiếm.Để tôi cây, các thuật toán bắt đầu với một danh sách sản phẩm nào đã phát hiện các mô hình thường xuyên và danh sách các sự kiện thường xuyên trong bảng đầu mối liên kết. Sau đó, cho mỗi sự kiện, ei, ở đầu bảng, nó sau liên kết của nó để 1 mỏ đầu tiên-chuỗi, có đệ quy kéo dài cho đến khi các m-chuỗi được phát hiện. Các thuật toán tìm tiếp theo cây nút, en; để được thêm vào cuối phát hiện trình tự, bằng cách đếm sự hỗ trợ của en trong cây hậu tố hiện tại của ei (tiêu đề liên kết tổ chức sự kiện). Lưu ý rằng ei và en có thể là các sự kiện tương tự. Quá trình khai thác sẽ bắt đầu với một sự kiện ei và cho cây, nó lần đầu tiên mines sự kiện đầu tiên trong các mô hình thường xuyên bằng cách lấy tổng số lần nút en đầu tiên trong subtrees hậu tố gốc. Sự kiện này được xác nhận thường xuyên nếu số này là lớn hơn hoặc bằng để hỗ trợ tối thiểu. Để tìm thấy thường xuyên 2-chuỗi bắt đầu với sự kiện này, cây hậu tố tiếp theo của ei được khai thác lần lượt có thể có được thường xuyên 2-chuỗi tương ứng nếu hỗ trợ ngưỡng được đáp ứng. Thường xuyên 3-trình tự được tính bằng cách sử dụng thường xuyên 2-trình tự và subtrees hậu tố thích hợp. Tất cả các sự kiện thường xuyên trong danh sách tiêu đề được tìm kiếm cho, trong mỗi vòng khai thác mỏ ở mỗi bộ cây hậu tố. Sau khi khai thác mỏ subtrees hậu tố gần lá của cây được hoàn thành, nó đệ quy backtracks để hậu tố cây đối với gốc rễ của cây cho đến khi khai thác mỏ của tất cả các loại cây hậu tố của tất cả các mẫu bắt đầu với tất cả các yếu tố trong tiêu đề liên kết bảng được hoàn thành.6. thuật toánThuật toán 1 (WAP-cây xây dựng cho Web truy cập trình tự)Đóng góp: Truy cập chuỗi cơ sở dữ liệu D (i), min hỗ trợ MS (0 < MS ≤ 1) đầu ra: thường xuyên mẫu tuần tự trong D (i).Biến: Cn mua sắm tổng số sự kiện trong hậu tố cây, A mua sắm cho dù một nút là tổ tiên trong hàng đợi.Bắt đầu1. tạo một nút gốc cho T;2. để truy cập mỗi chuỗi S trong cơ sở dữ liệu chuỗi truy cập AWAPT làm một) chiết xuất thường xuyên subsequence S1 = S1 S2... SN, nơi S1 (1 < = tôi < = n) là sự kiện trong S1. Hãy để hiện tại nút chỉ vào thư mục gốc của T. b) cho tôi = 1 đến n làm,Nếu cuurent_node có một nhãn trẻ em Si bởi 1 và làm cho cuurent_node điểm Si, kháctạo ra một mới childnode(S1:1), làm cho current_node trỏ tới nút mới và chèn nó vào hàng đợi Si3. quay trở lại (T);7. thử nghiệm đánh giá và hiệu suất học tập.Trong phần này, chúng tôi báo cáo các kết quả thử nghiệm đến hiệu suất của AWAPTKhi so sánh với WAP cây và FS-cây. Nó cho thấy rằng AWAPT nhanh hơn so với các phương pháp trước đây được đề xuất và là hiệu quả và khả năng mở rộng cho các mô hình trình tự khai thác mỏ trong cơ sở dữ liệu lớn. Tất cả các thí nghiệm được thực hiện trên một máy tính xách tay core2duo 2,20 GHz với 3 GB bộ nhớ, chạy Microsoft Windows/NT. Tổng hợp datasets chúng tôi sử dụng cho các thí nghiệm của chúng tôi đã được tạo ra bằng cách sử dụng tiêu chuẩn thủ tục được mô tả trong [2]. Máy phát điện dữ liệu tương tự đã được sử dụng trong hầu hết các nghiên cứu về mô hình tuần tự khai thác mỏ, chẳng hạn như [11, 6]. Chúng tôi tham khảo độc giả [2] cho biết thêm chi tiết trên các thế hệ của tập dữ liệu.Thời gian thực hiện của mỗi thuật toán giảm khi sự hỗ trợ tối thiểu tăng. Điều này là bởi vì khi sự hỗ trợ tối thiểu tăng, giảm số thứ tự ứng cử viên. Vì vậy, các thuật toán cần ít thời gian để tìm các chuỗi thường xuyên. Thuật toán AWAPT luôn luôn sử dụng thời gian chạy ít hơn so với các thuật toán WAP. WAP cây khai thác phải gánh chịu chi phí lưu trữ cao hơn (bộ nhớ hoặc I/O). Ngay cả trong bộ nhớ hệ thống duy nhất, chi phí lưu trữ trung gian cây thêm appreciably cho thời gian thực hiện tổng thể của chương trình. Đó là Tuy nhiên, thực tế hơn để thừa nhận rằng các kỹ thuật được chạy thường xuyên hệ thống có sẵn trong nhiều môi trường, trong đó không phải là bộ nhớ chỉ, nhưng có thể nhiều bộ xử lý hệ thống chia sẻ những kỷ niệm và CPU với hỗ trợ bộ nhớ ảo. Như ngưỡng tối thiểu hỗ trợ giảm, số lượng các sự kiện gặp gỡ hỗ trợ tối thiểu tăng. Điều này có nghĩa rằng WAP-cây trở nên lớn hơn và lâu hơn, và các thuật toán nhu cầu nhiều hơn nữa I/O làm việc trong khai thác mỏ của WAP cây. Như tối thiểu hỗ trợ giảm, làm tăng sự khác biệt thời gian thực hiện giữa WAP-cây và AWAPT.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

5.4 Thuật toán của AWAPT Các thuật toán quét các cơ sở dữ liệu trình tự thời gian đầu tiên truy cập để có được sự hỗ trợ của tất cả các sự kiện trong các sự kiện tập hợp, E. Tất cả các sự kiện có sự hỗ trợ lớn hơn hoặc bằng với sự hỗ trợ tối thiểu là thường xuyên. Mỗi nút trong một AWAPT đăng ký ba mẩu thông tin: nhãn nút, số nút và mã nút, ký hiệu là nhãn: đếm: vị trí. Gốc của cây là một nút ảo đặc biệt với một nhãn sản phẩm nào và số 0. Mỗi nút khác được dán nhãn của một sự kiện trong trường hợp đặt E. Sau đó nó quét các cơ sở dữ liệu một lần thứ hai để có được những cảnh thường xuyên trong mỗi giao dịch. Các sự kiện không thường xuyên trong mỗi dãy được xóa khỏi chuỗi. Thuật toán này cũng xây dựng một cấu trúc dữ liệu cây tiền tố bằng cách chèn các chuỗi thường xuyên của mỗi giao dịch trong cây giống phong cách của thuật toán WAP-tree sẽ chèn chúng. Một khi các chuỗi thường xuyên của các cơ sở dữ liệu giao dịch cuối cùng được đưa vào cây, cây được đi qua để xây dựng các mối liên kết nút tiêu đề thường xuyên. Tất cả các nút trong cây với cùng một nhãn được liên kết bởi mối liên kết chia sẻ nhãn vào một hàng đợi. Sau đó, các thuật toán đệ quy mỏ cây sử dụng tìm kiếm tiền tố chuỗi có điều kiện để tìm tất cả các web mẫu truy cập thường xuyên. Bắt đầu với một sự kiện, ei vào danh sách tiêu đề, nó tìm thấy các tiền tố sự kiện thường xuyên tiếp theo sẽ được nối vào một đã được tính toán m-sequence thường xuyên dãy con, trong đó khẳng định một en nút trong bộ gốc của ei, thường xuyên chỉ nếu số lượng của tất cả các cây hậu tố hiện tại của en là thường xuyên. Nó vẫn tiếp tục tìm kiếm cho mỗi sự kiện tiền tố tiếp theo cùng con đường, sử dụng cây hậu tố tiếp theo của một số en (một thường xuyên 1 sự kiện trong bảng tiêu đề), cho đến khi không còn cây cối hậu tố hơn để tìm kiếm. Để khai thác của cây, các thuật toán bắt đầu với một danh sách rỗng của mô hình thường xuyên đã được phát hiện và danh sách các sự kiện thường xuyên trong các bảng liên kết đầu. Sau đó, đối với mỗi sự kiện, ei, ở đầu bàn, nó sau liên kết của nó để tôi 1- trình tự đầu tiên, được đệ quy mở rộng cho đến khi m-chuỗi được phát hiện. Các thuật toán tìm các nút cây bên cạnh, en; được nối vào chuỗi phát hiện ra trước, bằng cách đếm sự hỗ trợ của en trong cây hậu tố hiện tại của ei (header sự kiện liên kết). Lưu ý rằng ei và en có thể là cùng một sự kiện. Quá trình khai thác sẽ bắt đầu với một sự kiện ei và cho cây, nó mỏ đầu tiên sự kiện đầu tiên trong mô hình thường xuyên bằng cách lấy tổng các tội danh đầu tiên en nút trong cây con hậu tố của Root. Sự kiện này được xác nhận thường xuyên nếu số này lớn hơn hoặc bằng hỗ trợ tối thiểu. Để tìm thường xuyên 2-cảnh quay bắt đầu với sự kiện này, các cây hậu tố tiếp theo của ei được khai thác lần lượt để có thể có được thường xuyên 2 chuỗi tương ứng nếu các ngưỡng hỗ trợ được đáp ứng. Thường xuyên 3 chuỗi được tính toán sử dụng thường xuyên 2-trình tự và các subtrees hậu tố thích hợp. Tất cả các sự kiện thường xuyên trong danh sách tiêu đề được tìm kiếm, trong mỗi vòng của khai thác mỏ ở mỗi bộ cây hậu tố. Một khi việc khai thác các cây con suffix gần lá của cây được hoàn thành, nó đệ quy backtracks đến cây hậu tố về phía gốc của cây cho đến khi khai thác các loại cây hậu tố của tất cả các mô hình bắt đầu với tất cả các nguyên tố trong bảng liên kết tiêu đề được hoàn thành . 6. Thuật toán Thuật toán 1 (Xây dựng WAP-tree cho các trình tự truy cập Web) Input: cơ sở dữ liệu trình tự truy cập D (i), hỗ trợ min MS (0 <MS ≤ 1) Output: các mẫu tuần tự thường xuyên trong D (i). Các biến: cửa hàng Cn tổng số các sự kiện trong cây hậu tố, A dự trữ, dù một nút là tổ tiên trong hàng đợi. Bắt đầu từ 1. Tạo một nút gốc cho T; 2. Đối với mỗi trình tự truy cập S trong AWAPT cơ sở dữ liệu trình tự truy cập làm a) Trích xuất thường xuyên dãy S1 = S1 S2 ... ... Sn, WHERE S1 (1 <= I <= n) là sự kiện trong S1.Let điểm nút hiện tại vào thư mục gốc của T. b) for i = 1 to n do, nếu cuurent_node có một đứa con dán nhãn Si bằng 1 và làm cho điểm cuurent_node Si, khác tạo ra một childnode mới (S1: 1), làm cho điểm current_node đến nút mới, và chèn nó vào Si xếp hàng 3. Return (T); 7. Đánh giá thử nghiệm và nghiên cứu thực hiện. Trong phần này, chúng tôi báo cáo kết quả thực nghiệm của chúng tôi về việc thực hiện AWAPT so với WAP Tree và FS-Tree. Nó cho thấy rằng AWAPT nhanh hơn so với các phương pháp được đề xuất trước đó khác và là hiệu quả và khả năng mở rộng cho khai thác mẫu tuần tự trong cơ sở dữ liệu lớn. Tất cả các thí nghiệm được thực hiện trên một máy tính xách tay core2duo 2.20 GHz với bộ nhớ 3 GB, chạy Microsoft Windows / NT. Các tập dữ liệu tổng hợp chúng tôi sử dụng cho các thí nghiệm của chúng tôi được tạo ra bằng cách sử dụng thủ tục chuẩn được mô tả trong [2]. Các máy phát điện cùng một dữ liệu đã được sử dụng trong hầu hết các nghiên cứu về khai thác mô hình tuần tự, chẳng hạn như [11, 6]. Chúng tôi đề cập đến độc giả [2] để biết thêm chi tiết về các thế hệ của bộ dữ liệu. Thời gian thực hiện của mỗi thuật toán giảm khi tăng hỗ trợ tối thiểu. Điều này là bởi vì khi sự hỗ trợ tối thiểu tăng, số lượng các ứng cử viên tự giảm. Do đó, các thuật toán cần ít thời gian hơn để tìm ra trình tự thường xuyên. Các thuật toán AWAPT luôn sử dụng ít thời gian chạy so với thuật toán WAP. Khai thác cây WAP phải gánh chịu chi phí cao hơn lưu trữ (bộ nhớ hoặc I / O). Ngay cả trong bộ nhớ chỉ có hệ thống, các chi phí lưu trữ cây trung gian thêm đáng kể đến thời gian thực hiện tổng thể của chương trình. Đó là tuy nhiên, thực tế hơn khi cho rằng kỹ thuật đó đang chạy trong hệ thống thường có sẵn trong nhiều môi trường, mà không phải là bộ nhớ chỉ, nhưng có thể có nhiều hệ thống xử lý chia sẻ những kỷ niệm và CPU với hỗ trợ bộ nhớ ảo. Như các ngưỡng hỗ trợ tối thiểu giảm, số lượng các sự kiện đáp ứng hỗ trợ tối thiểu sẽ tăng lên. Điều này có nghĩa rằng WAP-cây trở nên lớn hơn và dài hơn, và các thuật toán cần nhiều I / O trong việc khai thác cây WAP. Như giảm hỗ trợ tối thiểu, sự khác biệt thời gian thực hiện giữa WAP-tree và AWAPT tăng.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.