5.4 Thuật toán của AWAPT Các thuật toán quét các cơ sở dữ liệu trình tự thời gian đầu tiên truy cập để có được sự hỗ trợ của tất cả các sự kiện trong các sự kiện tập hợp, E. Tất cả các sự kiện có sự hỗ trợ lớn hơn hoặc bằng với sự hỗ trợ tối thiểu là thường xuyên. Mỗi nút trong một AWAPT đăng ký ba mẩu thông tin: nhãn nút, số nút và mã nút, ký hiệu là nhãn: đếm: vị trí. Gốc của cây là một nút ảo đặc biệt với một nhãn sản phẩm nào và số 0. Mỗi nút khác được dán nhãn của một sự kiện trong trường hợp đặt E. Sau đó nó quét các cơ sở dữ liệu một lần thứ hai để có được những cảnh thường xuyên trong mỗi giao dịch. Các sự kiện không thường xuyên trong mỗi dãy được xóa khỏi chuỗi. Thuật toán này cũng xây dựng một cấu trúc dữ liệu cây tiền tố bằng cách chèn các chuỗi thường xuyên của mỗi giao dịch trong cây giống phong cách của thuật toán WAP-tree sẽ chèn chúng. Một khi các chuỗi thường xuyên của các cơ sở dữ liệu giao dịch cuối cùng được đưa vào cây, cây được đi qua để xây dựng các mối liên kết nút tiêu đề thường xuyên. Tất cả các nút trong cây với cùng một nhãn được liên kết bởi mối liên kết chia sẻ nhãn vào một hàng đợi. Sau đó, các thuật toán đệ quy mỏ cây sử dụng tìm kiếm tiền tố chuỗi có điều kiện để tìm tất cả các web mẫu truy cập thường xuyên. Bắt đầu với một sự kiện, ei vào danh sách tiêu đề, nó tìm thấy các tiền tố sự kiện thường xuyên tiếp theo sẽ được nối vào một đã được tính toán m-sequence thường xuyên dãy con, trong đó khẳng định một en nút trong bộ gốc của ei, thường xuyên chỉ nếu số lượng của tất cả các cây hậu tố hiện tại của en là thường xuyên. Nó vẫn tiếp tục tìm kiếm cho mỗi sự kiện tiền tố tiếp theo cùng con đường, sử dụng cây hậu tố tiếp theo của một số en (một thường xuyên 1 sự kiện trong bảng tiêu đề), cho đến khi không còn cây cối hậu tố hơn để tìm kiếm. Để khai thác của cây, các thuật toán bắt đầu với một danh sách rỗng của mô hình thường xuyên đã được phát hiện và danh sách các sự kiện thường xuyên trong các bảng liên kết đầu. Sau đó, đối với mỗi sự kiện, ei, ở đầu bàn, nó sau liên kết của nó để tôi 1- trình tự đầu tiên, được đệ quy mở rộng cho đến khi m-chuỗi được phát hiện. Các thuật toán tìm các nút cây bên cạnh, en; được nối vào chuỗi phát hiện ra trước, bằng cách đếm sự hỗ trợ của en trong cây hậu tố hiện tại của ei (header sự kiện liên kết). Lưu ý rằng ei và en có thể là cùng một sự kiện. Quá trình khai thác sẽ bắt đầu với một sự kiện ei và cho cây, nó mỏ đầu tiên sự kiện đầu tiên trong mô hình thường xuyên bằng cách lấy tổng các tội danh đầu tiên en nút trong cây con hậu tố của Root. Sự kiện này được xác nhận thường xuyên nếu số này lớn hơn hoặc bằng hỗ trợ tối thiểu. Để tìm thường xuyên 2-cảnh quay bắt đầu với sự kiện này, các cây hậu tố tiếp theo của ei được khai thác lần lượt để có thể có được thường xuyên 2 chuỗi tương ứng nếu các ngưỡng hỗ trợ được đáp ứng. Thường xuyên 3 chuỗi được tính toán sử dụng thường xuyên 2-trình tự và các subtrees hậu tố thích hợp. Tất cả các sự kiện thường xuyên trong danh sách tiêu đề được tìm kiếm, trong mỗi vòng của khai thác mỏ ở mỗi bộ cây hậu tố. Một khi việc khai thác các cây con suffix gần lá của cây được hoàn thành, nó đệ quy backtracks đến cây hậu tố về phía gốc của cây cho đến khi khai thác các loại cây hậu tố của tất cả các mô hình bắt đầu với tất cả các nguyên tố trong bảng liên kết tiêu đề được hoàn thành . 6. Thuật toán Thuật toán 1 (Xây dựng WAP-tree cho các trình tự truy cập Web) Input: cơ sở dữ liệu trình tự truy cập D (i), hỗ trợ min MS (0 <MS ≤ 1) Output: các mẫu tuần tự thường xuyên trong D (i). Các biến: cửa hàng Cn tổng số các sự kiện trong cây hậu tố, A dự trữ, dù một nút là tổ tiên trong hàng đợi. Bắt đầu từ 1. Tạo một nút gốc cho T; 2. Đối với mỗi trình tự truy cập S trong AWAPT cơ sở dữ liệu trình tự truy cập làm a) Trích xuất thường xuyên dãy S1 = S1 S2 ... ... Sn, WHERE S1 (1 <= I <= n) là sự kiện trong S1.Let điểm nút hiện tại vào thư mục gốc của T. b) for i = 1 to n do, nếu cuurent_node có một đứa con dán nhãn Si bằng 1 và làm cho điểm cuurent_node Si, khác tạo ra một childnode mới (S1: 1), làm cho điểm current_node đến nút mới, và chèn nó vào Si xếp hàng 3. Return (T); 7. Đánh giá thử nghiệm và nghiên cứu thực hiện. Trong phần này, chúng tôi báo cáo kết quả thực nghiệm của chúng tôi về việc thực hiện AWAPT so với WAP Tree và FS-Tree. Nó cho thấy rằng AWAPT nhanh hơn so với các phương pháp được đề xuất trước đó khác và là hiệu quả và khả năng mở rộng cho khai thác mẫu tuần tự trong cơ sở dữ liệu lớn. Tất cả các thí nghiệm được thực hiện trên một máy tính xách tay core2duo 2.20 GHz với bộ nhớ 3 GB, chạy Microsoft Windows / NT. Các tập dữ liệu tổng hợp chúng tôi sử dụng cho các thí nghiệm của chúng tôi được tạo ra bằng cách sử dụng thủ tục chuẩn được mô tả trong [2]. Các máy phát điện cùng một dữ liệu đã được sử dụng trong hầu hết các nghiên cứu về khai thác mô hình tuần tự, chẳng hạn như [11, 6]. Chúng tôi đề cập đến độc giả [2] để biết thêm chi tiết về các thế hệ của bộ dữ liệu. Thời gian thực hiện của mỗi thuật toán giảm khi tăng hỗ trợ tối thiểu. Điều này là bởi vì khi sự hỗ trợ tối thiểu tăng, số lượng các ứng cử viên tự giảm. Do đó, các thuật toán cần ít thời gian hơn để tìm ra trình tự thường xuyên. Các thuật toán AWAPT luôn sử dụng ít thời gian chạy so với thuật toán WAP. Khai thác cây WAP phải gánh chịu chi phí cao hơn lưu trữ (bộ nhớ hoặc I / O). Ngay cả trong bộ nhớ chỉ có hệ thống, các chi phí lưu trữ cây trung gian thêm đáng kể đến thời gian thực hiện tổng thể của chương trình. Đó là tuy nhiên, thực tế hơn khi cho rằng kỹ thuật đó đang chạy trong hệ thống thường có sẵn trong nhiều môi trường, mà không phải là bộ nhớ chỉ, nhưng có thể có nhiều hệ thống xử lý chia sẻ những kỷ niệm và CPU với hỗ trợ bộ nhớ ảo. Như các ngưỡng hỗ trợ tối thiểu giảm, số lượng các sự kiện đáp ứng hỗ trợ tối thiểu sẽ tăng lên. Điều này có nghĩa rằng WAP-cây trở nên lớn hơn và dài hơn, và các thuật toán cần nhiều I / O trong việc khai thác cây WAP. Như giảm hỗ trợ tối thiểu, sự khác biệt thời gian thực hiện giữa WAP-tree và AWAPT tăng.
đang được dịch, vui lòng đợi..
