4. Làm việc liên quan: 4.1 Mining Pattern Sequential: Các sequential vấn đề khai thác mô hình lần đầu tiên được giới thiệu bởi Agrawal và Srikant trong [2]: Cho một tập hợp của các trình tự, nơi mà mỗi dãy gồm một danh sách các phần tử và mỗi phần tử bao gồm một tập hợp các mặt hàng, và đưa ra một ngưỡng min_support người dùng quy định, khai thác mô hình tuần tự là để tìm tất cả subsequences thường xuyên, tức là, các subsequences mà xảy ra tần số trong tập hợp các chuỗi là không ít hơn min_support. Mining mẫu tuần tự đến trong Hiệp hội khai thác mỏ quy tắc. Đối với một cơ sở dữ liệu cho giao dịch T, một luật kết hợp là một biểu hiện của các XY hình thức, trong đó X và Y là tập con của A và XY giữ với τ sự tự tin, nếu τ% các giao dịch trong D có hỗ trợ X cũng Y. Các quy tắc XY có hỗ trợ σ trong giao dịch đặt T nếu σ% các giao dịch trong hỗ trợ T Hiệp hội Y. XU khai thác mỏ quy tắc có thể được chia thành hai bước. Thứ nhất, các mẫu thường xuyên liên quan đến hỗ trợ hỗ trợ tối thiểu ngưỡng với được khai thác. Thứ hai luật kết hợp được tạo ra đối với ngưỡng sự tự tin tự tin với tối thiểu. [3] đề xuất một phương pháp để phát hiện các mẫu truy cập từ các bản ghi web dựa trên một loại mới của mô hình hiệp hội. Họ xử lý trật tự giữa trang truy cập, và cho phép khoảng trống trong chuỗi. Họ sử dụng một thuật toán thế hệ ứng viên đòi hỏi nhiều quét của các cơ sở dữ liệu. Chiến lược cắt tỉa chúng chỉ giả định rằng các cấu trúc trang web được biết đến. [2] trình bày một thuật toán để tìm kiếm các mẫu tuần tự tổng quát cho phép user- định cửa sổ cỡ lớn và người dùng xác định phân loại các hạng mục trong cơ sở dữ liệu. Thuật toán này yêu cầu nhiều quét của các cơ sở dữ liệu để tạo ra các ứng cử viên. Trong bài báo này, chúng tôi có hệ thống khám phá một phương pháp tiếp cận mô hình tăng trưởng khai thác có hiệu quả các mô hình tuần tự trong cơ sở dữ liệu chuỗi lớn. Các phương pháp tiếp cận thông qua một nguyên tắc phân chia và chinh phục, mô hình tăng trưởng như sau: cơ sở dữ liệu trình tự được đệ quy chiếu vào một tập hợp các cơ sở dữ liệu dự nhỏ hơn dựa trên các mô hình tuần tự hiện tại (s), và các mẫu tuần tự được trồng ở mỗi cơ sở dữ liệu dự bởi chỉ khám phá mảnh thường xuyên tại địa phương. Dựa trên triết lý này, đầu tiên chúng ta xem xét một phương pháp đơn giản tăng trưởng mô hình, FreeSpan (cho thường xuyên khai thác mô hình tuần tự mô-dự tính), làm giảm các nỗ lực của các thế hệ ứng viên dãy. chúng ta nghiên cứu khác và hiệu quả hơn phương pháp, gọi là PrefixSpan (cho Prefix- dự khai thác mô hình tuần tự), trong đó cung cấp ra lệnh tăng trưởng và giảm cơ sở dữ liệu dự. Để nâng cao hơn nữa hiệu suất, một kỹ thuật chiếu giả được phát triển trong PrefixSpan. Một nghiên cứu cho thấy rằng hiệu suất toàn diện PrefixSpan, trong hầu hết các trường hợp, nhanh hơn so với các thuật toán Apriori-GSP dựa, FreeSpan. PrefixSpan, tích hợp với chiếu giả, là nhanh nhất trong số tất cả các thuật toán kiểm tra. Các PrefixSpan tiêu thụ một không gian bộ nhớ nhỏ hơn nhiều so với GSP. Phương pháp mô hình tăng trưởng này có thể được tiếp tục mở rộng để khai thác mỏ đa cấp, mô hình tuần tự đa chiều, và khai thác mô hình cấu trúc khác. Chúng tôi kiểm tra xem liệu người ta có thể sửa chữa các thứ tự chiếu mục trong thế hệ của một cơ sở dữ liệu dự. Bằng trực giác, nếu người ta theo thứ tự của các tiền tố của một trình tự và các dự án chỉ có các hậu tố của một chuỗi, người ta có thể kiểm tra một cách có trật tự tất cả các cơ sở dữ liệu liên quan của họ dự dãy con của thể và. WE kiểm tra cấu trúc cây WAP cho chuỗi thường xuyên khai thác mô hình trong các file log web. 5.1 WAP-tree: WAP-tree, viết tắt của cây mô hình truy cập web. Một cấu trúc dữ liệu tốt đẹp, WAP-tree, được đưa ra để đăng ký trình tự truy cập và số lượng tương ứng gọn, do đó hỗ trợ đếm tẻ nhạt có thể tránh được. Nó cũng duy trì mối liên kết để vượt qua các tiền tố đối với các mô hình hậu tố cùng hiệu quả với. Một WAP-cây đăng ký tất cả và chỉ có tất cả các thông tin cần thiết cho phần còn lại của khai thác mỏ. Một khi một cấu trúc dữ liệu đó được xây dựng, tất cả các chế biến khoáng sản còn lại được dựa trên WAP-tree. Các cơ sở dữ liệu trình tự truy cập ban đầu là không cần thiết nữa. Bởi vì kích thước của WAP-cây thường nhỏ hơn nhiều so với các cơ sở dữ liệu trình tự truy cập ban đầu, việc xây dựng WAP-tree là khá hiệu quả bằng cách đơn giản quét các cơ sở dữ liệu trình tự truy cập hai lần. Một thuật toán đệ quy có hiệu quả được đề xuất để liệt kê các mẫu truy cập từ WAP - cây. Không có thế hệ ứng viên được yêu cầu trong quá trình khai thác mỏ, và chỉ có các mô hình với đầy đủ hỗ trợ sẽ được xem xét. Triết lý của thuật toán khai thác này là tìm kiếm điều kiện. Thay vì tìm kiếm mẫu mực, khôn ngoan như Apriori, tìm kiếm có điều kiện thu hẹp không gian tìm kiếm bằng cách tìm kiếm các mô hình với các hậu tố tương tự, và đếm sự kiện thường xuyên trong tập hợp các tiền tố liên quan đến điều kiện như hậu tố với. Tìm kiếm điều kiện là một phương pháp phân chia-và-chinh phục phân vùng dựa trên thay vì thế hệ dưới lên của các kết hợp. Nó tránh tạo ra bộ ứng cử viên lớn. Các bước chính liên quan đến kỹ thuật này được tóm tắt. Các cửa hàng WAP-cây dữ liệu nhật ký web trong một định dạng cây tiền tố tương tự như cây mẫu thường xuyên (FP-tree) cho dữ liệu tuần tự không. • Thuật toán đầu tiên quét các trang web đăng nhập một lần cho tất cả các sự kiện cá nhân thường xuyên. • Thứ hai, nó quét các trang web đăng nhập một lần nữa để xây dựng một WAP-cây trên tập các sự kiện cá nhân thường xuyên của mỗi giao dịch. • Thứ ba, nó tìm thấy các mô hình hậu tố có điều kiện. • Trong bước thứ tư, nó xây dựng các trung gian có điều kiện WAP-cây bằng cách sử dụng mô hình tìm thấy trong bước trước đó. • Cuối cùng, nó quay ngược lại lặp lại bước 3 và 4 cho đến khi xây dựng có điều kiện WAP-cây chỉ có một chi nhánh hoặc rỗng. Dựa trên những quan sát trên, một truy cập Web cơ cấu cây mô hình, hoặc WAP-cây trong Tóm lại, có thể được định nghĩa như sau. 1. Mỗi nút trong một WAP-cây ghi hai mẩu thông tin: nhãn và đếm, ký hiệu là nhãn: đếm. Gốc của cây là một nút ảo đặc biệt với một nhãn rỗng và đếm 0. Mỗi nút khác được dán nhãn của một sự kiện trong trường hợp đặt E, và được kết hợp với một số trong đó ghi số lần xuất hiện của tiền tố tương ứng với kết thúc biến cố đó trong cơ sở dữ liệu trình tự truy cập Web. 2. WAP-cây được xây dựng như sau: đối với mỗi trình tự truy cập vào cơ sở dữ liệu, lọc ra bất kỳ sự kiện không thường xuyên, và sau đó chèn các kết quả dãy thường xuyên vào WAP-tree. Việc thêm vào dãy con thường xuyên được bắt đầu từ gốc rễ của WAP-tree. Xem xét các sự kiện đầu tiên, ký hiệu là e, tăng số lượng các nút con với nhãn e bằng 1 nếu tồn tại một; nếu không tạo ra một con dán nhãn của e và thiết lập thành các thông số 1. Sau đó, đệ quy chèn các phần còn lại của dãy con thường xuyên để cây con có gốc là con em có nhãn e. 3. Cấu trúc nút liên kết phụ trợ được xây dựng để hỗ trợ các nút traversal trong một cây WAP- như sau. Tất cả các nút trong cây với cùng một nhãn được liên kết bởi mối liên kết chia sẻ nhãn vào một hàng đợi, gọi là sự kiện-node hàng đợi, Hàng đợi nút hợp với nhãn ei cũng được gọi là ei hàng đợi. Có một tiêu đề bảng H cho một WAP-tree, và người đứng đầu của mỗi hàng đợi sự kiện-node được đăng ký tại H.
đang được dịch, vui lòng đợi..