1. GIỚI THIỆU
Một trong những phương pháp khai thác dữ liệu là việc phát hiện mô hình tuần tự giới thiệu trong [2]. Thức, mô hình tuần tự là của dãy con thường xuyên nhất xảy ra trong trình tự của các bộ các mặt hàng. Trong số rất nhiều các thuật toán mô hình khai thác tuần tự đề xuất, hầu hết trong số họ được thiết kế để phát hiện tất cả các mẫu tuần tự vượt quá một ngưỡng hỗ trợ người dùng quy định tối thiểu. Trong bài báo này, chúng tôi khám phá một kỹ thuật mới mô hình chuỗi thường xuyên gọi AWAPT (Adaptive Web Access Pattern Tree), khai thác FSP .. 1.1 Mining Web Phương pháp tiếp cận World Wide Khai thác dữ liệu Web bao gồm các nội dung khai thác mỏ, khai thác cấu trúc siêu liên kết, và khai thác sử dụng. Tất cả ba cách tiếp cận cố gắng để trích xuất các kiến thức từ các Web, sản xuất một số kết quả hữu ích từ những kiến thức chiết xuất, và áp dụng các kết quả nhất định các vấn đề thế giới thực. Hai đầu tiên áp dụng các kỹ thuật khai thác dữ liệu để nội dung trang web và các cấu trúc liên kết, tương ứng. Cách tiếp cận thứ ba, khai thác sử dụng Web, chủ đề của bài viết này, là việc áp dụng các kỹ thuật khai thác dữ liệu để các bản ghi sử dụng kho dữ liệu Web lớn để tạo ra kết quả có thể được áp dụng cho nhiều đối tượng thực tế, chẳng hạn như cải thiện các trang Web / trang, làm cho chủ đề hoặc sản phẩm bổ sung các khuyến nghị, các nghiên cứu sử dụng / hành vi khách hàng, vv Một Web sử dụng hệ thống khai thác phải có khả năng thực hiện năm chức năng chính: i) thu thập dữ liệu, ii) chuẩn bị dữ liệu, iii) phát hiện mô hình chuyển hướng, iv) mô hình phân tích và trực quan, và v) các ứng dụng mẫu. khai thác Web có thể được phân loại thành ba lớp khác nhau dựa vào một phần của Web là được khai thác. Ba loại này là (i) khai thác nội dung Web, (ii) khai thác cấu trúc Web và (iii) sử dụng Web khai thác mỏ. Khai thác nội dung Web 1.2 là nhiệm vụ khám phá ra thông tin hữu ích có sẵn trên mạng. Có nhiều loại khác nhau của nội dung Web có thể cung cấp thông tin hữu ích cho người sử dụng, cho dữ liệu đa phương tiện ví dụ, cấu trúc (tức là tài liệu XML), (tức là tài liệu HTML) bán cấu trúc và dữ liệu phi cấu trúc (ví dụ như văn bản gốc). Mục đích của khai thác nội dung Web là để cung cấp một cơ chế hiệu quả để giúp người dùng tìm thấy những thông tin mà họ tìm kiếm. Khai thác nội dung Web có nhiệm vụ tổ chức và phân nhóm các tài liệu và cung cấp công cụ tìm kiếm để truy cập các tài liệu khác nhau bằng các từ khóa, danh mục, nội dung, vv 1.3 Web khai thác kết cấu là quá trình khám phá cấu trúc của các siêu liên kết trong web. Thực tế, trong khi khai thác nội dung Web tập trung vào các thông tin bên trong bản tài liệu, khai thác cấu trúc Web phát hiện ra các cấu trúc liên kết ở cấp liên tài liệu. Mục đích là để xác định các trang có thẩm quyền và các trung tâm cho một chủ đề nhất định. Trang Authoritative chứa thông tin hữu ích, và được hỗ trợ bởi một số liên kết trỏ đến nó, có nghĩa là các trang này được tham chiếu cao. Một trang có rất nhiều các siêu liên kết tham chiếu nghĩa là nội dung của trang này là hữu ích, thích hợp hơn và có thể tin cậy. Hubs là các trang web có chứa nhiều liên kết đến các trang có thẩm quyền, do đó họ giúp đỡ trong phân nhóm các nhà chức trách. Khai thác cấu trúc Web có thể đạt được chỉ trong một cổng duy nhất hoặc còn trên toàn bộ trang web. Khai thác cấu trúc của Web hỗ trợ nhiệm vụ khai thác nội dung Web. Sử dụng các thông tin về cấu trúc của Web, việc thu hồi tài liệu có thể được thực hiện hiệu quả hơn, và độ tin cậy và phù hợp của các tài liệu được tìm thấy có thể lớn hơn. Các cấu trúc đồ thị của web có thể bị khai thác bởi Web khai thác cấu trúc để cải thiện hiệu suất của việc thu hồi thông tin và để cải thiện phân loại các tài liệu. Khai thác sử dụng 1.4 Web Có ba loại tập tin log có thể được sử dụng để khai thác sử dụng Web . Đăng nhập tập tin được lưu trữ trên máy chủ bên, về phía khách hàng và trên các máy chủ proxy. Bởi có nhiều hơn một nơi để lưu trữ các thông tin của mẫu chuyển hướng của người sử dụng làm cho quá trình khai thác khó khăn hơn. Thực sự đáng tin cậy kết quả có thể đạt được chỉ khi người ta có dữ liệu từ tất cả ba loại tập tin log. Lý do cho điều này là phía máy chủ không chứa hồ sơ của những người truy cập trang web được lưu trữ trên các máy chủ proxy hoặc trên các mặt hàng. Bên cạnh đó các tập tin đăng nhập trên máy chủ, mà trên máy chủ proxy cung cấp thêm thông tin. Tuy nhiên, các yêu cầu trang được lưu trữ trong các mặt hàng đang mất tích. Tuy nhiên, nó là vấn đề để thu thập tất cả các thông tin từ phía khách hàng. Vì vậy, hầu hết các thuật toán làm việc dựa chỉ các dữ liệu phía máy chủ. Một số thuật toán khai thác dữ liệu thường được sử dụng để khai thác sử dụng Web là liên kết khai thác mỏ quy định, khai thác tự và clustering. 2. Mô hình truy cập Web Mining Web khai thác mô hình Access cũng được gọi là khai thác sử dụng Web. Khai thác sử dụng Web, từ khía cạnh khai thác dữ liệu, là nhiệm vụ của việc áp dụng các kỹ thuật khai thác dữ liệu để khám phá mô hình sử dụng dữ liệu từ Web để hiểu và phục vụ tốt hơn nhu cầu của người sử dụng điều hướng trên Web [13]. Như mọi công việc khai thác dữ liệu, quá trình khai thác sử dụng Web cũng bao gồm ba bước chính: (i) tiền xử lý, (ii) phát hiện mẫu và (iii) phân tích mẫu. Các bước tiền xử lý bao gồm ba giai đoạn riêng biệt. Thứ nhất, các dữ liệu thu được phải được làm sạch, có nghĩa là mục đồ họa và đa phương tiện được loại bỏ. Thứ hai, các buổi khác nhau thuộc người dùng khác nhau cần được xác định. Thứ ba, một phiên được hiểu như là một nhóm các hoạt động được thực hiện bởi một người dùng khi ông là điều hướng thông qua một trang web nhất định. Để xác định phiên từ dữ liệu thô là một bước phức tạp, bởi vì các bản ghi máy chủ không luôn luôn có chứa tất cả các thông tin cần thiết. Trong tác phẩm này, phát hiện mô hình có nghĩa là áp dụng các phương pháp phát hiện mô hình tuần tự thường xuyên giới thiệu với các dữ liệu đăng nhập. Vì lý do này, các dữ liệu đã được chuyển đổi trong giai đoạn tiền xử lý như vậy mà đầu ra của chuyển đổi có thể được sử dụng như là đầu vào của thuật toán. Phân tích mô hình có nghĩa là sự hiểu biết các kết quả thu được bằng các thuật toán và kết luận vẽ. Động cơ đằng sau phân tích mô hình là để lọc ra các quy tắc không thú vị hoặc các mẫu từ các thiết lập được tìm thấy trong giai đoạn khám phá mô hình. Các phương pháp phân tích chính xác thường bị chi phối bởi các ứng dụng mà khai thác Web được thực hiện. Các hình thức phổ biến nhất của phân tích mô hình bao gồm một cơ chế truy vấn kiến thức như SQL. Kỹ thuật trực quan, chẳng hạn như vẽ đồ mô hình hoặc gán các màu cho các giá trị khác nhau, thường có thể làm nổi bật mô hình tổng thể hoặc các xu hướng trong dữ liệu. Nội dung và cấu trúc thông tin có thể được sử dụng để lọc ra các mẫu có chứa các trang của một loại sử dụng nhất định, kiểu nội dung, hoặc trang phù hợp với một cấu trúc siêu liên kết nhất định.
đang được dịch, vui lòng đợi..
