Cách sử dụng Web Mining là việc áp dụng các kỹ thuật khai thác dữ liệu để khám phá các mẫu sử dụng thú vị từ dữ liệu web để hiểu và phục vụ tốt hơn nhu cầu của các ứng dụng dựa trên Web. Dữ liệu sử dụng nắm bắt được bản sắc, nguồn gốc của người dùng Web cùng với hành vi duyệt web của họ tại một trang Web.
Sử dụng Web khai thác chính nó có thể được phân nhiều loại tùy thuộc vào loại dữ liệu sử dụng xem xét: máy chủ dữ liệu Web: Nhật ký người dùng được thu thập bởi các máy chủ Web . Dữ liệu điển hình bao gồm thời gian địa chỉ IP, tham khảo trang và truy cập. Application Data Server: máy chủ ứng dụng thương mại có các tính năng quan trọng cho phép các ứng dụng thương mại điện tử được xây dựng trên đầu trang của họ với ít nỗ lực. Một tính năng quan trọng là khả năng theo dõi các loại khác nhau của các sự kiện kinh doanh và đăng nhập chúng trong nhật ký máy chủ ứng dụng. Ứng dụng Cấp dữ liệu: các loại mới của sự kiện có thể được định nghĩa trong một ứng dụng, và khai thác gỗ có thể được bật cho họ do đó tạo ra lịch sử của các đặc biệt sự kiện xác định. Nó phải được lưu ý, tuy nhiên, có nhiều ứng dụng cuối cùng đòi hỏi một sự kết hợp của một hoặc nhiều hơn các kỹ thuật áp dụng trong các nhóm trên. Các nghiên cứu liên quan đến hoạt động [Weichbroth et al.] Có liên quan với hai khu vực: các thuật toán khai thác dữ liệu ràng buộc dựa trên áp dụng Cách sử dụng trong Web Mining và các công cụ phần mềm phát triển (hệ thống). Costa và Seco đã chứng minh rằng việc khai thác log web có thể được sử dụng để trích xuất thông tin ngữ nghĩa (mối quan hệ hyponymy đặc biệt) về người sử dụng và một cộng đồng nhất định. Ưu điểm [sửa] khai thác sử dụng Web cơ bản có nhiều lợi thế mà làm cho công nghệ này hấp dẫn đối với các tập đoàn bao gồm chính phủ cơ quan. Công nghệ này đã cho phép thương mại điện tử để làm tiếp thị cá nhân, mà cuối cùng dẫn đến khối lượng thương mại cao hơn. Cơ quan chính phủ đang sử dụng công nghệ này để phân loại các mối đe dọa và chiến đấu chống lại chủ nghĩa khủng bố. Khả năng dự đoán của các ứng dụng có thể khai thác lợi cho xã hội bằng cách xác định các hoạt động tội phạm. Các công ty có thể thiết lập mối quan hệ khách hàng tốt hơn bằng cách cho họ chính xác những gì họ cần. Các công ty có thể hiểu được nhu cầu của khách hàng tốt hơn và họ có thể phản ứng với nhu cầu khách hàng nhanh hơn. Các công ty có thể tìm thấy, thu hút và giữ chân khách hàng; họ có thể tiết kiệm chi phí sản xuất bằng cách sử dụng những cái nhìn sâu sắc có được các yêu cầu của khách hàng. Họ có thể tăng lợi nhuận bằng giá mục tiêu dựa trên các cấu tạo. Họ thậm chí có thể tìm thấy các khách hàng có thể mặc định cho một đối thủ cạnh tranh của công ty sẽ cố gắng để giữ lại khách hàng bằng cách cung cấp chương trình khuyến mãi cho khách hàng cụ thể, do đó làm giảm nguy cơ mất khách hàng hoặc khách hàng. Nhược điểm [sửa] sử dụng Web khai thác bởi chính nó không tạo ra vấn đề, nhưng công nghệ này khi được sử dụng trên dữ liệu của thiên nhiên cá nhân có thể gây ra mối quan tâm. Vấn đề đạo đức liên quan đến khai thác mỏ chỉ trích nhiều nhất sử dụng web là xâm phạm đời tư. Riêng tư được coi là mất khi thông tin liên quan đến một cá nhân được thu thập, sử dụng, hoặc phổ biến, đặc biệt là nếu điều này xảy ra mà không có kiến thức hoặc sự đồng ý của họ [1] Các dữ liệu thu được sẽ được phân tích, và được khoanh vùng để hình thành hồ sơ. các dữ liệu sẽ được thực hiện vô danh trước khi phân nhóm như vậy là không có hồ sơ cá nhân. [1] Vì vậy, những ứng dụng bỏ cá nhân hóa cho người sử dụng bằng cách đánh giá chúng bằng cú click chuột của họ. De-cá nhân hóa, có thể được định nghĩa như là một xu hướng của việc đánh giá và điều trị những người trên cơ sở đặc điểm nhóm vì vậy các đặc điểm cá nhân của riêng mình và công đức. [1] Một mối quan tâm quan trọng là các công ty thu thập dữ liệu cho một mục đích cụ thể có thể sử dụng các dữ liệu cho một mục đích hoàn toàn khác nhau, và điều này về cơ bản là vi phạm quyền lợi của người sử dụng. Các xu hướng phát triển của bán dữ liệu cá nhân như một mặt hàng khuyến khích các chủ trang web để trao đổi dữ liệu cá nhân thu được từ trang web của họ. Xu hướng này đã tăng số lượng dữ liệu bị bắt và giao dịch tăng likeliness sự riêng tư của một người bị xâm chiếm. Các công ty mà mua các dữ liệu có nghĩa vụ làm cho nó vô danh và các công ty này được coi là tác giả của bất kỳ phát hành cụ thể của mô hình khai thác khoáng sản. Họ chịu trách nhiệm trước pháp luật về nội dung của việc phát hành; bất kỳ sự thiếu chính xác trong việc phát hành sẽ dẫn đến các vụ kiện nghiêm trọng, nhưng không có luật ngăn chặn chúng từ kinh doanh các dữ liệu. Một số thuật toán khai thác có thể sử dụng thuộc tính gây tranh cãi như giới tính, chủng tộc, tôn giáo, hoặc khuynh hướng tình dục để phân loại cá nhân. Những thực hành này có thể chống lại các luật chống phân biệt đối xử. [2] Các ứng dụng làm cho nó khó khăn để xác định việc sử dụng các thuộc tính gây tranh cãi như vậy, và không có quy luật mạnh mẽ chống lại việc sử dụng các thuật toán như vậy với các thuộc tính như vậy. Quá trình này có thể dẫn đến từ chối dịch vụ hoặc một đặc quyền cho một cá nhân dựa trên chủng tộc, tôn giáo của mình hoặc khuynh hướng tình dục, ngay bây giờ tình hình này có thể tránh được bằng các tiêu chuẩn đạo đức cao được duy trì bởi các công ty khai thác dữ liệu. Các dữ liệu thu thập được đang được thực hiện vô danh như vậy đó, các dữ liệu thu được và các mẫu thu được không có thể được truy trở lại cho một cá nhân. Nó có thể trông như thể này không đe dọa đến sự riêng tư của một người, tuy nhiên thêm thông tin có thể được suy ra bởi các ứng dụng bằng cách kết hợp hai dữ liệu vô đạo đức riêng biệt từ người dùng. Khai thác cấu trúc Web [sửa] [icon] Phần này đòi hỏi phải mở rộng. (June 2015) khai thác cấu trúc Web là quá trình sử dụng lý thuyết đồ thị để phân tích các nút và kết nối cấu trúc của một trang web. Theo các kiểu dữ liệu cấu trúc web, khai thác cấu trúc web có thể được chia thành hai loại: mô hình rút trích từ các siêu liên kết trong các trang web: một siêu liên kết là một thành phần cấu trúc kết nối các trang web đến một vị trí khác nhau. Khai thác cấu trúc tài liệu: phân tích cơ cấu cây giống như cấu trúc của trang để mô tả HTML hay XML tag cách sử dụng. nội dung Web khai thác mỏ [sửa] khai thác nội dung Web là khai thác mỏ, khai thác và tích hợp các dữ liệu hữu ích, thông tin và kiến thức từ nội dung trang web. Sự bất đồng nhất và thiếu cấu trúc cho phép nhiều trong những nguồn thông tin ngày càng mở rộng trên World Wide Web, chẳng hạn như tài liệu siêu văn bản, làm cho phát hiện tự động, tổ chức, và tìm kiếm và công cụ lập chỉ mục của Internet và World Wide Web như Lycos , Alta Vista, WebCrawler, ALIWEB, MetaCrawler, và những người khác cung cấp một số tiện nghi cho người sử dụng, nhưng họ thường không cung cấp thông tin về cấu trúc cũng như phân loại, lọc, hoặc giải thích văn bản. Trong những năm gần đây, những yếu tố này đã khiến các nhà nghiên cứu để phát triển các công cụ thông minh hơn để tìm kiếm thông tin, chẳng hạn như các đại lý web thông minh, cũng như để mở rộng cơ sở dữ liệu và khai thác dữ liệu kỹ thuật để cung cấp một mức độ cao hơn của tổ chức cho dữ liệu bán cấu trúc có sẵn trên web. Các cách tiếp cận đại lý dựa trên việc khai thác mỏ web liên quan đến việc phát triển các hệ thống AI tinh vi mà có thể hoạt động độc lập hoặc bán tự trị thay mặt cho một người dùng cụ thể, nhằm phát hiện và tổ chức thông tin dựa trên web. Khai thác nội dung Web được phân biệt từ hai quan điểm khác nhau :. [3] Thông tin Retrieval Xem và Cơ sở dữ liệu Xem [4] tóm tắt các công trình nghiên cứu được thực hiện cho dữ liệu phi cấu trúc và dữ liệu bán cấu trúc từ xem thông tin. Nó cho thấy rằng hầu hết các nghiên cứu sử dụng túi của các từ, mà là dựa trên các số liệu thống kê về các từ đơn trong sự cô lập, để đại diện cho văn bản phi cấu trúc và dùng từ ngữ duy nhất được tìm thấy trong các ngữ liệu huấn luyện như các tính năng. Đối với các dữ liệu bán cấu trúc, tất cả các công trình sử dụng các cấu trúc HTML bên trong các tài liệu và một số sử dụng các cấu trúc liên kết giữa các văn bản đại diện cho tài liệu. Đối với các quan điểm cơ sở dữ liệu, để có sự quản lý thông tin tốt hơn và truy vấn trên web, các mỏ luôn luôn cố gắng để suy ra cấu trúc của trang web để chuyển đổi một trang web để trở thành một cơ sở dữ liệu. Có một số cách để đại diện cho văn bản; vector mô hình không gian thường được sử dụng. Các tài liệu cấu thành toàn bộ không gian vector. Đại diện này không nhận ra tầm quan trọng của các từ trong một tài liệu. Để giải quyết điều này, tf-idf (Frequency Term Times Inverse Document Frequency) được giới thiệu. Bởi đa chức năng quét tài liệu, chúng ta có thể thực hiện các lựa chọn tính năng. Dưới điều kiện là kết quả loại ít chịu ảnh hưởng, việc khai thác các tính năng tập hợp là cần thiết. Các thuật toán chung là xây dựng một hàm đánh giá để đánh giá các tính năng. Như tính năng thiết lập, Information Gain, Cross Entropy, thông tin lẫn nhau, và Tỷ lệ Tỷ lệ này thường được sử dụng. Bộ phân loại và phân tích mô hình phương pháp của văn bản khai thác dữ liệu là rất tương tự như kỹ thuật khai thác dữ liệu truyền thống. Công đức tính đánh giá thông thường là phân loại chính xác, Precision, Recall và Điểm Thông tin. Khai thác Web là một thành phần quan trọng của kênh nội dung cho cổng web. Nó được sử dụng trong dữ liệu xác nhận và xác minh tính hợp lệ, tính toàn vẹn dữ liệu và xây dựng nguyên tắc phân loại, quản lý nội dung, hệ nội dung và khai thác ý kiến. [5]
đang được dịch, vui lòng đợi..