Từ Wikipedia, bách khoa toàn thư miễn phí
Bài viết này có thể yêu cầu dọn dẹp để đáp ứng các tiêu chuẩn chất lượng của Wikipedia. Không có lý do dọn dẹp đã được quy định. Hãy giúp hoàn thiện bài này nếu bạn có thể. (June 2009) khai thác Web - là việc áp dụng các kỹ thuật khai thác dữ liệu để khám phá các mẫu từ World Wide Web. Khai thác mỏ Web có thể được chia thành ba loại khác nhau -. Sử dụng khai thác Web, khai thác nội dung Web và khai thác cấu trúc web Nội dung khai thác sử dụng 1 Web 1.1 Ưu điểm 1.2 Nhược điểm mỏ cấu trúc 2 Web 3 Web khai thác nội dung khai thác 3.1 Web bằng tiếng nước ngoài 4 Xem thêm 5 Nguồn 5.1 Liên kết ngoài 5.2 Sách 5.3 thư mục tài liệu tham khảo 6 Tham khảo cách sử dụng Web khai thác mỏ Cách sử dụng Web là việc áp dụng các kỹ thuật khai thác dữ liệu để khám phá các mẫu sử dụng thú vị từ dữ liệu Web để hiểu và phục vụ tốt hơn nhu cầu của các ứng dụng dựa trên Web. Dữ liệu sử dụng nắm bắt được bản sắc, nguồn gốc của người dùng Web cùng với hành vi duyệt web của họ tại một trang Web. Sử dụng Web khai thác chính nó có thể được phân nhiều loại tùy thuộc vào loại dữ liệu sử dụng xem xét: máy chủ dữ liệu Web: Nhật ký người dùng được thu thập bởi các máy chủ Web . Dữ liệu điển hình bao gồm thời gian địa chỉ IP, tham khảo trang và truy cập. Application Data Server: máy chủ ứng dụng thương mại có các tính năng quan trọng cho phép các ứng dụng thương mại điện tử được xây dựng trên đầu trang của họ với ít nỗ lực. Một tính năng quan trọng là khả năng theo dõi các loại khác nhau của các sự kiện kinh doanh và đăng nhập chúng trong nhật ký máy chủ ứng dụng. Ứng dụng Cấp dữ liệu: các loại mới của sự kiện có thể được định nghĩa trong một ứng dụng, và khai thác gỗ có thể được bật cho họ do đó tạo ra lịch sử của các đặc biệt sự kiện xác định. Nó phải được lưu ý, tuy nhiên, có nhiều ứng dụng cuối cùng đòi hỏi một sự kết hợp của một hoặc nhiều hơn các kỹ thuật áp dụng trong các nhóm trên. Các nghiên cứu liên quan đến hoạt động [Weichbroth et al.] Có liên quan với hai khu vực: các thuật toán khai thác dữ liệu ràng buộc dựa trên áp dụng Cách sử dụng trong Web Mining và các công cụ phần mềm phát triển (hệ thống). Costa và Seco đã chứng minh rằng việc khai thác log web có thể được sử dụng để trích xuất thông tin ngữ nghĩa (mối quan hệ hyponymy đặc biệt) về người sử dụng và một cộng đồng nhất định. Pros Web khai thác sử dụng cơ bản có nhiều lợi thế mà làm cho công nghệ này hấp dẫn đối với các tập đoàn bao gồm các cơ quan chính phủ. Công nghệ này đã cho phép thương mại điện tử để làm tiếp thị cá nhân, mà cuối cùng dẫn đến khối lượng thương mại cao hơn. Cơ quan chính phủ đang sử dụng công nghệ này để phân loại các mối đe dọa và chiến đấu chống lại chủ nghĩa khủng bố. Khả năng dự đoán của các ứng dụng có thể khai thác lợi cho xã hội bằng cách xác định các hoạt động tội phạm. Các công ty có thể thiết lập mối quan hệ khách hàng tốt hơn bằng cách cho họ chính xác những gì họ cần. Các công ty có thể hiểu được nhu cầu của khách hàng tốt hơn và họ có thể phản ứng với nhu cầu khách hàng nhanh hơn. Các công ty có thể tìm thấy, thu hút và giữ chân khách hàng; họ có thể tiết kiệm chi phí sản xuất bằng cách sử dụng những cái nhìn sâu sắc có được các yêu cầu của khách hàng. Họ có thể tăng lợi nhuận bằng giá mục tiêu dựa trên các cấu tạo. Họ thậm chí có thể tìm thấy các khách hàng có thể mặc định cho một đối thủ cạnh tranh của công ty sẽ cố gắng để giữ lại khách hàng bằng cách cung cấp chương trình khuyến mãi cho khách hàng cụ thể, do đó làm giảm nguy cơ mất khách hàng hoặc khách hàng. Cons Web sử dụng khai thác tự nó không tạo ra các vấn đề , nhưng công nghệ này khi được sử dụng trên dữ liệu của thiên nhiên cá nhân có thể gây ra mối quan tâm. Vấn đề đạo đức liên quan đến khai thác mỏ chỉ trích nhiều nhất sử dụng web là xâm phạm đời tư. Riêng tư được coi là mất khi thông tin liên quan đến một cá nhân được thu thập, sử dụng, hoặc phổ biến, đặc biệt là nếu điều này xảy ra mà không có kiến thức hoặc sự đồng ý của họ [1] Các dữ liệu thu được sẽ được phân tích, và được khoanh vùng để hình thành hồ sơ. các dữ liệu sẽ được thực hiện vô danh trước khi phân nhóm như vậy là không có hồ sơ cá nhân. [1] Vì vậy, những ứng dụng bỏ cá nhân hóa cho người sử dụng bằng cách đánh giá chúng bằng cú click chuột của họ. De-cá nhân hóa, có thể được định nghĩa như là một xu hướng của việc đánh giá và điều trị những người trên cơ sở đặc điểm nhóm vì vậy các đặc điểm cá nhân của riêng mình và công đức. [1] Một mối quan tâm quan trọng là các công ty thu thập dữ liệu cho một mục đích cụ thể có thể sử dụng các dữ liệu cho một mục đích hoàn toàn khác nhau, và điều này về cơ bản là vi phạm quyền lợi của người sử dụng. Các xu hướng phát triển của bán dữ liệu cá nhân như một mặt hàng khuyến khích các chủ trang web để trao đổi dữ liệu cá nhân thu được từ trang web của họ. Xu hướng này đã tăng số lượng dữ liệu bị bắt và giao dịch tăng likeliness sự riêng tư của một người bị xâm chiếm. Các công ty mà mua các dữ liệu có nghĩa vụ làm cho nó vô danh và các công ty này được coi là tác giả của bất kỳ phát hành cụ thể của mô hình khai thác khoáng sản. Họ chịu trách nhiệm trước pháp luật về nội dung của việc phát hành; bất kỳ sự thiếu chính xác trong việc phát hành sẽ dẫn đến các vụ kiện nghiêm trọng, nhưng không có luật ngăn chặn chúng từ kinh doanh các dữ liệu. Một số thuật toán khai thác có thể sử dụng thuộc tính gây tranh cãi như giới tính, chủng tộc, tôn giáo, hoặc khuynh hướng tình dục để phân loại cá nhân. Những thực hành này có thể chống lại các luật chống phân biệt đối xử. [2] Các ứng dụng làm cho nó khó khăn để xác định việc sử dụng các thuộc tính gây tranh cãi như vậy, và không có quy luật mạnh mẽ chống lại việc sử dụng các thuật toán như vậy với các thuộc tính như vậy. Quá trình này có thể dẫn đến từ chối dịch vụ hoặc một đặc quyền cho một cá nhân dựa trên chủng tộc, tôn giáo của mình hoặc khuynh hướng tình dục. Ngay bây giờ tình hình này có thể tránh được bằng các tiêu chuẩn đạo đức cao được duy trì bởi các công ty khai thác dữ liệu. Các dữ liệu thu thập được đang được thực hiện vô danh như vậy đó, các dữ liệu thu được và các mẫu thu được không có thể được truy trở lại cho một cá nhân. Nó có thể trông như thể này không đe dọa đến sự riêng tư của một người, tuy nhiên thêm thông tin có thể được suy ra bởi các ứng dụng bằng cách kết hợp hai dữ liệu vô đạo đức riêng biệt từ người dùng
đang được dịch, vui lòng đợi..
