Từ Wikipedia tiếng Việt Bài viết này có thể đòi hỏi phải dọn dẹp để đáp ứng tiêu chuẩn chất lượng của Wikipedia. Không có lý do dọn dẹp đã được chỉ định. Xin vui lòng giúp hoàn thiện bài này nếu bạn có thể. (Tháng 6 năm 2009)Web khai thác mỏ - là việc áp dụng kỹ thuật khai thác dữ liệu để khám phá các mô hình từ World Wide Web. Khai thác mỏ web có thể được chia thành ba loại khác nhau-Web Web cấu trúc khai thác, sử dụng khai thác mỏ và khai thác nội dung Web.Nội dung 1 web sử dụng khai thác 1.1 thuận 1.2 chống 2 khai thác cấu trúc trang web 3 khai thác nội dung web 3.1 web khai thác bằng tiếng nước ngoài 4 Xem thêm 5 nguyên 5.1 bên ngoài liên kết 5.2 sách 5.3 thư mục tài liệu tham khảo 6 tham khảoWeb sử dụng khai thácWeb sử dụng khai thác là việc áp dụng kỹ thuật khai thác dữ liệu để khám phá thú vị sử dụng mô hình từ Web dữ liệu để hiểu và phục vụ tốt hơn nhu cầu của ứng dụng dựa trên Web. Dữ liệu sử dụng chụp danh tính hoặc nguồn gốc của người sử dụng Web cùng với hành vi của họ duyệt web tại một trang Web.Web sử dụng khai thác mỏ chính nó có thể được phân loại hơn nữa tùy thuộc vào loại dữ liệu sử dụng được coi là: Các dữ liệu máy chủ web: Nhật ký người sử dụng được thu thập bởi các máy chủ Web. Dữ liệu điển hình bao gồm địa chỉ IP, tham khảo trang và thời gian truy cập. Các dữ liệu máy chủ ứng dụng: Các máy chủ ứng dụng thương mại có các tính năng quan trọng để cho phép thương mại điện tử ứng dụng được xây dựng trên đầu trang của họ với nỗ lực rất ít. Một tính năng quan trọng là khả năng để theo dõi các loại sự kiện kinh doanh và đăng chúng trong Nhật ký máy chủ ứng dụng. Ứng dụng cấp dữ liệu: Các loại mới của sự kiện có thể được định nghĩa trong một ứng dụng, và ghi nhật ký có thể được bật cho họ vì thế tạo ra lịch sử của những sự kiện đặc biệt được xác định. Nó phải được lưu ý, Tuy nhiên, nhiều cuối ứng dụng đòi hỏi một sự kết hợp của một hoặc nhiều của các kỹ thuật được áp dụng trong các loại trên.Nghiên cứu liên quan đến làm việc [Weichbroth et al.] có liên quan với hai khu vực: hạn chế dựa trên dữ liệu khai thác mỏ thuật toán áp dụng trong khai thác mỏ sử dụng Web và phát triển phần mềm (hệ thống). Costa và Seco đã chứng minh rằng Nhật ký web khai thác mỏ có thể được sử dụng để lấy thông tin ngữ nghĩa (hyponymy mối quan hệ đặc biệt) về người dùng và một cộng đồng nhất định.Ưu điểmWeb sử dụng khai thác về cơ bản có nhiều lợi thế mà làm cho công nghệ này hấp dẫn đối với tập đoàn bao gồm các cơ quan chính phủ. Công nghệ này đã cho phép thương mại điện tử để làm tiếp thị cá nhân hoá, mà cuối cùng kết quả trong thương mại cao khối tin. Cơ quan chính phủ đang sử dụng công nghệ này để phân loại mối đe dọa và chiến đấu chống lại chủ nghĩa khủng bố. Khả năng dự đoán của các ứng dụng khai thác có thể đem lại lợi ích xã hội bằng cách xác định hoạt động tội phạm. Các công ty có thể thiết lập quan hệ khách hàng tốt hơn bằng cách cho họ chính xác những gì họ cần. Công ty có thể hiểu nhu cầu của khách hàng tốt hơn và họ có thể phản ứng với nhu cầu khách hàng nhanh hơn. Các công ty có thể tìm thấy, thu hút và giữ chân khách hàng; họ có thể tiết kiệm chi phí sản xuất bằng cách sử dụng sự thấu hiểu mua lại của yêu cầu khách hàng. Họ có thể tăng lợi nhuận bằng mục tiêu giá dựa trên các cấu hình tạo ra. Họ thậm chí có thể tìm thấy khách hàng có thể mặc định một đối thủ cạnh tranh công ty sẽ cố gắng giữ lại khách hàng bằng cách cung cấp cung cấp quảng cáo cho khách hàng cụ thể, do đó làm giảm nguy cơ mất một khách hàng hoặc khách hàng.Nhược điểmKhai thác sử dụng web của chính nó không tạo ra vấn đề, nhưng công nghệ này khi được sử dụng trên các dữ liệu của tính chất cá nhân có thể gây ra mối quan tâm. Chỉ trích đặt vấn đề đạo đức liên quan đến web sử dụng khai thác là xâm lược riêng tư. Sự riêng tư được coi là bị mất khi thông tin liên quan đến một cá nhân được thu được, sử dụng, hoặc phổ biến, đặc biệt là nếu điều này xảy ra mà không có kiến thức hoặc sự đồng ý của họ. [1] các dữ liệu thu được sẽ được phân tích, và tập trung vào cấu hình mẫu; các dữ liệu sẽ được thực hiện chưa xác định người trước khi cụm để có những không có hồ sơ cá nhân. [1] do đó những ứng dụng de-hình những người sử dụng bởi giám khảo chúng bằng chuột của nhấp chuột. De-individualization, có thể được định nghĩa là một xu hướng của đánh giá và điều trị những người trên cơ sở nhóm đặc điểm thay vì trên đặc điểm cá nhân của riêng mình và thành tích. [1]Mối quan tâm quan trọng khác là các công ty thu thập dữ liệu cho một mục đích cụ thể có thể dùng dữ liệu cho một mục đích hoàn toàn khác nhau, và điều này về bản chất vi phạm quyền lợi của người dùng.Xu hướng phát triển của bán các dữ liệu cá nhân như một thứ hàng hóa khuyến khích chủ sở hữu trang web để thương mại cá nhân dữ liệu thu được từ trang web của họ. Xu hướng này đã tăng số lượng dữ liệu đang bắt và thương mại tăng likeliness của một bảo mật bị xâm lăng. Các công ty mà mua các dữ liệu có nghĩa vụ làm cho nó vô danh và các công ty này được coi là tác giả của bất kỳ phiên bản cụ thể về các hình thức khai thác mỏ. Họ là về mặt pháp lý chịu trách nhiệm về nội dung của việc phát hành; bất kỳ không chính xác trong việc phát hành sẽ cho kết quả trong các vụ án nghiêm trọng, nhưng không có luật ngăn ngừa họ thương mại các dữ liệu.Một số thuật toán khai thác có thể sử dụng các thuộc tính gây tranh cãi như giới tính, chủng tộc, tôn giáo, hoặc khuynh hướng tình dục để phân loại cá nhân. Các thực hành này có thể là chống lại Pháp luật về chống phân biệt đối xử. [2] các ứng dụng làm cho nó khó khăn để xác định việc sử dụng các thuộc tính gây tranh cãi, và không có quy tắc mạnh mẽ chống lại việc sử dụng các thuật toán với thuộc tính như vậy. Quá trình này có thể dẫn đến từ chối dịch vụ hoặc một đặc quyền cho một cá nhân dựa trên chủng tộc, tôn giáo của mình hoặc khuynh hướng tình dục. Ngay bây giờ tình trạng này có thể tránh được bởi các tiêu chuẩn đạo đức cao được duy trì bởi công ty khai thác dữ liệu. Thu thập dữ liệu đang được thực hiện chưa xác định người do đó, các dữ liệu thu được và các mô hình được không thể được ngược trở lại để một cá nhân. Nó có thể trông như là nếu điều này đặt ra không có mối đe dọa cho bảo mật của một, Tuy nhiên bổ sung thông tin có thể được suy ra bởi các ứng dụng bằng cách kết hợp hai tách dữ liệu vô đạo đức của người dùng
đang được dịch, vui lòng đợi..
