Nội dung web khai thác mỏ [sửa]
khai thác nội dung Web là khai thác mỏ, khai thác và tích hợp các dữ liệu hữu ích, thông tin và kiến thức từ nội dung trang web. Sự bất đồng nhất và thiếu cấu trúc cho phép nhiều trong những nguồn thông tin ngày càng mở rộng trên World Wide Web, chẳng hạn như tài liệu siêu văn bản, làm cho phát hiện tự động, tổ chức, và tìm kiếm và công cụ lập chỉ mục của Internet và World Wide Web như Lycos , Alta Vista, WebCrawler, ALIWEB, MetaCrawler, và những người khác cung cấp một số tiện nghi cho người sử dụng, nhưng họ thường không cung cấp thông tin về cấu trúc cũng như phân loại, lọc, hoặc giải thích văn bản. Trong những năm gần đây, những yếu tố này đã khiến các nhà nghiên cứu để phát triển các công cụ thông minh hơn để tìm kiếm thông tin, chẳng hạn như các đại lý web thông minh, cũng như để mở rộng cơ sở dữ liệu và khai thác dữ liệu kỹ thuật để cung cấp một mức độ cao hơn của tổ chức cho dữ liệu bán cấu trúc có sẵn trên web. Các cách tiếp cận đại lý dựa trên việc khai thác mỏ web liên quan đến việc phát triển các hệ thống AI tinh vi mà có thể hoạt động độc lập hoặc bán tự trị thay mặt cho một người dùng cụ thể, nhằm phát hiện và tổ chức thông tin dựa trên web. Khai thác nội dung Web được phân biệt từ hai quan điểm khác nhau :. [3] Thông tin Retrieval Xem và Cơ sở dữ liệu Xem [4] tóm tắt các công trình nghiên cứu được thực hiện cho dữ liệu phi cấu trúc và dữ liệu bán cấu trúc từ xem thông tin. Nó cho thấy rằng hầu hết các nghiên cứu sử dụng túi của các từ, mà là dựa trên các số liệu thống kê về các từ đơn trong sự cô lập, để đại diện cho văn bản phi cấu trúc và dùng từ ngữ duy nhất được tìm thấy trong các ngữ liệu huấn luyện như các tính năng. Đối với các dữ liệu bán cấu trúc, tất cả các công trình sử dụng các cấu trúc HTML bên trong các tài liệu và một số sử dụng các cấu trúc liên kết giữa các văn bản đại diện cho tài liệu. Đối với các quan điểm cơ sở dữ liệu, để có sự quản lý thông tin tốt hơn và truy vấn trên web, các mỏ luôn luôn cố gắng để suy ra cấu trúc của trang web để chuyển đổi một trang web để trở thành một cơ sở dữ liệu. Có một số cách để đại diện cho văn bản; vector mô hình không gian thường được sử dụng. Các tài liệu cấu thành toàn bộ không gian vector. Đại diện này không nhận ra tầm quan trọng của các từ trong một tài liệu. Để giải quyết điều này, tf-idf (Frequency Term Times Inverse Document Frequency) được giới thiệu. Bởi đa chức năng quét tài liệu, chúng ta có thể thực hiện các lựa chọn tính năng. Dưới điều kiện là kết quả loại ít chịu ảnh hưởng, việc khai thác các tính năng tập hợp là cần thiết. Các thuật toán chung là xây dựng một hàm đánh giá để đánh giá các tính năng. Như tính năng thiết lập, Information Gain, Cross Entropy, thông tin lẫn nhau, và Tỷ lệ Tỷ lệ này thường được sử dụng. Bộ phân loại và phân tích mô hình phương pháp của văn bản khai thác dữ liệu là rất tương tự như kỹ thuật khai thác dữ liệu truyền thống. Công đức tính đánh giá thông thường là phân loại chính xác, Precision, Recall và Điểm Thông tin. Khai thác Web là một thành phần quan trọng của kênh nội dung cho cổng web. Nó được sử dụng trong dữ liệu xác nhận và xác minh tính hợp lệ, tính toàn vẹn dữ liệu và xây dựng nguyên tắc phân loại, quản lý nội dung, hệ nội dung và khai thác ý kiến
đang được dịch, vui lòng đợi..