Web Usage Mining is the application of data mining techniques to disco dịch - Web Usage Mining is the application of data mining techniques to disco Việt làm thế nào để nói

Web Usage Mining is the application

Web Usage Mining is the application of data mining techniques to discover interesting usage patterns from Web data in order to understand and better serve the needs of Web-based applications. Usage data captures the identity or origin of Web users along with their browsing behavior at a Web site.
Web usage mining itself can be classified further depending on the kind of usage data considered:

Web Server Data: The user logs are collected by the Web server. Typical data includes IP address, page reference and access time.
Application Server Data: Commercial application servers have significant features to enable e-commerce applications to be built on top of them with little effort. A key feature is the ability to track various kinds of business events and log them in application server logs.
Application Level Data: New kinds of events can be defined in an application, and logging can be turned on for them thus generating histories of these specially defined events. It must be noted, however, that many end applications require a combination of one or more of the techniques applied in the categories above.
Studies related to work [Weichbroth et al.] are concerned with two areas: constraint-based data mining algorithms applied in Web Usage Mining and developed software tools (systems). Costa and Seco demonstrated that web log mining can be used to extract semantic information (hyponymy relationships in particular) about the user and a given community.

Pros[edit]
Web usage mining essentially has many advantages which makes this technology attractive to corporations including the government agencies. This technology has enabled e-commerce to do personalized marketing, which eventually results in higher trade volumes. Government agencies are using this technology to classify threats and fight against terrorism. The predicting capability of mining applications can benefit society by identifying criminal activities. The companies can establish better customer relationship by giving them exactly what they need. Companies can understand the needs of the customer better and they can react to customer needs faster. The companies can find, attract and retain customers; they can save on production costs by utilizing the acquired insight of customer requirements. They can increase profitability by target pricing based on the profiles created. They can even find the customer who might default to a competitor the company will try to retain the customer by providing promotional offers to the specific customer, thus reducing the risk of losing a customer or customers.

Cons[edit]
Web usage mining by itself does not create issues, but this technology when used on data of personal nature might cause concerns. The most criticized ethical issue involving web usage mining is the invasion of privacy. Privacy is considered lost when information concerning an individual is obtained, used, or disseminated, especially if this occurs without their knowledge or consent.[1] The obtained data will be analyzed, and clustered to form profiles; the data will be made anonymous before clustering so that there are no personal profiles.[1] Thus these applications de-individualize the users by judging them by their mouse clicks. De-individualization, can be defined as a tendency of judging and treating people on the basis of group characteristics instead of on their own individual characteristics and merits.[1]

Another important concern is that the companies collecting the data for a specific purpose might use the data for a totally different purpose, and this essentially violates the user’s interests.

The growing trend of selling personal data as a commodity encourages website owners to trade personal data obtained from their site. This trend has increased the amount of data being captured and traded increasing the likeliness of one’s privacy being invaded. The companies which buy the data are obliged make it anonymous and these companies are considered authors of any specific release of mining patterns. They are legally responsible for the contents of the release; any inaccuracies in the release will result in serious lawsuits, but there is no law preventing them from trading the data.

Some mining algorithms might use controversial attributes like sex, race, religion, or sexual orientation to categorize individuals. These practices might be against the anti-discrimination legislation.[2] The applications make it hard to identify the use of such controversial attributes, and there is no strong rule against the usage of such algorithms with such attributes. This process could result in denial of service or a privilege to an individual based on his race, religion or sexual orientation, right now this situation can be avoided by the high ethical standards maintained by the data mining company. The collected data is being made anonymous so that, the obtained data and the obtained patterns cannot be traced back to an individual. It might look as if this poses no threat to one’s privacy, however additional information can be inferred by the application by combining two separate unscrupulous data from the user.

Web structure mining[edit]
[icon] This section requires expansion. (June 2015)
Web structure mining is the process of using graph theory to analyze the node and connection structure of a web site. According to the type of web structural data, web structure mining can be divided into two kinds:

Extracting patterns from hyperlinks in the web: a hyperlink is a structural component that connects the web page to a different location.
Mining the document structure: analysis of the tree-like structure of page structures to describe HTML or XML tag usage.
Web content mining[edit]
Web content mining is the mining, extraction and integration of useful data, information and knowledge from Web page content. The heterogeneity and the lack of structure that permits much of the ever-expanding information sources on the World Wide Web, such as hypertext documents, makes automated discovery, organization, and search and indexing tools of the Internet and the World Wide Web such as Lycos, Alta Vista, WebCrawler, ALIWEB, MetaCrawler, and others provide some comfort to users, but they do not generally provide structural information nor categorize, filter, or interpret documents. In recent years these factors have prompted researchers to develop more intelligent tools for information retrieval, such as intelligent web agents, as well as to extend database and data mining techniques to provide a higher level of organization for semi-structured data available on the web. The agent-based approach to web mining involves the development of sophisticated AI systems that can act autonomously or semi-autonomously on behalf of a particular user, to discover and organize web-based information.

Web content mining is differentiated from two different points of view:[3] Information Retrieval View and Database View.[4] summarized the research works done for unstructured data and semi-structured data from information retrieval view. It shows that most of the researches use bag of words, which is based on the statistics about single words in isolation, to represent unstructured text and take single word found in the training corpus as features. For the semi-structured data, all the works utilize the HTML structures inside the documents and some utilized the hyperlink structure between the documents for document representation. As for the database view, in order to have the better information management and querying on the web, the mining always tries to infer the structure of the web site to transform a web site to become a database.

There are several ways to represent documents; vector space model is typically used. The documents constitute the whole vector space. This representation does not realize the importance of words in a document. To resolve this, tf-idf (Term Frequency Times Inverse Document Frequency) is introduced.

By multi-scanning the document, we can implement feature selection. Under the condition that the category result is rarely affected, the extraction of feature subset is needed. The general algorithm is to construct an evaluating function to evaluate the features. As feature set, Information Gain, Cross Entropy, Mutual Information, and Odds Ratio are usually used. The classifier and pattern analysis methods of text data mining are very similar to traditional data mining techniques. The usual evaluative merits are Classification Accuracy, Precision, Recall and Information Score.

Web mining is an important component of content pipeline for web portals. It is used in data confirmation and validity verification, data integrity and building taxonomies, content management, content generation and opinion mining.[5]
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Web sử dụng khai thác là việc áp dụng kỹ thuật khai thác dữ liệu để khám phá thú vị sử dụng mô hình từ Web dữ liệu để hiểu và phục vụ tốt hơn nhu cầu của ứng dụng dựa trên Web. Dữ liệu sử dụng chụp danh tính hoặc nguồn gốc của người sử dụng Web cùng với hành vi của họ duyệt web tại một trang Web.Web sử dụng khai thác mỏ chính nó có thể được phân loại hơn nữa tùy thuộc vào loại dữ liệu sử dụng được coi là:Các dữ liệu máy chủ web: Nhật ký người sử dụng được thu thập bởi các máy chủ Web. Dữ liệu điển hình bao gồm địa chỉ IP, tham khảo trang và thời gian truy cập.Các dữ liệu máy chủ ứng dụng: Các máy chủ ứng dụng thương mại có các tính năng quan trọng để cho phép thương mại điện tử ứng dụng được xây dựng trên đầu trang của họ với nỗ lực rất ít. Một tính năng quan trọng là khả năng để theo dõi các loại sự kiện kinh doanh và đăng chúng trong Nhật ký máy chủ ứng dụng.Ứng dụng cấp dữ liệu: Các loại mới của sự kiện có thể được định nghĩa trong một ứng dụng, và ghi nhật ký có thể được bật cho họ vì thế tạo ra lịch sử của những sự kiện đặc biệt được xác định. Nó phải được lưu ý, Tuy nhiên, nhiều cuối ứng dụng đòi hỏi một sự kết hợp của một hoặc nhiều của các kỹ thuật được áp dụng trong các loại trên.Nghiên cứu liên quan đến làm việc [Weichbroth et al.] có liên quan với hai khu vực: hạn chế dựa trên dữ liệu khai thác mỏ thuật toán áp dụng trong khai thác mỏ sử dụng Web và phát triển phần mềm (hệ thống). Costa và Seco đã chứng minh rằng Nhật ký web khai thác mỏ có thể được sử dụng để lấy thông tin ngữ nghĩa (hyponymy mối quan hệ đặc biệt) về người dùng và một cộng đồng nhất định.Thuận [sửa]Web sử dụng khai thác về cơ bản có nhiều lợi thế mà làm cho công nghệ này hấp dẫn đối với tập đoàn bao gồm các cơ quan chính phủ. Công nghệ này đã cho phép thương mại điện tử để làm tiếp thị cá nhân hoá, mà cuối cùng kết quả trong thương mại cao khối tin. Cơ quan chính phủ đang sử dụng công nghệ này để phân loại mối đe dọa và chiến đấu chống lại chủ nghĩa khủng bố. Khả năng dự đoán của các ứng dụng khai thác có thể đem lại lợi ích xã hội bằng cách xác định hoạt động tội phạm. Các công ty có thể thiết lập quan hệ khách hàng tốt hơn bằng cách cho họ chính xác những gì họ cần. Công ty có thể hiểu nhu cầu của khách hàng tốt hơn và họ có thể phản ứng với nhu cầu khách hàng nhanh hơn. Các công ty có thể tìm thấy, thu hút và giữ chân khách hàng; họ có thể tiết kiệm chi phí sản xuất bằng cách sử dụng sự thấu hiểu mua lại của yêu cầu khách hàng. Họ có thể tăng lợi nhuận bằng mục tiêu giá dựa trên các cấu hình tạo ra. Họ thậm chí có thể tìm thấy khách hàng có thể mặc định một đối thủ cạnh tranh công ty sẽ cố gắng giữ lại khách hàng bằng cách cung cấp cung cấp quảng cáo cho khách hàng cụ thể, do đó làm giảm nguy cơ mất một khách hàng hoặc khách hàng.Nhược điểm [sửa]Khai thác sử dụng web của chính nó không tạo ra vấn đề, nhưng công nghệ này khi được sử dụng trên các dữ liệu của tính chất cá nhân có thể gây ra mối quan tâm. Chỉ trích đặt vấn đề đạo đức liên quan đến web sử dụng khai thác là xâm lược riêng tư. Sự riêng tư được coi là bị mất khi thông tin liên quan đến một cá nhân được thu được, sử dụng, hoặc phổ biến, đặc biệt là nếu điều này xảy ra mà không có kiến thức hoặc sự đồng ý của họ. [1] các dữ liệu thu được sẽ được phân tích, và tập trung vào cấu hình mẫu; các dữ liệu sẽ được thực hiện chưa xác định người trước khi cụm để có những không có hồ sơ cá nhân. [1] do đó những ứng dụng de-hình những người sử dụng bởi giám khảo chúng bằng chuột của nhấp chuột. De-individualization, có thể được định nghĩa là một xu hướng của đánh giá và điều trị những người trên cơ sở nhóm đặc điểm thay vì trên đặc điểm cá nhân của riêng mình và thành tích. [1]Mối quan tâm quan trọng khác là các công ty thu thập dữ liệu cho một mục đích cụ thể có thể dùng dữ liệu cho một mục đích hoàn toàn khác nhau, và điều này về bản chất vi phạm quyền lợi của người dùng.Xu hướng phát triển của bán các dữ liệu cá nhân như một thứ hàng hóa khuyến khích chủ sở hữu trang web để thương mại cá nhân dữ liệu thu được từ trang web của họ. Xu hướng này đã tăng số lượng dữ liệu đang bắt và thương mại tăng likeliness của một bảo mật bị xâm lăng. Các công ty mà mua các dữ liệu có nghĩa vụ làm cho nó vô danh và các công ty này được coi là tác giả của bất kỳ phiên bản cụ thể về các hình thức khai thác mỏ. Họ là về mặt pháp lý chịu trách nhiệm về nội dung của việc phát hành; bất kỳ không chính xác trong việc phát hành sẽ cho kết quả trong các vụ án nghiêm trọng, nhưng không có luật ngăn ngừa họ thương mại các dữ liệu.Một số thuật toán khai thác có thể sử dụng các thuộc tính gây tranh cãi như giới tính, chủng tộc, tôn giáo, hoặc khuynh hướng tình dục để phân loại cá nhân. Các thực hành này có thể là chống lại Pháp luật về chống phân biệt đối xử. [2] các ứng dụng làm cho nó khó khăn để xác định việc sử dụng các thuộc tính gây tranh cãi, và không có quy tắc mạnh mẽ chống lại việc sử dụng các thuật toán với thuộc tính như vậy. Quá trình này có thể dẫn đến từ chối dịch vụ hoặc một đặc quyền cho một cá nhân dựa trên chủng tộc, tôn giáo của mình hoặc khuynh hướng tình dục, ngay bây giờ tình trạng này có thể tránh được bởi các tiêu chuẩn đạo đức cao được duy trì bởi công ty khai thác dữ liệu. Thu thập dữ liệu đang được thực hiện chưa xác định người do đó, các dữ liệu thu được và các mô hình được không thể được ngược trở lại để một cá nhân. Nó có thể trông như là nếu điều này đặt ra không có mối đe dọa cho bảo mật của một, Tuy nhiên bổ sung thông tin có thể được suy ra bởi các ứng dụng bằng cách kết hợp hai tách dữ liệu vô đạo đức của người dùng.Khai thác cấu trúc web [sửa][biểu tượng] Phần này yêu cầu mở rộng. (Tháng 6 năm 2015)Web cấu trúc mỏ là quá trình sử dụng lý thuyết đồ thị để phân tích cấu trúc nút và kết nối của một trang web. Theo kiểu dữ liệu cấu trúc web, web cấu trúc mỏ có thể được chia thành hai loại:Giải nén các mẫu từ siêu liên kết trong các trang web: một siêu liên kết là một thành phần cấu trúc kết nối trang web sang vị trí khác.Khai thác cấu trúc tài liệu: phân tích cấu trúc giống như cây của trang cấu trúc để mô tả việc sử dụng thẻ HTML hoặc XML.Khai thác nội dung web [sửa]Web content mining is the mining, extraction and integration of useful data, information and knowledge from Web page content. The heterogeneity and the lack of structure that permits much of the ever-expanding information sources on the World Wide Web, such as hypertext documents, makes automated discovery, organization, and search and indexing tools of the Internet and the World Wide Web such as Lycos, Alta Vista, WebCrawler, ALIWEB, MetaCrawler, and others provide some comfort to users, but they do not generally provide structural information nor categorize, filter, or interpret documents. In recent years these factors have prompted researchers to develop more intelligent tools for information retrieval, such as intelligent web agents, as well as to extend database and data mining techniques to provide a higher level of organization for semi-structured data available on the web. The agent-based approach to web mining involves the development of sophisticated AI systems that can act autonomously or semi-autonomously on behalf of a particular user, to discover and organize web-based information.Khai thác nội dung web khác nhau từ hai quan điểm khác nhau: [3] Xem thông tin tra cứu và cơ sở dữ liệu xem. [4] tóm tắt các công trình nghiên cứu làm cho không có cấu trúc dữ liệu và dữ liệu bán cấu trúc từ thông tin tra cứu. Nó cho thấy rằng hầu hết các nghiên cứu sử dụng túi từ, mà dựa trên số liệu thống kê về từ đơn lẻ trong sự cô lập, đại diện cho văn bản có cấu trúc và mất từ duy nhất tìm thấy trong các văn thể đào tạo là tính năng. Đối với các dữ liệu bán cấu trúc, tất cả các công trình sử dụng cấu trúc HTML bên trong các tài liệu và một số sử dụng cấu trúc siêu liên kết giữa các tài liệu cho tài liệu đại diện. Như để xem cơ sở dữ liệu, để có việc quản lý thông tin tốt hơn và truy vấn trên web, khai thác luôn luôn cố gắng để suy ra cấu trúc của trang web trang web để biến đổi một trang web để trở thành một cơ sở dữ liệu.Có rất nhiều cách để đại diện cho tài liệu; không gian vectơ mô hình thường được sử dụng. Các tài liệu cấu thành toàn bộ không gian vector. Đại diện này không nhận ra tầm quan trọng của từ trong một tài liệu. Để giải quyết điều này, lực lượng đặc nhiệm-idf (thuật ngữ tần số lần ngược tài liệu tần) được giới thiệu.By multi-scanning the document, we can implement feature selection. Under the condition that the category result is rarely affected, the extraction of feature subset is needed. The general algorithm is to construct an evaluating function to evaluate the features. As feature set, Information Gain, Cross Entropy, Mutual Information, and Odds Ratio are usually used. The classifier and pattern analysis methods of text data mining are very similar to traditional data mining techniques. The usual evaluative merits are Classification Accuracy, Precision, Recall and Information Score.Web mining is an important component of content pipeline for web portals. It is used in data confirmation and validity verification, data integrity and building taxonomies, content management, content generation and opinion mining.[5]
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Cách sử dụng Web Mining là việc áp dụng các kỹ thuật khai thác dữ liệu để khám phá các mẫu sử dụng thú vị từ dữ liệu web để hiểu và phục vụ tốt hơn nhu cầu của các ứng dụng dựa trên Web. Dữ liệu sử dụng nắm bắt được bản sắc, nguồn gốc của người dùng Web cùng với hành vi duyệt web của họ tại một trang Web.
Sử dụng Web khai thác chính nó có thể được phân nhiều loại tùy thuộc vào loại dữ liệu sử dụng xem xét: máy chủ dữ liệu Web: Nhật ký người dùng được thu thập bởi các máy chủ Web . Dữ liệu điển hình bao gồm thời gian địa chỉ IP, tham khảo trang và truy cập. Application Data Server: máy chủ ứng dụng thương mại có các tính năng quan trọng cho phép các ứng dụng thương mại điện tử được xây dựng trên đầu trang của họ với ít nỗ lực. Một tính năng quan trọng là khả năng theo dõi các loại khác nhau của các sự kiện kinh doanh và đăng nhập chúng trong nhật ký máy chủ ứng dụng. Ứng dụng Cấp dữ liệu: các loại mới của sự kiện có thể được định nghĩa trong một ứng dụng, và khai thác gỗ có thể được bật cho họ do đó tạo ra lịch sử của các đặc biệt sự kiện xác định. Nó phải được lưu ý, tuy nhiên, có nhiều ứng dụng cuối cùng đòi hỏi một sự kết hợp của một hoặc nhiều hơn các kỹ thuật áp dụng trong các nhóm trên. Các nghiên cứu liên quan đến hoạt động [Weichbroth et al.] Có liên quan với hai khu vực: các thuật toán khai thác dữ liệu ràng buộc dựa trên áp dụng Cách sử dụng trong Web Mining và các công cụ phần mềm phát triển (hệ thống). Costa và Seco đã chứng minh rằng việc khai thác log web có thể được sử dụng để trích xuất thông tin ngữ nghĩa (mối quan hệ hyponymy đặc biệt) về người sử dụng và một cộng đồng nhất định. Ưu điểm [sửa] khai thác sử dụng Web cơ bản có nhiều lợi thế mà làm cho công nghệ này hấp dẫn đối với các tập đoàn bao gồm chính phủ cơ quan. Công nghệ này đã cho phép thương mại điện tử để làm tiếp thị cá nhân, mà cuối cùng dẫn đến khối lượng thương mại cao hơn. Cơ quan chính phủ đang sử dụng công nghệ này để phân loại các mối đe dọa và chiến đấu chống lại chủ nghĩa khủng bố. Khả năng dự đoán của các ứng dụng có thể khai thác lợi cho xã hội bằng cách xác định các hoạt động tội phạm. Các công ty có thể thiết lập mối quan hệ khách hàng tốt hơn bằng cách cho họ chính xác những gì họ cần. Các công ty có thể hiểu được nhu cầu của khách hàng tốt hơn và họ có thể phản ứng với nhu cầu khách hàng nhanh hơn. Các công ty có thể tìm thấy, thu hút và giữ chân khách hàng; họ có thể tiết kiệm chi phí sản xuất bằng cách sử dụng những cái nhìn sâu sắc có được các yêu cầu của khách hàng. Họ có thể tăng lợi nhuận bằng giá mục tiêu dựa trên các cấu tạo. Họ thậm chí có thể tìm thấy các khách hàng có thể mặc định cho một đối thủ cạnh tranh của công ty sẽ cố gắng để giữ lại khách hàng bằng cách cung cấp chương trình khuyến mãi cho khách hàng cụ thể, do đó làm giảm nguy cơ mất khách hàng hoặc khách hàng. Nhược điểm [sửa] sử dụng Web khai thác bởi chính nó không tạo ra vấn đề, ​​nhưng công nghệ này khi được sử dụng trên dữ liệu của thiên nhiên cá nhân có thể gây ra mối quan tâm. Vấn đề đạo đức liên quan đến khai thác mỏ chỉ trích nhiều nhất sử dụng web là xâm phạm đời tư. Riêng tư được coi là mất khi thông tin liên quan đến một cá nhân được thu thập, sử dụng, hoặc phổ biến, đặc biệt là nếu điều này xảy ra mà không có kiến thức hoặc sự đồng ý của họ [1] Các dữ liệu thu được sẽ được phân tích, và được khoanh vùng để hình thành hồ sơ. các dữ liệu sẽ được thực hiện vô danh trước khi phân nhóm như vậy là không có hồ sơ cá nhân. [1] Vì vậy, những ứng dụng bỏ cá nhân hóa cho người sử dụng bằng cách đánh giá chúng bằng cú click chuột của họ. De-cá nhân hóa, có thể được định nghĩa như là một xu hướng của việc đánh giá và điều trị những người trên cơ sở đặc điểm nhóm vì vậy các đặc điểm cá nhân của riêng mình và công đức. [1] Một mối quan tâm quan trọng là các công ty thu thập dữ liệu cho một mục đích cụ thể có thể sử dụng các dữ liệu cho một mục đích hoàn toàn khác nhau, và điều này về cơ bản là vi phạm quyền lợi của người sử dụng. Các xu hướng phát triển của bán dữ liệu cá nhân như một mặt hàng khuyến khích các chủ trang web để trao đổi dữ liệu cá nhân thu được từ trang web của họ. Xu hướng này đã tăng số lượng dữ liệu bị bắt và giao dịch tăng likeliness sự riêng tư của một người bị xâm chiếm. Các công ty mà mua các dữ liệu có nghĩa vụ làm cho nó vô danh và các công ty này được coi là tác giả của bất kỳ phát hành cụ thể của mô hình khai thác khoáng sản. Họ chịu trách nhiệm trước pháp luật về nội dung của việc phát hành; bất kỳ sự thiếu chính xác trong việc phát hành sẽ dẫn đến các vụ kiện nghiêm trọng, nhưng không có luật ngăn chặn chúng từ kinh doanh các dữ liệu. Một số thuật toán khai thác có thể sử dụng thuộc tính gây tranh cãi như giới tính, chủng tộc, tôn giáo, hoặc khuynh hướng tình dục để phân loại cá nhân. Những thực hành này có thể chống lại các luật chống phân biệt đối xử. [2] Các ứng dụng làm cho nó khó khăn để xác định việc sử dụng các thuộc tính gây tranh cãi như vậy, và không có quy luật mạnh mẽ chống lại việc sử dụng các thuật toán như vậy với các thuộc tính như vậy. Quá trình này có thể dẫn đến từ chối dịch vụ hoặc một đặc quyền cho một cá nhân dựa trên chủng tộc, tôn giáo của mình hoặc khuynh hướng tình dục, ngay bây giờ tình hình này có thể tránh được bằng các tiêu chuẩn đạo đức cao được duy trì bởi các công ty khai thác dữ liệu. Các dữ liệu thu thập được đang được thực hiện vô danh như vậy đó, các dữ liệu thu được và các mẫu thu được không có thể được truy trở lại cho một cá nhân. Nó có thể trông như thể này không đe dọa đến sự riêng tư của một người, tuy nhiên thêm thông tin có thể được suy ra bởi các ứng dụng bằng cách kết hợp hai dữ liệu vô đạo đức riêng biệt từ người dùng. Khai thác cấu trúc Web [sửa] [icon] Phần này đòi hỏi phải mở rộng. (June 2015) khai thác cấu trúc Web là quá trình sử dụng lý thuyết đồ thị để phân tích các nút và kết nối cấu trúc của một trang web. Theo các kiểu dữ liệu cấu trúc web, khai thác cấu trúc web có thể được chia thành hai loại: mô hình rút trích từ các siêu liên kết trong các trang web: một siêu liên kết là một thành phần cấu trúc kết nối các trang web đến một vị trí khác nhau. Khai thác cấu trúc tài liệu: phân tích cơ cấu cây giống như cấu trúc của trang để mô tả HTML hay XML tag cách sử dụng. nội dung Web khai thác mỏ [sửa] khai thác nội dung Web là khai thác mỏ, khai thác và tích hợp các dữ liệu hữu ích, thông tin và kiến thức từ nội dung trang web. Sự bất đồng nhất và thiếu cấu trúc cho phép nhiều trong những nguồn thông tin ngày càng mở rộng trên World Wide Web, chẳng hạn như tài liệu siêu văn bản, làm cho phát hiện tự động, tổ chức, và tìm kiếm và công cụ lập chỉ mục của Internet và World Wide Web như Lycos , Alta Vista, WebCrawler, ALIWEB, MetaCrawler, và những người khác cung cấp một số tiện nghi cho người sử dụng, nhưng họ thường không cung cấp thông tin về cấu trúc cũng như phân loại, lọc, hoặc giải thích văn bản. Trong những năm gần đây, những yếu tố này đã khiến các nhà nghiên cứu để phát triển các công cụ thông minh hơn để tìm kiếm thông tin, chẳng hạn như các đại lý web thông minh, cũng như để mở rộng cơ sở dữ liệu và khai thác dữ liệu kỹ thuật để cung cấp một mức độ cao hơn của tổ chức cho dữ liệu bán cấu trúc có sẵn trên web. Các cách tiếp cận đại lý dựa trên việc khai thác mỏ web liên quan đến việc phát triển các hệ thống AI tinh vi mà có thể hoạt động độc lập hoặc bán tự trị thay mặt cho một người dùng cụ thể, nhằm phát hiện và tổ chức thông tin dựa trên web. Khai thác nội dung Web được phân biệt từ hai quan điểm khác nhau :. [3] Thông tin Retrieval Xem và Cơ sở dữ liệu Xem [4] tóm tắt các công trình nghiên cứu được thực hiện cho dữ liệu phi cấu trúc và dữ liệu bán cấu trúc từ xem thông tin. Nó cho thấy rằng hầu hết các nghiên cứu sử dụng túi của các từ, mà là dựa trên các số liệu thống kê về các từ đơn trong sự cô lập, để đại diện cho văn bản phi cấu trúc và dùng từ ngữ duy nhất được tìm thấy trong các ngữ liệu huấn luyện như các tính năng. Đối với các dữ liệu bán cấu trúc, tất cả các công trình sử dụng các cấu trúc HTML bên trong các tài liệu và một số sử dụng các cấu trúc liên kết giữa các văn bản đại diện cho tài liệu. Đối với các quan điểm cơ sở dữ liệu, để có sự quản lý thông tin tốt hơn và truy vấn trên web, các mỏ luôn luôn cố gắng để suy ra cấu trúc của trang web để chuyển đổi một trang web để trở thành một cơ sở dữ liệu. Có một số cách để đại diện cho văn bản; vector mô hình không gian thường được sử dụng. Các tài liệu cấu thành toàn bộ không gian vector. Đại diện này không nhận ra tầm quan trọng của các từ trong một tài liệu. Để giải quyết điều này, tf-idf (Frequency Term Times Inverse Document Frequency) được giới thiệu. Bởi đa chức năng quét tài liệu, chúng ta có thể thực hiện các lựa chọn tính năng. Dưới điều kiện là kết quả loại ít chịu ảnh hưởng, việc khai thác các tính năng tập hợp là cần thiết. Các thuật toán chung là xây dựng một hàm đánh giá để đánh giá các tính năng. Như tính năng thiết lập, Information Gain, Cross Entropy, thông tin lẫn nhau, và Tỷ lệ Tỷ lệ này thường được sử dụng. Bộ phân loại và phân tích mô hình phương pháp của văn bản khai thác dữ liệu là rất tương tự như kỹ thuật khai thác dữ liệu truyền thống. Công đức tính đánh giá thông thường là phân loại chính xác, Precision, Recall và Điểm Thông tin. Khai thác Web là một thành phần quan trọng của kênh nội dung cho cổng web. Nó được sử dụng trong dữ liệu xác nhận và xác minh tính hợp lệ, tính toàn vẹn dữ liệu và xây dựng nguyên tắc phân loại, quản lý nội dung, hệ nội dung và khai thác ý kiến. [5]

































đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: