Web information extraction is the p

Web information extraction is the problem of extracting target information
items from Web pages. There are two general problems: extracting information from natural language text and extracting structured data from Web
pages. This chapter focuses on extracting structured data. A program for
extracting such data is usually called a wrapper. Extracting information
from text is studied mainly in the natural language processing community.
Structured data on the Web are typically data records retrieved from
underlying databases and displayed in Web pages following some fixed
templates. In this chapter, we still call them data records. Extracting such
data records is useful because it enables us to obtain and integrate data
from multiple sources (Web sites and pages) to provide value-added services,
e.g., customizable Web information gathering, comparative shopping,
meta-search, etc. With more and more companies and organizations
disseminating information on the Web, the ability to extract such data from
Web pages is becoming increasingly important. At the time of writing this
book, there are several companies working on extracting products sold
online, product reviews, job postings, research publications, forum
discussions, statistics data tables, news articles, search results, etc.
Researchers and Internet companies started to work on the extraction
problem from the middle of 1990s. There are three main approaches:
1. Manual approach: By observing a Web page and its source code, the
human programmer finds some patterns and then writes a program to
extract the target data. To make the process simpler for programmers,
several pattern specification languages and user interfaces have been
built. However, this approach is not scalable to a large number of sites.
2. Wrapper induction: This is the supervised learning approach, and is
semi-automatic. The work started around 1995-1996. In this approach, a
set of extraction rules is learned from a collection of manually labeled
pages or data records. The rules are then employed to extract target data
items from other similarly formatted pages.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Web thông tin khai thác là các vấn đề về giải nén thông tin mục tiêuCác mặt hàng từ trang Web. Có hai vấn đề chung: trích xuất thông tin từ văn bản ngôn ngữ tự nhiên và chiết xuất có cấu trúc dữ liệu từ trang WebTrang. Chương này tập trung vào việc trích xuất dữ liệu có cấu trúc. Một chương trình chogiải nén dữ liệu như vậy thường được gọi là một wrapper. Giải nén thông tintừ văn bản nghiên cứu chủ yếu trong ngôn ngữ tự nhiên chế biến cộng đồng.Cấu trúc dữ liệu trên các trang Web thường là dữ liệu hồ sơ Lấy từcơ sở dữ liệu cơ bản và các trang Web được hiển thị ở sau một số cố địnhmẫu. Trong chương này, chúng tôi vẫn gọi cho họ bản ghi dữ liệu. Chiết xuất như vậybản ghi dữ liệu rất hữu ích vì nó cho phép chúng tôi để có được và tích hợp dữ liệutừ nhiều nguồn khác nhau (các trang Web và các trang) để cung cấp các dịch vụ giá trị gia tăng,Ví dụ, có thể tùy chỉnh trang Web thông tin thu thập, Mua sắm so sánh,Meta-tìm kiếm, v.v... Với nhiều hơn và nhiều hơn nữa các công ty và các tổ chứcphổ biến các thông tin trên Web, khả năng trích xuất các dữ liệu từTrang web đang trở nên ngày càng quan trọng. Tại thời điểm văn bản nàycuốn sách, có một số công ty làm việc trên chiết xuất sản phẩm bántrực tuyến, đánh giá sản phẩm, công việc đăng, Ấn phẩm nghiên cứu, diễn đànthảo luận, bảng dữ liệu thống kê, tin tức, kết quả tìm kiếm, vv.Các nhà nghiên cứu và các công ty Internet bắt đầu làm việc vào việc khai thácvấn đề từ giữa thập niên 1990. Hiện có ba cách tiếp cận chính:1. hướng dẫn sử dụng phương pháp: bằng cách quan sát các trang Web và mã nguồn của nó, cáclập trình viên của con người tìm thấy một số mô hình và sau đó viết một chương trình đểtrích xuất dữ liệu mục tiêu. Để làm cho quá trình đơn giản cho các lập trình,một số mô hình ngôn ngữ đặc tả và giao diện người dùng đãđược xây dựng. Tuy nhiên, cách tiếp cận này không phải là khả năng mở rộng số lượng các trang web lớn.2. bao bọc cảm ứng: đây là phương pháp giám sát học tập, vàbán tự động. Công việc bắt đầu khoảng năm 1995-1996. Trong cách tiếp cận này, mộtnguyên tắc khai thác đã học được từ một bộ sưu tập theo cách thủ công có nhãndữ liệu hoặc các trang hồ sơ. Các quy tắc sau đó được sử dụng để trích xuất dữ liệu mục tiêumục từ các trang tương tự như định dạng khác.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Khai thác thông tin Web là vấn đề của chiết xuất thông tin mục tiêu
mục từ các trang Web. Có hai vấn đề chung: chiết xuất thông tin từ văn bản ngôn ngữ tự nhiên và giải nén dữ liệu có cấu trúc từ Web
trang. Chương này tập trung vào việc giải nén dữ liệu có cấu trúc. Một chương trình cho
giải nén dữ liệu như vậy thường được gọi là một wrapper. Trích xuất thông tin
từ văn bản được nghiên cứu chủ yếu trong cộng đồng xử lý ngôn ngữ tự nhiên.
Dữ liệu có cấu trúc trên web thường ghi dữ liệu lấy từ
cơ sở dữ liệu cơ bản và hiển thị trên trang web sau đây một số cố định
mẫu. Trong chương này, chúng tôi vẫn gọi họ là ghi dữ liệu. Giải nén như
ghi dữ liệu rất hữu ích vì nó cho phép chúng tôi để có được và tích hợp dữ liệu
từ nhiều nguồn (các trang web và các trang) để cung cấp các dịch vụ giá trị gia tăng,
ví dụ, thu thập trang web tùy biến thông tin, mua sắm so sánh,
meta-tìm kiếm, vv Với hơn và nhiều công ty và tổ chức
phổ biến thông tin trên mạng, khả năng trích xuất các dữ liệu đó từ
các trang web đang trở nên ngày càng quan trọng. Tại thời điểm viết bài này
cuốn sách, có một số công ty làm việc trên chiết xuất các sản phẩm được bán
trực tuyến, đánh giá sản phẩm, thông tin việc làm, các ấn phẩm nghiên cứu, diễn đàn
thảo luận, các bảng thống kê dữ liệu, tin tức, kết quả tìm kiếm, vv
Các nhà nghiên cứu và các công ty Internet bắt đầu làm việc về việc khai thác
vấn đề từ giữa những năm 1990. Có ba phương pháp chính:
1. Phương pháp thủ công: Bằng cách quan sát một trang Web và mã nguồn của nó, các
lập trình viên con người tìm thấy một số mô hình và sau đó viết một chương trình để
trích xuất các dữ liệu mục tiêu. Để làm cho quá trình đơn giản cho các lập trình viên,
một số ngôn ngữ mô hình đặc điểm kỹ thuật và giao diện người dùng đã được
xây dựng. Tuy nhiên, phương pháp này là không thể mở rộng đến một số lượng lớn các trang web.
2. Wrapper cảm ứng: Đây là phương pháp học có giám sát, và
bán tự động. Công việc bắt đầu vào khoảng năm 1995-1996. Trong phương pháp này, một
tập hợp các quy tắc khai thác là học được từ một bộ sưu tập của nhãn bằng tay
trang hoặc ghi dữ liệu. Các quy tắc này sau đó được sử dụng để trích xuất dữ liệu mục tiêu
mục từ các trang định dạng tương tự khác.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.