nhấn mạnh vào phân tích, như là trường hợp trong nhiều ứng dụng liên quan kỹ thuật khác
khu vực (ví dụ, phân tích tiêu dùng, phân tích bổ xung, phân tích trực quan, phân tích xã hội, và
vv), các lĩnh vực văn bản cũng muốn có được vào cuộc phân tích. Trong khi
phân tích văn bản hạn thường được sử dụng trong một ngữ cảnh ứng dụng kinh doanh, khai thác văn bản
thường được sử dụng trong giới nghiên cứu học thuật. Mặc dù họ có thể được định nghĩa hơi
khác nhau vào những thời điểm, phân tích văn bản và khai thác văn bản thường được sử dụng đồng nghĩa,
và chúng tôi (tác giả của cuốn sách này) đồng tình với điều này.
khai thác Text (còn được gọi là khai thác dữ liệu văn bản hoặc khám phá tri thức trong văn bản
cơ sở dữ liệu) là quá trình bán tự động giải nén hình mẫu (thông tin hữu ích và
kiến thức) từ một lượng lớn các nguồn dữ liệu phi cấu trúc. Hãy nhớ rằng khai thác dữ liệu
là quá trình xác định giá trị, tiểu thuyết, khả năng hữu dụng, và cuối cùng hiểu
các mẫu trong dữ liệu được lưu trữ trong cơ sở dữ liệu có cấu trúc, nơi dữ liệu được tổ chức trong các hồ sơ
có cấu trúc của phân loại, thứ tự, hoặc các biến liên tục. Khai thác văn bản là giống như
dữ liệu khai thác trong đó nó có cùng mục đích sử dụng và các quá trình tương tự, nhưng với văn bản
khai thác các đầu vào cho quá trình này là một tập hợp các cấu trúc (hoặc ít hơn có cấu trúc) dữ liệu
tập tin như văn bản Word, file PDF, trích đoạn văn bản, file XML, và như vậy. Về bản chất,
khai thác văn bản có thể được coi như là một quá trình (với hai bước chính) bắt đầu bằng việc áp đặt
cơ cấu trên các nguồn dữ liệu dựa trên văn bản, sau đó giải nén thông tin có liên quan và
kiến thức từ dữ liệu văn bản dựa trên cấu trúc này bằng cách sử dụng các kỹ thuật khai thác dữ liệu và công cụ.
Những lợi ích của việc khai thác văn bản là hiển nhiên trong các lĩnh vực mà một số lượng rất lớn các
dữ liệu văn bản được tạo ra, chẳng hạn như luật (lệnh của tòa án), nghiên cứu khoa học (nghiên cứu
các bài báo), tài chính (báo cáo hàng quý), y học (tóm tắt xả), sinh học (phân tử
tương tác), công nghệ (file bản quyền), và tiếp thị (ý kiến của khách hàng). Ví dụ,
các tương tác dựa trên văn bản dạng tự do với các khách hàng trong các hình thức khiếu nại (hoặc khen ngợi)
và yêu cầu bảo hành có thể được sử dụng để xác định một cách khách quan về sản phẩm và dịch vụ đặc trưng
được coi là ít hơn hoàn hảo và có thể được sử dụng như là đầu vào phát triển sản phẩm tốt hơn
và phân bổ các dịch vụ. Tương tự như vậy, các chương trình tiếp cận cộng đồng thị trường và các nhóm tập trung
tạo ra một lượng lớn dữ liệu. Bằng cách không hạn chế sản phẩm hoặc dịch vụ để phản hồi một hệ thống hóa
đơn, khách hàng có thể trình bày, theo lời của họ, những gì họ nghĩ về một công ty
sản phẩm và dịch vụ. Một lĩnh vực khác mà tự động xử lý các văn bản có cấu trúc
đã có rất nhiều tác động có liên lạc điện tử và e-mail. Khai thác văn bản không chỉ
có thể được sử dụng để phân loại và lọc rác e-mail, nhưng nó cũng có thể được sử dụng để tự động ưu tiên
e-mail dựa trên mức độ quan trọng cũng như tạo ra phản ứng tự động (Weng và
Liu, 2004). Sau đây là những lĩnh vực ứng dụng phổ biến nhất của khai phá văn bản:
• Khai thác thông tin. Xác định các cụm từ khóa và các mối quan hệ trong
văn bản bằng cách tìm kiếm cho các đối tượng được xác định trước và các chuỗi trong văn bản bằng cách mô hình
phù hợp. Lẽ là hình thức phổ biến nhất được sử dụng khai thác thông tin được
đặt tên thác thực thể. Khai thác thực thể có tên bao gồm nhận dạng tên thực thể
(công nhận tên-cho thực thể gọi người dân và các tổ chức, tên địa điểm,
thời gian biểu, và một số loại biểu thức số, sử dụng hiện có
kiến thức về tên miền), độ phân giải đồng tham chiếu (phát hiện của đồng tham chiếu và
liên kết giữa các thực thể anaphoric văn bản), và khai thác mối quan hệ (xác định các
mối quan hệ giữa các thực thể).
• Theo dõi Chủ đề. Căn cứ vào hồ sơ người dùng và tài liệu mà người dùng xem, văn bản
khai thác mỏ có thể dự đoán được các tài liệu khác của người dùng quan tâm.
• Tổng kết. Tổng kết một tài liệu để tiết kiệm thời gian trên một phần của người đọc.
• Phân loại. Xác định những chủ đề chính của một tài liệu và sau đó đưa các
tài liệu vào một tập hợp được xác định trước của loại dựa trên những chủ đề.
• Clustering. Nhóm các tài liệu tương tự mà không có một thiết lập ban
trù.
đang được dịch, vui lòng đợi..