Ngoài dữ liệu có cấu trúc và semistructured, một loại thứ ba tồn tại, được gọi là dữ liệu phi cấu trúc vì có dấu hiệu rất hạn chế về các loại dữ liệu. Một ví dụ điển hình là một tài liệu văn bản có chứa thông tin nhúng trong nó. Các trang Web trong HTML có chứa một số dữ liệu được coi là dữ liệu phi cấu trúc. Hãy xem xét một phần của một tập tin HTML, thể hiện trong hình 12.2. Văn bản xuất hiện giữa dấu ngoặc nhọn, <...> là một thẻ HTML. Một thẻ với một dấu gạch chéo, , chỉ ra một thẻ kết thúc, đại diện cho sự kết thúc của các tác dụng của một từ khóa phù hợp bắt đầu. Các thẻ đánh dấu lên các tài liệu để hướng dẫn một bộ xử lý HTML làm thế nào để hiển thị văn bản giữa một thẻ bắt đầu và một thẻ phù hợp với kết thúc. Do đó, các thẻ định dạng tài liệu chứ không phải là ý nghĩa của các yếu tố dữ liệu khác nhau trong tài liệu. Thẻ HTML xác định thông tin, chẳng hạn như kích thước phông chữ và phong cách (in đậm, in nghiêng, vv), màu sắc, nhóm cấp trong tài liệu, và như vậy. Một số thẻ cung cấp cấu trúc văn bản trong tài liệu, chẳng hạn như chỉ định một danh sách được đánh số hoặc không có đếm hay bảng. Ngay cả các thẻ cấu trúc xác định rằng các dữ liệu văn bản nhúng sẽ được hiển thị một cách nào đó, chứ không phải chỉ các loại dữ liệu được đại diện trong bảng. HTML sử dụng một số lượng lớn của thẻ được xác định trước, được sử dụng để xác định một loạt các lệnh để định dạng tài liệu web được hiển thị. Sự bắt đầu và kết thúc xác định phạm vi của văn bản được định dạng bởi mỗi lệnh. Một vài ví dụ về các thẻ được hiển thị trong hình 12.2 sau:
Các ... thẻ xác định ranh giới của các tài liệu.
Các thông tin trong tiêu đề tài liệu các thẻ ..., quy định cụ thể các lệnh khác nhau sẽ được sử dụng ở những nơi khác trong tài liệu. Ví dụ, nó có thể chỉ định các chức năng kịch bản khác nhau trong một ngôn ngữ như JavaScript hoặc PERL, hoặc phong cách định dạng nhất định (phông chữ, kiểu đoạn văn, phong cách tiêu đề, vv) có thể được sử dụng trong các tài liệu. Nó cũng có thể chỉ định một tiêu đề để chỉ ra những gì các tập tin HTML là cho, và các thông tin tương tự khác sẽ không được hiển thị như là một phần của tài liệu.
Cơ thể của các tài liệu chỉ định trong các thẻ ..., bao gồm các tài liệu văn bản và các thẻ đánh dấu để định rõ các văn bản được định dạng và hiển thị. Nó cũng có thể bao gồm các tài liệu tham khảo cho các đối tượng khác, chẳng hạn như hình ảnh, video, tin nhắn bằng giọng nói, và các tài liệu khác.
Các ... thẻ xác định rằng các văn bản sẽ được hiển thị như là một tiêu đề cấp 1. Có nhiều cấp độ tiêu đề (, , Và như vậy), mỗi văn bản hiển thị trong một định dạng tiêu đề ít nổi bật.
Các... Thẻ xác định rằng các văn bản sau đây sẽ được hiển thị như một bảng. Mỗi dòng của bảng trong bảng được kèm theo trong ... thẻ, và các yếu tố bảng dữ liệu cá nhân trong một hàng được hiển thị bên trong ... thẻ.
Một số thẻ có thể có các thuộc tính, xuất hiện trong thẻ bắt đầu và mô tả tính chất bổ sung của thẻ.
Trong hình 12.2, cácbắt đầu từ khóa có bốn thuộc tính mô tả đặc điểm khác nhau của bảng. Sau và bắt đầu thẻ có một và hai thuộc tính tương ứng.
đang được dịch, vui lòng đợi..