12.1 Structured, Semistructured, an

12.1 Structured, Semistructured, and Unstructured Data.
The information stored in databases is known as structured data because it is represented in a strict format. For example, each record in a relational database table - such as each of the tables in the COMPANY database in Figure 3.6 - follows the same format as the other records in that table. For structured data, it is common to carefully design the database schema using techniques such as those described in Chapters 7 and 8 in order to define the database structure. The DBMS then checks to ensure that all data follows the structures and constraints specified in the schema.
However, not all data is collected and inserted into carefully designed structured databases. In some applications, data is collected in an ad hoc manner before it is known how it will be stored and managed. This data may have a certain structure, but not all the information collected will have the identical structure. Some attributes may be shared among the various entities, but other attributes may exist only in a few entities. Moreover, additional attributes can be introduced in some of the newer data items at any time, and there is no predefined schema. This type of data is known as semistructured data. A number of data models have been introduced for representing semistructured data, often based on using tree or graph data structures rather than the flat relational model structures.
A key difference between structured and semistructured data concerns how the schema constructs (such as the names of attributes, relationships, and entity types) are handled. In semistructured data, the schema information is mixed in with the data values, since each data object can have different attributes that are not known in advance. Hence, this type of data is sometimes referred to as self-describing data. Consider the following example. We want to collect a list of bibliographic references related to a certain research project. Some of these may be books or technical reports, others may be research articles in journals or conference proceedings, and still others may refer to complete journal issues or conference proceedings. Clearly, each of these may have different attributes and different types of information. Even for the same type of reference—say, conference articles—we may have different information. For example, one article citation may be quite complete, with full information about author names, title, proceedings, page numbers, and so on, whereas another citation may not have all the information available. New types of bibliographic sources may appear in the future—for instance, references to Web pages or to conference tutorials—and these may have new attributes that describe them.
Semistructured data may be displayed as a directed graph, as shown in Figure 12.1. The information shown in Figure 12.1 corresponds to some of the structured data shown in Figure 3.6. As we can see, this model somewhat resembles the object model (see Section 11.1.3) in its ability to represent complex objects and nested structures. In Figure 12.1, the labels or tagson the directed edges represent the schema names: the names of attributes, object types (or entity types or classes), and relationships. The internal nodes represent individual objects or composite attributes. The leaf nodes represent actual data values of simple (atomic) attributes.

12.1 Structured, Semistructured, and Unstructured Data.
The information stored in databases is known as structured data because it is represented in a strict format. For example, each record in a relational database table - such as each of the tables in the COMPANY database in Figure 3.6 - follows the same format as the other records in that table. For structured data, it is common to carefully design the database schema using techniques such as those described in Chapters 7 and 8 in order to define the database structure. The DBMS then checks to ensure that all data follows the structures and constraints specified in the schema. 
However, not all data is collected and inserted into carefully designed structured databases. In some applications, data is collected in an ad hoc manner before it is known how it will be stored and managed. This data may have a certain structure, but not all the information collected will have the identical structure. Some attributes may be shared among the various entities, but other attributes may exist only in a few entities. Moreover, additional attributes can be introduced in some of the newer data items at any time, and there is no predefined schema. This type of data is known as semistructured data. A number of data models have been introduced for representing semistructured data, often based on using tree or graph data structures rather than the flat relational model structures. 
A key difference between structured and semistructured data concerns how the schema constructs (such as the names of attributes, relationships, and entity types) are handled. In semistructured data, the schema information is mixed in with the data values, since each data object can have different attributes that are not known in advance. Hence, this type of data is sometimes referred to as self-describing data. Consider the following example. We want to collect a list of bibliographic references related to a certain research project. Some of these may be books or technical reports, others may be research articles in journals or conference proceedings, and still others may refer to complete journal issues or conference proceedings. Clearly, each of these may have different attributes and different types of information. Even for the same type of reference—say, conference articles—we may have different information. For example, one article citation may be quite complete, with full information about author names, title, proceedings, page numbers, and so on, whereas another citation may not have all the information available. New types of bibliographic sources may appear in the future—for instance, references to Web pages or to conference tutorials—and these may have new attributes that describe them.
Semistructured data may be displayed as a directed graph, as shown in Figure 12.1. The information shown in Figure 12.1 corresponds to some of the structured data shown in Figure 3.6. As we can see, this model somewhat resembles the object model (see Section 11.1.3) in its ability to represent complex objects and nested structures. In Figure 12.1, the labels or tagson the directed edges represent the schema names: the names of attributes, object types (or entity types or classes), and relationships. The internal nodes represent individual objects or composite attributes. The leaf nodes represent actual data values of simple (atomic) attributes.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

12,1 có cấu trúc, Semistructured và cấu trúc dữ liệu.Thông tin được lưu trữ trong cơ sở dữ liệu được gọi là cấu trúc dữ liệu, bởi vì nó là đại diện trong một định dạng nghiêm ngặt. Ví dụ, mỗi bản ghi trong bảng cơ sở dữ liệu quan hệ - chẳng hạn như mỗi người trong số các bảng trong cơ sở dữ liệu công ty trong hình 3.6 - theo định dạng tương tự như các hồ sơ khác trong bảng đó. Cấu trúc dữ liệu, nó là phổ biến một cách cẩn thận thiết kế lược đồ cơ sở dữ liệu bằng cách sử dụng các kỹ thuật như được mô tả trong chương 7 và 8 để xác định cấu trúc cơ sở dữ liệu. DBMS sau đó kiểm tra để đảm bảo rằng tất cả dữ liệu theo cấu trúc và hạn chế được chỉ định trong giản đồ. Tuy nhiên, không phải tất cả dữ liệu được thu thập và đưa vào cơ sở dữ liệu có cấu trúc được thiết kế cẩn thận. Trong một số ứng dụng, dữ liệu được thu thập một cách đặc biệt trước khi nó được biết đến như thế nào nó sẽ được lưu trữ và quản lý. Dữ liệu này có thể có một cấu trúc nhất định, nhưng không phải tất cả các thông tin thu thập được sẽ có cấu trúc giống hệt nhau. Một số thuộc tính có thể được chia sẻ giữa các thực thể khác nhau, nhưng các thuộc tính khác có thể tồn tại chỉ có ở một vài thực thể. Hơn nữa, các thuộc tính bổ sung có thể được giới thiệu trong một số bản ghi dữ liệu mới hơn bất cứ lúc nào, và không không có giản đồ được xác định trước. Kiểu dữ liệu được gọi là semistructured dữ liệu. Một số mô hình dữ liệu đã được giới thiệu để đại diện cho semistructured dữ liệu, thường dựa trên bằng cách sử dụng cây hoặc biểu đồ cấu trúc dữ liệu chứ không phải cấu trúc mô hình quan hệ bằng phẳng. Một khác biệt chính giữa các dữ liệu có cấu trúc và semistructured liên quan đến cách thức xây dựng lược đồ (chẳng hạn như tên của các thuộc tính, mối quan hệ thực thể loại) được xử lý. Trong semistructured dữ liệu, thông tin giản đồ pha trộn với các giá trị dữ liệu, vì mỗi đối tượng dữ liệu có thể có các thuộc tính khác nhau mà không được biết trước. Vì thế, kiểu dữ liệu đôi khi được gọi là tự mô tả dữ liệu. Hãy xem xét ví dụ sau. Chúng tôi muốn thu thập danh sách các thư mục tài liệu tham khảo liên quan đến một dự án nghiên cứu nhất định. Một số người trong số này có thể là cuốn sách hay báo cáo kỹ thuật, những người khác có thể là nghiên cứu bài viết trong tạp chí hoặc thủ tục tố tụng hội nghị, và vẫn còn những người khác có thể chỉ hoàn thành tạp chí các vấn đề hoặc thủ tục tố tụng hội nghị. Rõ ràng, mỗi trong số này có thể có các thuộc tính khác nhau và các loại khác nhau của thông tin. Ngay cả đối với cùng một loại tham khảo — nói, bài viết hội nghị — chúng tôi có thể có thông tin khác nhau. Ví dụ, một bài viết trích dẫn có thể khá hoàn chỉnh, với đầy đủ thông tin về tên tác giả, tiêu đề, thủ tục tố tụng, số trang, và như vậy, trong khi dẫn nguồn khác có thể không có tất cả các thông tin có sẵn. Mới các loại thư mục nguồn có thể xuất hiện trong tương lai-ví dụ, tham chiếu đến các trang Web hoặc để hướng dẫn Hội nghị — và có thể có những thuộc tính mới mô tả chúng.Semistructured dữ liệu có thể được hiển thị như một đồ thị đạo diễn, như minh hoạ trong hình 12,1 Các thông tin hiển thị trong hình 12,1 tương ứng với một số cấu trúc dữ liệu thể hiện trong hình 3.6. Như chúng ta có thể thấy, mô hình này hơi giống với đối tượng mẫu (xem phần 11.1.3) trong khả năng của mình để đại diện cho các đối tượng phức tạp và các cấu trúc lồng nhau. Trong hình 12.1, nhãn hoặc tagson các cạnh đạo diễn đại diện cho tên lược đồ: tên của các thuộc tính, các loại đối tượng (hoặc thực thể loại hoặc các lớp học), và mối quan hệ. Các hạch nội bộ đại diện cho các đối tượng riêng lẻ hoặc tổng hợp các thuộc tính. Các nút lá đại diện cho dữ liệu thực tế giá trị của thuộc tính đơn giản (nguyên tử).

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

12.1 có cấu trúc, Semistructured, và không có cấu trúc dữ liệu.
Các thông tin được lưu trữ trong cơ sở dữ liệu được gọi là dữ liệu có cấu trúc bởi vì nó được đại diện trong một định dạng nghiêm ngặt. Ví dụ, mỗi bản ghi trong một bảng cơ sở dữ liệu quan hệ - chẳng hạn như mỗi của các bảng trong cơ sở dữ liệu CÔNG TY trong hình 3.6 - theo định dạng tương tự như các hồ sơ khác trong bảng đó. Đối với dữ liệu có cấu trúc, nó được phổ biến để thiết kế một cách cẩn thận các lược đồ cơ sở dữ liệu sử dụng các kỹ thuật như những mô tả trong Chương 7 và 8 để xác định cấu trúc cơ sở dữ liệu. DBMS sau đó kiểm tra để đảm bảo rằng tất cả các dữ liệu theo cấu trúc và các ràng buộc được quy định trong lược đồ.
Tuy nhiên, không phải tất cả các dữ liệu được thu thập và đưa vào cơ sở dữ liệu có cấu trúc được thiết kế một cách cẩn thận. Trong một số ứng dụng, dữ liệu được thu thập một cách đặc biệt trước khi nó được biết làm thế nào nó sẽ được lưu trữ và quản lý. Những thông tin này có thể có một cấu trúc nào đó, nhưng không phải tất cả các thông tin thu thập được sẽ có cấu trúc giống hệt nhau. Một số thuộc tính có thể được chia sẻ giữa các thực thể khác nhau, nhưng các thuộc tính khác có thể chỉ tồn tại trong một vài thực thể. Hơn nữa, thuộc tính bổ sung có thể được giới thiệu trong một số mục dữ liệu mới hơn bất cứ lúc nào, và không có giản đồ được xác định trước. Đây là loại dữ liệu được gọi là dữ liệu semistructured. Một số mô hình dữ liệu đã được giới thiệu để đại diện cho dữ liệu semistructured, thường dựa vào việc sử dụng các cấu trúc cây hoặc đồ thị dữ liệu hơn là các cấu trúc mô hình quan hệ phẳng.
Một sự khác biệt quan trọng giữa cấu trúc và semistructured mối quan tâm dữ liệu như thế nào cấu trúc giản đồ (chẳng hạn như tên của thuộc tính , các loại mối quan hệ, và thực thể) được xử lý. Trong dữ liệu semistructured, thông tin giản đồ được trộn lẫn với các giá trị dữ liệu, vì mỗi đối tượng dữ liệu có thể có các thuộc tính khác nhau mà không được biết trước. Do đó, loại dữ liệu này đôi khi được gọi là dữ liệu tự miêu tả. Hãy xem xét ví dụ sau. Chúng tôi muốn thu thập một danh sách các tài liệu tham khảo liên quan đến một dự án nghiên cứu nhất định. Một số có thể là cuốn sách hay báo cáo kỹ thuật, những người khác có thể bài báo nghiên cứu trên các tạp chí hoặc kỷ yếu hội nghị, và vẫn còn những người khác có thể tham khảo để hoàn thành quyển tạp chí hoặc kỷ yếu hội nghị. Rõ ràng, mỗi số này có thể có các thuộc tính khác nhau và các loại thông tin khác nhau. Ngay cả đối với cùng một loại tài liệu tham khảo nói, bài viết, chúng tôi hội nghị có thể có những thông tin khác nhau. Ví dụ, một bài viết trích dẫn có thể khá hoàn chỉnh, với đầy đủ thông tin về tên tác giả, tiêu đề, thủ tục tố tụng, số trang, và như vậy, trong khi trích dẫn khác có thể không có tất cả các thông tin có sẵn. Loại mới của các nguồn thư tịch có thể xuất hiện trong các ví dụ tương lai-cho, tài liệu tham khảo cho các trang web hoặc để nghị hướng dẫn và chúng có thể có các thuộc tính mới mà mô tả chúng.
Dữ liệu Semistructured có thể được hiển thị như một đồ thị có hướng, như thể hiện trong hình 12.1. Các thông tin hiển thị trong hình 12.1 tương ứng với một số dữ liệu có cấu trúc thể hiện trong hình 3.6. Như chúng ta có thể thấy, mô hình này có phần giống với mô hình đối tượng (xem phần 11.1.3) trong khả năng của mình để đại diện cho đối tượng phức tạp và cấu trúc lồng nhau. Trong hình 12.1, các nhãn hoặc tagson các cạnh đạo đại diện cho tên schema: tên của các thuộc tính, các loại đối tượng (hoặc các loại thực thể hoặc các lớp học), và các mối quan hệ. Các nút bên đại diện cho đối tượng cá nhân hoặc các thuộc tính tổng hợp. Các nút lá đại diện cho các giá trị dữ liệu thực tế của đơn giản (nguyên tử) thuộc tính.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.