12.1 Structured, Semistructured, an

12.1 Structured, Semistructured, and Unstructured Data
The information stored in databases is known as structured data because it is represented in a strict format. For example, each record in a relational database table—
such as each of the tables in the COMPANYdatabase in Figure 3.6—follows the same
format as the other records in that table. For structured data, it is common to carefully design the database schema using techniques such as those described in
Chapters 7 and 8 in order to define the database structure. The DBMS then checks
to ensure that all data follows the structures and constraints specified in the schema.
However, not all data is collected and inserted into carefully designed structured
databases. In some applications, data is collected in an ad hoc manner before it is
known how it will be stored and managed. This data may have a certain structure,
but not all the information collected will have the identical structure. Some attributes may be shared among the various entities, but other attributes may exist only in
a few entities. Moreover, additional attributes can be introduced in some of the
newer data items at any time, and there is no predefined schema. This type of data is
known as semistructured data. A number of data models have been introduced for
representing semistructured data, often based on using tree or graph data structures
rather than the flat relational model structures.
A key difference between structured and semistructured data concerns how the
schema constructs (such as the names of attributes, relationships, and entity types)
are handled. In semistructured data, the schema information is mixed inwith the
data values, since each data object can have different attributes that are not known in
advance. Hence, this type of data is sometimes referred to as self-describing data.
Consider the following example. We want to collect a list of bibliographic references

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

12,1 có cấu trúc, Semistructured và cấu trúc dữ liệuThông tin được lưu trữ trong cơ sở dữ liệu được gọi là cấu trúc dữ liệu, bởi vì nó là đại diện trong một định dạng nghiêm ngặt. Ví dụ, mỗi bản ghi trong bảng cơ sở dữ liệu quan hệ-chẳng hạn như mỗi người trong số các bảng trong COMPANYdatabase trong hình 3.6 — sau cùngđịnh dạng như các hồ sơ khác trong bảng đó. Cấu trúc dữ liệu, nó được phổ biến một cách cẩn thận thiết kế lược đồ cơ sở dữ liệu bằng cách sử dụng các kỹ thuật như được mô tả trongChương 7 và 8 để xác định cấu trúc cơ sở dữ liệu. Sau đó kiểm tra DBMSđể đảm bảo rằng tất cả dữ liệu theo cấu trúc và hạn chế được chỉ định trong giản đồ.Tuy nhiên, không phải tất cả dữ liệu được thu thập và đưa vào một cách cẩn thận thiết kế có cấu trúccơ sở dữ liệu. Trong một số ứng dụng, dữ liệu được thu thập một cách đặc biệt trước khi nóbiết làm thế nào nó sẽ được lưu trữ và quản lý. Dữ liệu này có thể có một cấu trúc nhất định,nhưng không phải tất cả các thông tin thu thập được sẽ có cấu trúc giống hệt nhau. Một số thuộc tính có thể được chia sẻ giữa các thực thể khác nhau, nhưng các thuộc tính khác có thể tồn tại chỉ trongmột vài thực thể. Hơn nữa, các thuộc tính bổ sung có thể được giới thiệu trong một số cácmới dữ liệu bản ghi bất cứ lúc nào, và không có giản đồ được xác định trước. Loại dữ liệu nàyđược biết đến như là dữ liệu semistructured. Một số mô hình dữ liệu đã được giới thiệu cho cácthường đại diện cho semistructured dữ liệu, dựa trên bằng cách sử dụng cấu trúc dữ liệu cây hay đồ thịthay vì cấu trúc mô hình quan hệ bằng phẳng.Một khác biệt chính giữa các mối quan tâm dữ liệu có cấu trúc và semistructured làm thế nàoSơ đồ cấu trúc (chẳng hạn như tên của các thuộc tính, mối quan hệ thực thể loại)đang xử lý. Trong semistructured dữ liệu, thông tin giản đồ là hỗn hợp inwith cácdữ liệu giá trị, kể từ khi mỗi đối tượng dữ liệu có thể có các thuộc tính khác nhau mà không được biết đến trongtạm ứng. Vì thế, kiểu dữ liệu đôi khi được gọi là tự mô tả dữ liệu.Hãy xem xét ví dụ sau. Chúng tôi muốn thu thập danh sách các thư mục tài liệu tham khảo

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

12.1 có cấu trúc, Semistructured, và không có cấu trúc dữ liệu
Các thông tin được lưu trữ trong cơ sở dữ liệu được gọi là dữ liệu có cấu trúc bởi vì nó được đại diện trong một định dạng nghiêm ngặt. Ví dụ, mỗi bản ghi trong một cơ sở dữ liệu quan hệ Bảng-
như mỗi bảng trong COMPANYdatabase trong hình 3.6 sau cùng
định dạng như các hồ sơ khác trong bảng đó. Đối với dữ liệu có cấu trúc, nó được phổ biến để thiết kế một cách cẩn thận các lược đồ cơ sở dữ liệu sử dụng các kỹ thuật như những mô tả trong
Chương 7 và 8 để xác định cấu trúc cơ sở dữ liệu. DBMS sau đó kiểm tra
để đảm bảo rằng tất cả các dữ liệu theo cấu trúc và các ràng buộc được quy định trong lược đồ.
Tuy nhiên, không phải tất cả các dữ liệu được thu thập và đưa vào cấu trúc được thiết kế cẩn thận
cơ sở dữ liệu. Trong một số ứng dụng, dữ liệu được thu thập một cách đặc biệt trước khi nó được
biết đến như thế nào nó sẽ được lưu trữ và quản lý. Những thông tin này có thể có một cấu trúc nào đó,
nhưng không phải tất cả các thông tin thu thập được sẽ có cấu trúc giống hệt nhau. Một số thuộc tính có thể được chia sẻ giữa các thực thể khác nhau, nhưng các thuộc tính khác có thể chỉ tồn tại trong
một vài thực thể. Hơn nữa, thuộc tính bổ sung có thể được giới thiệu trong một số các
mục dữ liệu mới hơn bất cứ lúc nào, và không có giản đồ được xác định trước. Đây là loại dữ liệu được
gọi là dữ liệu semistructured. Một số mô hình dữ liệu đã được giới thiệu để
đại diện cho dữ liệu semistructured, thường dựa vào việc sử dụng các cấu trúc cây hoặc đồ thị dữ liệu
chứ không phải là các cấu trúc mô hình quan hệ phẳng.
Một sự khác biệt quan trọng giữa cấu trúc và semistructured mối quan tâm dữ liệu như thế nào
cấu trúc giản đồ (chẳng hạn như tên của thuộc tính , các loại mối quan hệ, và thực thể)
được xử lý. Trong dữ liệu semistructured, thông tin giản đồ được trộn inwith các
giá trị dữ liệu, vì mỗi đối tượng dữ liệu có thể có các thuộc tính khác nhau mà không được biết đến ở
trước. Do đó, loại dữ liệu này đôi khi được gọi là dữ liệu tự miêu tả.
Hãy xem xét ví dụ sau. Chúng tôi muốn thu thập một danh sách các tài liệu tham khảo

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.