12,1 có cấu trúc, Semistructured và cấu trúc dữ liệu.Thông tin được lưu trữ trong cơ sở dữ liệu được gọi là cấu trúc dữ liệu, bởi vì nó là đại diện trong một định dạng nghiêm ngặt. Ví dụ, mỗi bản ghi trong bảng cơ sở dữ liệu quan hệ - chẳng hạn như mỗi người trong số các bảng trong cơ sở dữ liệu công ty trong hình 3.6 - theo định dạng tương tự như các hồ sơ khác trong bảng đó. Cấu trúc dữ liệu, nó là phổ biến một cách cẩn thận thiết kế lược đồ cơ sở dữ liệu bằng cách sử dụng các kỹ thuật như được mô tả trong chương 7 và 8 để xác định cấu trúc cơ sở dữ liệu. DBMS sau đó kiểm tra để đảm bảo rằng tất cả dữ liệu theo cấu trúc và hạn chế được chỉ định trong giản đồ. Tuy nhiên, không phải tất cả dữ liệu được thu thập và đưa vào cơ sở dữ liệu có cấu trúc được thiết kế cẩn thận. Trong một số ứng dụng, dữ liệu được thu thập một cách đặc biệt trước khi nó được biết đến như thế nào nó sẽ được lưu trữ và quản lý. Dữ liệu này có thể có một cấu trúc nhất định, nhưng không phải tất cả các thông tin thu thập được sẽ có cấu trúc giống hệt nhau. Một số thuộc tính có thể được chia sẻ giữa các thực thể khác nhau, nhưng các thuộc tính khác có thể tồn tại chỉ có ở một vài thực thể. Hơn nữa, các thuộc tính bổ sung có thể được giới thiệu trong một số bản ghi dữ liệu mới hơn bất cứ lúc nào, và không không có giản đồ được xác định trước. Kiểu dữ liệu được gọi là semistructured dữ liệu. Một số mô hình dữ liệu đã được giới thiệu để đại diện cho semistructured dữ liệu, thường dựa trên bằng cách sử dụng cây hoặc biểu đồ cấu trúc dữ liệu chứ không phải cấu trúc mô hình quan hệ bằng phẳng. Một khác biệt chính giữa các dữ liệu có cấu trúc và semistructured liên quan đến cách thức xây dựng lược đồ (chẳng hạn như tên của các thuộc tính, mối quan hệ thực thể loại) được xử lý. Trong semistructured dữ liệu, thông tin giản đồ pha trộn với các giá trị dữ liệu, vì mỗi đối tượng dữ liệu có thể có các thuộc tính khác nhau mà không được biết trước. Vì thế, kiểu dữ liệu đôi khi được gọi là tự mô tả dữ liệu. Hãy xem xét ví dụ sau. Chúng tôi muốn thu thập danh sách các thư mục tài liệu tham khảo liên quan đến một dự án nghiên cứu nhất định. Một số người trong số này có thể là cuốn sách hay báo cáo kỹ thuật, những người khác có thể là nghiên cứu bài viết trong tạp chí hoặc thủ tục tố tụng hội nghị, và vẫn còn những người khác có thể chỉ hoàn thành tạp chí các vấn đề hoặc thủ tục tố tụng hội nghị. Rõ ràng, mỗi trong số này có thể có các thuộc tính khác nhau và các loại khác nhau của thông tin. Ngay cả đối với cùng một loại tham khảo — nói, bài viết hội nghị — chúng tôi có thể có thông tin khác nhau. Ví dụ, một bài viết trích dẫn có thể khá hoàn chỉnh, với đầy đủ thông tin về tên tác giả, tiêu đề, thủ tục tố tụng, số trang, và như vậy, trong khi dẫn nguồn khác có thể không có tất cả các thông tin có sẵn. Mới các loại thư mục nguồn có thể xuất hiện trong tương lai-ví dụ, tham chiếu đến các trang Web hoặc để hướng dẫn Hội nghị — và có thể có những thuộc tính mới mô tả chúng.Semistructured dữ liệu có thể được hiển thị như một đồ thị đạo diễn, như minh hoạ trong hình 12,1 Các thông tin hiển thị trong hình 12,1 tương ứng với một số cấu trúc dữ liệu thể hiện trong hình 3.6. Như chúng ta có thể thấy, mô hình này hơi giống với đối tượng mẫu (xem phần 11.1.3) trong khả năng của mình để đại diện cho các đối tượng phức tạp và các cấu trúc lồng nhau. Trong hình 12.1, nhãn hoặc tagson các cạnh đạo diễn đại diện cho tên lược đồ: tên của các thuộc tính, các loại đối tượng (hoặc thực thể loại hoặc các lớp học), và mối quan hệ. Các hạch nội bộ đại diện cho các đối tượng riêng lẻ hoặc tổng hợp các thuộc tính. Các nút lá đại diện cho dữ liệu thực tế giá trị của thuộc tính đơn giản (nguyên tử).
đang được dịch, vui lòng đợi..
