Cơ sở dữ liệu phức tạp được thử thách để khám phá và truy vấn của người dùng không quen thuộc với các lược đồ của họ. Cơ sở dữ liệu doanh nghiệp thường có hàng trăm bảng gắn kết với nhau, vì vậy ngay cả khi tài liệu phong phú có sẵn, người dùng mới phải dành một số lượng đáng kể thời gian tìm hiểu sơ đồ trước khi họ có thể lấy bất kỳ thông tin từ cơ sở dữ liệu. Vấn đề là trầm trọng hơn nếu tài liệu bị thiếu hoặc lỗi thời, mà có thể xảy ra với cơ sở dữ liệu di sản. Trong bài báo này, chúng tôi xác định những hạn chế của phương pháp trước đây để giải quyết vấn đề gây nhiều tranh cãi này, và đề xuất một cách tiếp cận có nguyên tắc để tóm tắt nội dung của một cơ sở dữ liệu quan hệ, do đó người dùng có thể xác định điểm các loại thông tin mà nó chứa, và các bảng chính trong mà thông tin đó cư trú. Cách tiếp cận của chúng tôi có ba thành phần: Thứ nhất, chúng tôi de fi ne tầm quan trọng của mỗi bảng trong cơ sở dữ liệu như giá trị trạng thái ổn định của nó trong một bước đi ngẫu nhiên trên biểu đồ lược đồ, nơi các xác suất chuyển đổi phụ thuộc vào entropy của bảng thuộc tính. Điều này đảm bảo rằng tầm quan trọng của một bảng phụ thuộc cả về nội dung thông tin của mình, và làm thế nào nội dung có liên quan đến nội dung của các bảng khác trong cơ sở dữ liệu. Thứ hai, chúng tôi de fi ne một không gian metric trên các bảng trong một cơ sở dữ liệu, như vậy là hàm khoảng cách phù hợp với một khái niệm trực quan của bảng tương tự. Cuối cùng, chúng tôi sử dụng một trọng
thuật toán -Center dưới hàm khoảng cách này để tụ họp tất cả các bảng trong cơ sở dữ liệu trên các bảng liên quan nhất, và trả về kết quả là tóm tắt của chúng tôi. Cơ sở dữ liệu Weconductanextensiveexperimentalstudyonabenchmark, so sánh cách tiếp cận của chúng tôi với các phương pháp trước đó, cũng aswithseveralhybridmodels. Weshowthatourapproach notonly achievessigni nghệ thuật cantlyhigheraccuracythanthepreviousstateofthe fi, butisalsofasterand scaleslinearlywiththesizeof theschema đồ thị.
đang được dịch, vui lòng đợi..
