6.6 row- SO VỚI CỘT ĐỊNH HƯỚNG bố trí DỮ LIỆU VÀ THỰC ĐƠN
Nhận thức về chi phí độ trễ khác nhau liên quan đến các mức độ khác nhau của các hệ thống phân cấp bộ nhớ thông báo cho các cách khác nhau mà dữ liệu có thể được lưu trữ và chia sẻ, đặc biệt là bởi vì các liên kết và định hướng của dữ liệu trên đĩa có thể ảnh hưởng đáng kể hiệu suất của các ứng dụng phân tích. Hầu hết các hệ thống cơ sở dữ liệu truyền thống sử dụng một bố trí hàng theo định hướng, trong đó tất cả các giá trị liên quan đến một hàng cụ thể được đặt ra liên tiếp trong bộ nhớ. Bố trí đó có thể làm việc tốt cho các ứng dụng xử lý giao dịch tập trung vào việc cập nhật hồ sơ cụ thể liên kết với một số lượng hạn chế các giao dịch (hoặc các bước giao dịch) tại một thời điểm.
Mặt khác, các ứng dụng phân tích dữ liệu lớn quét, tổng hợp, và tóm tắt trên dữ liệu khổng lồ. Đây là những biểu hiện như quét thuật toán của được thực hiện bằng Multiway tham gia; truy cập vào toàn bộ hàng tại một thời điểm khi chỉ có các giá trị của một tập hợp nhỏ của các cột cần thiết có thể làm ngập mạng với dữ liệu không liên quan mà không phải là ngay lập tức cần thiết và cuối cùng sẽ làm tăng thời gian thực hiện.
Nói cách khác, các ứng dụng phân tích và truy vấn sẽ chỉ cần truy cập vào các yếu tố dữ liệu cần thiết để đáp ứng điều kiện tham gia. Với bố cục roworiented, toàn bộ hồ sơ phải được đọc theo thứ tự để truy cập các thuộc tính cần thiết, với hơn đáng kể dữ liệu đọc hơn là cần thiết để đáp ứng các yêu cầu. Ngoài ra, việc bố trí hàng theo định hướng thường lệch với các đặc tính của các loại khác nhau của hệ thống bộ nhớ (lõi, bộ nhớ cache, đĩa, vv), dẫn đến tăng độ trễ truy cập. Sau đó, hàng theo định hướng bố trí dữ liệu sẽ không cho phép các loại tham gia hoặc tập hợp điển hình của truy vấn phân tích để thực hiện với mức dự kiến thực hiện (Hình 6.1).
Đó là lý do tại sao một số thiết bị phần mềm cho dữ liệu lớn sử dụng một hệ thống quản lý cơ sở dữ liệu sử dụng người thay thế, bố trí cột cho dữ liệu có thể giúp làm giảm các tác động hiệu tiêu cực của độ trễ dữ liệu mà bệnh dịch hạch cơ sở dữ liệu với một bố trí dữ liệu hàng theo định hướng. Các giá trị cho mỗi cột có thể được lưu giữ riêng, và vì điều này, đối với bất kỳ truy vấn, hệ thống có thể truy cập một cách chọn lọc các giá trị cột cụ thể yêu cầu để đánh giá các điều kiện tham gia. Thay vì yêu cầu chỉ số riêng biệt để chỉnh các truy vấn, dữ liệu giá trị bản thân trong mỗi cột tạo thành các chỉ số. Điều này tăng tốc độ truy cập dữ liệu trong khi giảm các dấu chân cơ sở dữ liệu tổng thể, đồng thời cải thiện đáng kể hiệu suất truy vấn (Hình 6.2).
Sự đơn giản của phương pháp tiếp cận cột cung cấp nhiều lợi ích, đặc biệt là cho những người tìm kiếm một môi trường hiệu suất cao để đáp ứng nhu cầu ngày càng tăng của phân tích rất lớn bộ dữ liệu, như có thể được nhìn thấy bởi các khía cạnh ví dụ về hiệu năng thảo luận trong Bảng 6.3.
đang được dịch, vui lòng đợi..
