6.6 ROW- VERSUS COLUMN-ORIENTED DAT

6.6 ROW- VERSUS COLUMN-ORIENTED DATA LAYOUTS AND APPLICATION PERFORMANCE
Awareness of the different latency costs associated with the different levels of the memory hierarchy inform the different ways that data can be stored and shared, especially because the alignment and orientation of data on disk can significantly impact the performance of analytical applications. Most traditional database systems employ a row-oriented layout, in which all the values associated with a specific row are laid out consecutively in memory. That layout may work well for transaction processing applications that focus on updating specific records associated with a limited number of transactions (or transaction steps) at a time.
On the other hand, big data analytics applications scan, aggregate, and summarize over massive datasets. These are manifested as algorithmic scans of are performed using multiway joins; accessing whole rows at a time when only the values of a smaller set of columns are needed may flood the network with extraneous data that is not immediately needed and ultimately will increase the execution time.
In other words, analytical applications and queries will only need to access the data elements needed to satisfy join conditions. With roworiented layouts, the entire record must be read in order to access the required attributes, with significantly more data read than is needed to satisfy the request. Also, the row-oriented layout is often misaligned with the characteristics of the different types of memory systems (core, cache, disk, etc.), leading to increased access latencies. Subsequently, row-oriented data layouts will not enable the types of joins or aggregations typical of analytic queries to execute with the anticipated level of performance (Figure 6.1).
That is why a number of software appliances for big data use a database management system that uses an alternate, columnar layout for data that can help to reduce the negative performance impacts of data latency that plague databases with a row-oriented data layout. The values for each column can be stored separately, and because of this, for any query, the system is able to selectively access the specific column values requested to evaluate the join conditions. Instead of requiring separate indexes to tune queries, the data values themselves within each column form the index. This speeds up data access while reducing the overall database footprint, while dramatically improving query performance (Figure 6.2).
The simplicity of the columnar approach provides many benefits, especially for those seeking a high-performance environment to meet the growing needs of extremely large analytic datasets, as can be seen by the example facets of performance discussed in Table 6.3.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

6.6 HÀNG - SO VỚI BỐ TRÍ CỘT THEO ĐỊNH HƯỚNG DỮ LIỆU VÀ ỨNG DỤNG HIỆU SUẤTNâng cao nhận thức của các chi phí khác nhau độ trễ liên kết với các cấp độ khác nhau của hệ thống phân cấp bộ nhớ thông báo những cách khác nhau rằng dữ liệu có thể được lưu trữ và chia sẻ, đặc biệt là bởi vì các liên kết và định hướng của các dữ liệu trên đĩa có thể đáng kể ảnh hưởng đến hiệu suất của ứng dụng phân tích. Truyền thống đặt cơ sở dữ liệu hệ thống sử dụng một bố trí hàng theo định hướng, trong đó tất cả các giá trị liên quan đến một hàng cụ thể được đặt ra liên tiếp trong bộ nhớ. Bố trí đó có thể làm việc tốt cho các ứng dụng xử lý giao dịch tập trung vào việc Cập Nhật bản ghi cụ thể liên quan đến một số giới hạn giao dịch (hoặc các bước giao dịch) tại một thời điểm.Mặt khác, lớn dữ liệu phân tích ứng dụng quét, tổng hợp, và tóm tắt trong lớn datasets. Chúng được thể hiện như thuật toán quét được thực hiện bằng cách sử dụng tham gia multiway; truy cập vào toàn bộ hàng tại một thời điểm khi chỉ là các giá trị của một tập hợp nhỏ các cột là cần thiết có thể lũ lụt mạng với dữ liệu không liên quan mà không ngay lập tức cần và cuối cùng sẽ làm tăng thời gian thực hiện.Nói cách khác, phân tích ứng dụng và truy vấn sẽ chỉ cần truy cập vào các yếu tố dữ liệu cần thiết để đáp ứng điều kiện tham gia. Với bố trí roworiented, toàn bộ hồ sơ phải được hiểu để truy cập các thuộc tính bắt buộc, với đáng kể thêm dữ liệu đọc hơn cần thiết để đáp ứng yêu cầu. Ngoài ra, bố trí theo định hướng hàng thường là thẳng với các đặc tính của các loại khác nhau của bộ nhớ hệ thống (lõi, bộ nhớ cache, đĩa, vv), dẫn đến tăng truy cập vào latencies. Sau đó, bố trí theo định hướng hàng dữ liệu sẽ không cho phép loại tham gia hoặc lót máy ngành màu điển hình của phân tích truy vấn để thực hiện với mức độ dự đoán hiệu suất (hình 6.1).Đó là lý do tại sao một số phần mềm thiết bị gia dụng lớn dữ liệu sử dụng một hệ thống quản lý cơ sở dữ liệu sử dụng một thay thế, cột bố trí cho dữ liệu có thể giúp làm giảm các tác động tiêu cực hiệu suất của độ trễ dữ liệu cơ sở dữ liệu mà bệnh dịch hạch với một bố trí theo định hướng hàng dữ liệu. Các giá trị cho mỗi cột có thể được lưu trữ một cách riêng biệt, và bởi vì điều này, cho bất kỳ truy vấn, Hệ thống có thể có chọn lọc truy cập vào các giá trị cột cụ thể yêu cầu để đánh giá các điều kiện tham gia. Thay vì yêu cầu riêng biệt chỉ số để điều chỉnh truy vấn, các dữ liệu giá trị bản thân trong mỗi cột thành lập chỉ mục. Điều này tăng tốc độ truy cập dữ liệu trong khi làm giảm dấu chân cơ sở dữ liệu tổng thể, trong khi đáng kể cải thiện hiệu suất truy vấn (con số 6.2).Sự đơn giản của cách tiếp cận cột cung cấp nhiều lợi ích, đặc biệt là cho những người tìm kiếm một môi trường hiệu suất cao đáp ứng nhu cầu ngày càng tăng của rất lớn phân tích datasets, như có thể được nhìn thấy bởi các khía cạnh ví dụ của hiệu suất đã thảo luận ở bảng 6.3.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

6.6 row- SO VỚI CỘT ĐỊNH HƯỚNG bố trí DỮ LIỆU VÀ THỰC ĐƠN
Nhận thức về chi phí độ trễ khác nhau liên quan đến các mức độ khác nhau của các hệ thống phân cấp bộ nhớ thông báo cho các cách khác nhau mà dữ liệu có thể được lưu trữ và chia sẻ, đặc biệt là bởi vì các liên kết và định hướng của dữ liệu trên đĩa có thể ảnh hưởng đáng kể hiệu suất của các ứng dụng phân tích. Hầu hết các hệ thống cơ sở dữ liệu truyền thống sử dụng một bố trí hàng theo định hướng, trong đó tất cả các giá trị liên quan đến một hàng cụ thể được đặt ra liên tiếp trong bộ nhớ. Bố trí đó có thể làm việc tốt cho các ứng dụng xử lý giao dịch tập trung vào việc cập nhật hồ sơ cụ thể liên kết với một số lượng hạn chế các giao dịch (hoặc các bước giao dịch) tại một thời điểm.
Mặt khác, các ứng dụng phân tích dữ liệu lớn quét, tổng hợp, và tóm tắt trên dữ liệu khổng lồ. Đây là những biểu hiện như quét thuật toán của được thực hiện bằng Multiway tham gia; truy cập vào toàn bộ hàng tại một thời điểm khi chỉ có các giá trị của một tập hợp nhỏ của các cột cần thiết có thể làm ngập mạng với dữ liệu không liên quan mà không phải là ngay lập tức cần thiết và cuối cùng sẽ làm tăng thời gian thực hiện.
Nói cách khác, các ứng dụng phân tích và truy vấn sẽ chỉ cần truy cập vào các yếu tố dữ liệu cần thiết để đáp ứng điều kiện tham gia. Với bố cục roworiented, toàn bộ hồ sơ phải được đọc theo thứ tự để truy cập các thuộc tính cần thiết, với hơn đáng kể dữ liệu đọc hơn là cần thiết để đáp ứng các yêu cầu. Ngoài ra, việc bố trí hàng theo định hướng thường lệch với các đặc tính của các loại khác nhau của hệ thống bộ nhớ (lõi, bộ nhớ cache, đĩa, vv), dẫn đến tăng độ trễ truy cập. Sau đó, hàng theo định hướng bố trí dữ liệu sẽ không cho phép các loại tham gia hoặc tập hợp điển hình của truy vấn phân tích để thực hiện với mức dự kiến thực hiện (Hình 6.1).
Đó là lý do tại sao một số thiết bị phần mềm cho dữ liệu lớn sử dụng một hệ thống quản lý cơ sở dữ liệu sử dụng người thay thế, bố trí cột cho dữ liệu có thể giúp làm giảm các tác động hiệu tiêu cực của độ trễ dữ liệu mà bệnh dịch hạch cơ sở dữ liệu với một bố trí dữ liệu hàng theo định hướng. Các giá trị cho mỗi cột có thể được lưu giữ riêng, và vì điều này, đối với bất kỳ truy vấn, hệ thống có thể truy cập một cách chọn lọc các giá trị cột cụ thể yêu cầu để đánh giá các điều kiện tham gia. Thay vì yêu cầu chỉ số riêng biệt để chỉnh các truy vấn, dữ liệu giá trị bản thân trong mỗi cột tạo thành các chỉ số. Điều này tăng tốc độ truy cập dữ liệu trong khi giảm các dấu chân cơ sở dữ liệu tổng thể, đồng thời cải thiện đáng kể hiệu suất truy vấn (Hình 6.2).
Sự đơn giản của phương pháp tiếp cận cột cung cấp nhiều lợi ích, đặc biệt là cho những người tìm kiếm một môi trường hiệu suất cao để đáp ứng nhu cầu ngày càng tăng của phân tích rất lớn bộ dữ liệu, như có thể được nhìn thấy bởi các khía cạnh ví dụ về hiệu năng thảo luận trong Bảng 6.3.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.