6.4 LỰA CHỌN KIẾN TRÚC
môi trường phân tích được triển khai trong các mô hình kiến trúc khác nhau. Ngay cả trên các nền tảng song song, nhiều cơ sở dữ liệu được xây dựng trên một phương pháp tiếp cận sharedeverything trong đó lưu trữ và bộ nhớ các thành phần liên tục được tất cả các chia sẻ của các đơn vị chế biến khác nhau. Một cách tiếp cận chia sẻ đĩa có thể có bộ vi xử lý riêng biệt, mỗi bộ nhớ riêng của mình, nhưng lưu trữ liên tục trên đĩa vẫn còn chia sẻ trên toàn hệ thống.
Những loại kiến trúc được xếp lớp trên cùng của máy SMP. Trong khi có thể có các ứng dụng phù hợp với các phương pháp này, có những vướng mắc tồn tại bởi vì những chia sẻ, bởi vì tất cả các I / O và bộ nhớ yêu cầu được chuyển giao (và thỏa mãn) trên cùng một xe buýt. Khi xử lý nhiều hơn được thêm vào, nhu cầu đồng bộ hóa và truyền thông tăng theo cấp số nhân, và do đó xe buýt là ít có khả năng xử lý các nhu cầu gia tăng về băng thông. Điều này có nghĩa rằng trừ khi nhu cầu băng thông được thỏa mãn, sẽ có giới hạn về mức độ khả năng mở rộng.
Ngược lại, trong một phương pháp chia sẻ gì cả, mỗi bộ xử lý có đĩa lưu trữ chuyên dụng của riêng mình. Cách tiếp cận này, mà bản đồ độc đáo cho một kiến trúc MPP, không chỉ phù hợp hơn để phân bổ và phân phối các dữ liệu rời rạc, nó cho phép song song hiệu quả hơn, và do đó không đưa ra cùng một loại tắc nghẽn xe buýt từ đó SMP / chia sẻ bộ nhớ và các phương pháp chia sẻ đĩa bị. 6,5 XÉT ĐẶC HIỆU (55) Khi nói đến dữ liệu lớn, cả phần mềm và các giải pháp phần cứng được hấp dẫn cho các quy mô lớn các nhà phân tích dữ liệu mới ra đời. Tuy nhiên, có thể có những nhận thức trái ngược về lợi ích của việc lựa chọn một trong các phương pháp tiếp cận trong khác, và Bảng 6.2 trông như thế nào mỗi hỗ trợ một số các đặc tính mong muốn được liệt kê trước đó trong cuốn sách này. 6.6 row- SO VỚI CỘT ĐỊNH HƯỚNG bố trí DỮ LIỆU VÀ ỨNG DỤNG THI Nhận thức về chi phí độ trễ khác nhau kết hợp với các cấp độ khác nhau của các hệ thống phân cấp bộ nhớ thông báo cho các cách khác nhau mà dữ liệu có thể được lưu trữ và chia sẻ, đặc biệt là bởi vì các liên kết và định hướng của dữ liệu trên đĩa có thể tác động đáng kể hiệu suất của các ứng dụng phân tích. Hầu hết các hệ thống cơ sở dữ liệu truyền thống sử dụng một bố trí hàng theo định hướng, trong đó tất cả các giá trị liên quan đến một hàng cụ thể được đặt ra liên tiếp trong bộ nhớ. Bố trí đó có thể làm việc tốt cho các ứng dụng xử lý giao dịch tập trung vào việc cập nhật hồ sơ cụ thể liên kết với một số lượng hạn chế các giao dịch (hoặc các bước giao dịch) tại một thời điểm. Mặt khác, các ứng dụng phân tích dữ liệu lớn quét, tổng hợp, và tóm tắt trên dữ liệu khổng lồ. Đây là những biểu hiện như quét thuật toán của được thực hiện bằng Multiway tham gia; truy cập vào toàn bộ hàng tại một thời điểm khi chỉ có các giá trị của một tập hợp nhỏ của các cột cần thiết có thể làm ngập mạng với dữ liệu không liên quan mà không phải là ngay lập tức cần thiết và cuối cùng sẽ làm tăng thời gian thực hiện. Nói cách khác, các ứng dụng phân tích và truy vấn sẽ chỉ cần truy cập vào các yếu tố dữ liệu cần thiết để đáp ứng điều kiện tham gia. Với bố cục roworiented, toàn bộ hồ sơ phải được đọc theo thứ tự để truy cập các thuộc tính cần thiết, với hơn đáng kể dữ liệu đọc hơn là cần thiết để đáp ứng các yêu cầu. Ngoài ra, việc bố trí hàng theo định hướng thường lệch với các đặc tính của các loại khác nhau của hệ thống bộ nhớ (lõi, bộ nhớ cache, đĩa, vv), dẫn đến tăng độ trễ truy cập. Sau đó, hàng theo định hướng bố trí dữ liệu sẽ không cho phép các loại tham gia hoặc tập hợp điển hình của truy vấn phân tích để thực hiện với mức dự kiến thực hiện (Hình 6.1). Đó là lý do tại sao một số thiết bị phần mềm cho dữ liệu lớn sử dụng một hệ thống quản lý cơ sở dữ liệu sử dụng người thay thế, bố trí cột cho dữ liệu có thể giúp làm giảm các tác động hiệu tiêu cực của độ trễ dữ liệu mà bệnh dịch hạch cơ sở dữ liệu với một bố trí dữ liệu hàng theo định hướng. Các giá trị cho mỗi cột có thể được lưu giữ riêng, và vì điều này, đối với bất kỳ truy vấn, hệ thống có thể truy cập một cách chọn lọc các cụ giá trị cột yêu cầu để đánh giá các điều kiện tham gia. Thay vì yêu cầu chỉ số riêng biệt để chỉnh các truy vấn, dữ liệu giá trị bản thân trong mỗi cột tạo thành các chỉ số. Điều này tăng tốc độ truy cập dữ liệu trong khi giảm các dấu chân cơ sở dữ liệu tổng thể, đồng thời cải thiện đáng kể hiệu suất truy vấn (Hình 6.2). Sự đơn giản của phương pháp tiếp cận cột cung cấp nhiều lợi ích, đặc biệt là cho những người tìm kiếm một môi trường hiệu suất cao để đáp ứng nhu cầu ngày càng tăng của phân tích rất lớn bộ dữ liệu, như có thể được nhìn thấy bởi các khía cạnh ví dụ về hiệu năng thảo luận trong Bảng 6.3. 6.7 XÉT PHƯƠNG ÁN PLATFORM Khi xem xét những cách khác nhau của việc triển khai một môi trường phân tích, các quyết định quan trọng cho đầu tư cơ sở hạ tầng tập trung vào cách thức nền tảng tốt nhất đáp ứng nhu cầu thực hiện dự kiến . Người ta phải sẵn sàng để xác định các biện pháp quan trọng cho hiệu năng hệ thống để đánh giá đúng yêu cầu khả năng mở rộng cho các ứng dụng phân tích nhằm giúp chọn một cách tiếp cận kiến trúc cụ thể. Những lợi ích của việc sử dụng các thiết bị phần cứng cho các trung tâm dữ liệu lớn về kỹ thuật và hội nhập. Chúng được thiết kế để báo cáo hiệu suất cao và phân tích, chưa có một kiến trúc linh hoạt cho phép các thành phần tích hợp phải được cấu hình để đáp ứng nhu cầu ứng dụng cụ thể. (tr58) Và trong khi có một nguồn vốn đầu tư vào máy móc, thiết bị phần cứng là chi phí thấp khi so sánh với đồ sộ các hệ thống phần cứng kho dữ liệu. Một lợi ích của việc sử dụng các thiết bị phần mềm, trong khi đó, họ có thể tận dụng lợi thế của các thành phần phần cứng hàng hóa với chi phí thấp. Ngoài ra, sự phụ thuộc vào phần cứng hàng hóa cho phép một thiết bị phần mềm để được đàn hồi và mở rộng. Tuy nhiên, bạn phải xem xét tất cả các khía cạnh của nhu cầu hiệu suất của các ứng dụng khác nhau: khả năng mở rộng dữ liệu, người sử dụng khả năng mở rộng, truy cập và tốc độ tải, nhu cầu khối lượng công việc cách ly, sự phụ thuộc vào song song và tối ưu hóa, độ tin cậy trong sự hiện diện của những thất bại, sự phụ thuộc vào sự trùng lặp lưu trữ hoặc phân phối dữ liệu và nhân rộng, trong sự kỳ vọng khác. Sau đó kiểm tra xem các nhu cầu hoạt động của các loại khác nhau của các ứng dụng được đề cập bởi mỗi kiến trúc. . Điều này sẽ cung cấp một phương pháp đo lường để đánh giá công nghệ phù hợp các bài tập 6,8 TƯỞNG Với tiền đề của phương pháp tiếp cận để thiết bị kiến trúc, đây là một số câu hỏi và bài tập để suy nghĩ: • Đối với ba loại dữ liệu ứng dụng điển hình nhất lớn, mô tả sự mong đợi của bạn cho nhu cầu lưu trữ dữ liệu , loại thiết bị là tốt nhất, và các nhu cầu quản lý dữ liệu là gì? • Xây dựng một quy mô chấm điểm từ 1 đến 5 (trong đó 1 đại diện cho một nhu cầu thấp và 5 đại diện cho một nhu cầu rất lớn) cho mỗi biến được coi cho các yêu cầu lưu trữ (mở rộng khả năng tiếp cận, khả năng chịu lỗi, I / O tốc độ, integratability). Xếp hạng ba ứng dụng của bạn bằng cách sử dụng quy mô xác định của bạn. • Những biến bạn sẽ xem xét để đánh giá chi phí so sánh và lợi ích của một thiết bị phần mềm so với một thiết bị phần cứng là gì?
đang được dịch, vui lòng đợi..
