7,10 MAHOUT(70)Cố gắng sử dụng lớn dữ liệu Analytics sẽ được giới hạn mà không có bất kỳ khả năng phân tích. Mahout là một dự án để cung cấp một thư viện của các hiện thực khả năng mở rộng của máy học thuật toán trên đầu trang của MapReduce và Hadoop. Như được mô tả tại của dự án nhà page6, Mahout của thư viện bao gồm rất nhiều các phương pháp phân tích nổi tiếng bao gồm:• Hợp tác lọc và khác người sử dụng và mục dựa trên các thuật toán, mà được sử dụng để làm cho dự đoán về một cá nhân quan tâm hay sở thích thông qua so sánh với một vô số của những người khác có thể có hoặc không có thể chia sẻ đặc điểm tương tự.• Clustering, bao gồm K-phương tiện, mờ K-có nghĩa là, có nghĩa là thay đổi, và quá trình Dirichlet clustering thuật toán tìm kiếm nhóm, mô hình, và sự tương đồng giữa các cohorts đã chọn trong dân.• Phân loại bằng cách sử dụng rừng ngây thơ Bayes hoặc quyết định để đặt các mục thành đã được xác định loại.• Văn bản khai thác và chủ đề mô hình hóa các thuật toán để quét văn bản và chỉ định nghĩa theo ngữ cảnh.• Thường xuyên mô hình khai thác, mà được sử dụng để phân tích thị trường giá trong giỏ hàng, phân tích so sánh sức khỏe, và các mẫu khác của mối tương quan trong vòng lớn datasets.Mahout cũng hỗ trợ những phương pháp và thuật toán. Sự sẵn có của các thư viện thực hiện cho các loại phân tích miễn phí nhóm phát triển để xem xét các loại của các vấn đề được phân tích và cụ thể hơn, các loại mô hình phân tích có thể được áp dụng để tìm kiếm các câu trả lời tốt nhất.7.11 CONSIDERATIONSBig data analytics applications employ a variety of tools and techniques for implementation. When organizing your thoughts about developing those applications, it is important to think about the parameters that will frame your needs for technology evaluation and acquisition, sizing and configuration, methods of data organization, and required algorithms to be used or developed from scratch. Prior to diving directly into downloading and installing software, focus on the types of big data business applications and their corresponding performance scaling needs, such as those listed in Table 7.1. The technical requirements will guide both the hardware and the software configurations. This also allows you to align the development of the platform with the business application development needs.7.12 THOUGHT EXERCISESWhen considering the types of tools and technologies necessary to flesh out a big data application development and implementation ecosystem, here are some questions and exercises to ponder:• For a selected big data application, describe how the process can be divided up into “chunks of work” to be performed by the pool of processors.• Why is it a good idea for the processing nodes to work on data at colocated data nodes?• Review the Hadoop components described in this chapter—discuss whether they will or won’t adequately address your big data needs.• Có một đề xuất giá trị để chỉ sử dụng HDFS như là một tùy chọn lưu trữ dữ liệu khả năng mở rộng? Làm thế nào này so sánh với một giải pháp lưu trữ truyền thống trong chi phí, bảo mật và tính sẵn sàng?
đang được dịch, vui lòng đợi..