7,10 MAHOUT(70)Cố gắng sử dụng lớn dữ liệu Analytics sẽ được giới hạn mà không có bất kỳ khả năng phân tích. Mahout là một dự án để cung cấp một thư viện của các hiện thực khả năng mở rộng của máy học thuật toán trên đầu trang của MapReduce và Hadoop. Như được mô tả tại của dự án nhà page6, Mahout của thư viện bao gồm rất nhiều các phương pháp phân tích nổi tiếng bao gồm:• Hợp tác lọc và khác người sử dụng và mục dựa trên các thuật toán, mà được sử dụng để làm cho dự đoán về một cá nhân quan tâm hay sở thích thông qua so sánh với một vô số của những người khác có thể có hoặc không có thể chia sẻ đặc điểm tương tự.• Clustering, bao gồm K-phương tiện, mờ K-có nghĩa là, có nghĩa là thay đổi, và quá trình Dirichlet clustering thuật toán tìm kiếm nhóm, mô hình, và sự tương đồng giữa các cohorts đã chọn trong dân.• Phân loại bằng cách sử dụng rừng ngây thơ Bayes hoặc quyết định để đặt các mục thành đã được xác định loại.• Văn bản khai thác và chủ đề mô hình hóa các thuật toán để quét văn bản và chỉ định nghĩa theo ngữ cảnh.• Thường xuyên mô hình khai thác, mà được sử dụng để phân tích thị trường giá trong giỏ hàng, phân tích so sánh sức khỏe, và các mẫu khác của mối tương quan trong vòng lớn datasets.Mahout cũng hỗ trợ những phương pháp và thuật toán. Sự sẵn có của các thư viện thực hiện cho các loại phân tích miễn phí nhóm phát triển để xem xét các loại của các vấn đề được phân tích và cụ thể hơn, các loại mô hình phân tích có thể được áp dụng để tìm kiếm các câu trả lời tốt nhất.7,11 CÂN NHẮCLớn dữ liệu phân tích ứng dụng sử dụng một loạt các công cụ và kỹ thuật để thực hiện. Khi tổ chức các suy nghĩ của bạn về việc phát triển những ứng dụng, nó là quan trọng để suy nghĩ về các thông số sẽ khung nhu cầu của bạn cho công nghệ đánh giá và mua lại, định cỡ và cấu hình, các phương pháp của tổ chức dữ liệu, và các thuật toán cần thiết để được sử dụng hoặc phát triển từ đầu. Trước khi lặn trực tiếp vào tải về và cài đặt phần mềm, tập trung vào các loại ứng dụng kinh doanh lớn dữ liệu và hiệu suất tương ứng của họ rộng nhu cầu, chẳng hạn như những người được liệt kê trong bảng 7.1. Yêu cầu kỹ thuật sẽ hướng dẫn các cấu hình phần mềm và phần cứng. Điều này cũng cho phép bạn để sắp xếp sự phát triển của các nền tảng với nhu cầu phát triển ứng dụng kinh doanh.7,12 TƯ TƯỞNG BÀI TẬPKhi xem xét các loại công cụ và công nghệ cần thiết để xác thịt ra một lớn dữ liệu ứng dụng phát triển và triển khai thực hiện hệ sinh thái, đây là một số câu hỏi và bài tập để suy nghĩ về:• Cho một ứng dụng đã chọn dữ liệu lớn, mô tả làm thế nào trình có thể được chia thành "khối của công việc" được thực hiện bởi các hồ bơi của bộ vi xử lý.• Tại sao là nó là một ý tưởng tốt cho các nút xử lý để làm việc trên các dữ liệu tại colocated dữ liệu nút?• Xem xét các thành phần Hadoop được diễn tả trong chương này — thảo luận cho dù họ sẽ hoặc sẽ không đầy đủ địa chỉ nhu cầu lớn dữ liệu của bạn.• Có một đề xuất giá trị để chỉ sử dụng HDFS như là một tùy chọn lưu trữ dữ liệu khả năng mở rộng? Làm thế nào này so sánh với một giải pháp lưu trữ truyền thống trong chi phí, bảo mật và tính sẵn sàng?
đang được dịch, vui lòng đợi..
