Các phương pháp của MapReduce có thể có vẻ như một phương pháp brute-force. Những tiền đề
là toàn bộ số liệu, hoặc ít nhất là một phần của nó, có thể được xử lý cho mỗi
truy vấn. Nhưng điều này là sức mạnh của nó. MapReduce là một bộ xử lý truy vấn hàng loạt, và khả năng để
chạy một truy vấn đặc biệt đối với toàn bộ dữ liệu của bạn và có được kết quả trong một thời gian hợp lý
là biến đổi. Nó thay đổi cách bạn suy nghĩ về dữ liệu và mở khóa dữ liệu đã được
trước đó lưu trữ trên băng hoặc đĩa. Nó mang đến cho mọi người cơ hội để đổi mới với
dữ liệu. Các câu hỏi mà mất quá lâu để nhận được trả lời trước khi bây giờ có thể được trả lời, mà
lần lượt dẫn đến những câu hỏi mới và những hiểu biết mới.
Ví dụ, Mailtrust, chia tử Rackspace của, sử dụng Hadoop để xử lý email
bản ghi. Một truy vấn quảng cáo hoc họ viết là để tìm sự phân bố địa lý của người dùng của họ.
Trong lời nói của họ:
Những thông tin này rất hữu ích mà chúng tôi đã lên kế hoạch công việc MapReduce chạy hàng tháng và chúng tôi
sẽ sử dụng dữ liệu này để giúp chúng tôi quyết định Rackspace dữ liệu các trung tâm để đặt mail mới
máy chủ trong khi chúng ta lớn.
Bằng cách đưa vài trăm gigabyte dữ liệu với nhau và có các công cụ để phân tích
nó, các kỹ sư Rackspace đã có thể đạt được một sự hiểu biết về những dữ liệu mà họ
nếu không sẽ không bao giờ có, và hơn nữa, họ đã có thể sử dụng những gì họ đã
học được để cải thiện các dịch vụ cho khách hàng của họ.
đang được dịch, vui lòng đợi..