Giảm công việc không có lợi thế của dữ liệu địa phương; đầu vào cho một nhiệm vụ duy nhất giảm
thường là đầu ra từ tất cả người vẽ bản đồ. Trong ví dụ hiện tại, chúng tôi có một đơn giảm
nhiệm vụ được nuôi dưỡng bởi tất cả các nhiệm vụ bản đồ. Do đó, các kết quả đầu ra bản đồ được sắp xếp phải được
chuyển qua mạng để các nút nơi giảm nhiệm vụ đang chạy, nơi họ
được sáp nhập và sau đó được chuyển sang người dùng định nghĩa làm giảm chức năng. Đầu ra của
giảm thường được lưu trữ trong HDFS cho độ tin cậy. Như đã giải thích ở chương 3, cho mỗi
khối HDFS của giảm sản lượng, các bản sao đầu tiên được lưu trữ trên các nút địa phương, với các
bản sao được lưu trữ trên off-rack nút cho độ tin cậy. Như vậy, văn bản làm giảm sản lượng
làm tiêu tốn băng thông mạng, nhưng chỉ như nhiều như là một bình thường HDFS ghi đường ống
tiêu thụ.
Các luồng dữ liệu toàn bộ với một nhiệm vụ duy nhất giảm được minh họa trong hình 2-3. Các chấm
hộp chỉ ra các nút, các mũi tên nét đứt thể hiện truyền dữ liệu trên một nút, và rắn
mũi tên thể hiện truyền dữ liệu giữa các nút.
đang được dịch, vui lòng đợi..
