Tất cả các bộ dữ liệu với các phím cùng phải kết thúc trong cùng một phân vùng, xử lý các nhiệm vụ tương tự. Để đáp ứng các hoạt động này, Spark phải thực hiện RDD shuffling, mà truyền dữ liệu trên cluster và kết quả trong một giai đoạn mới với một tập mới của các phân vùng
đang được dịch, vui lòng đợi..
