Chúng tôi tạo ra datasets khác nhau từ một bản gốc bằng cách chiết một subpart hoặc bằng cách thêm liên kết để kiểm tra cấu hình có từ 100 k đến 300 triệu liên kết. Sơ bộ thí nghiệm đã chỉ ra rằng số nút đã không có tác động về thời gian thực hiện. Bởi vì điểm số được tuyên truyền thông qua họ, số lượng các trung gian MapReduce khóa-giá trị cặp là phụ thuộc vào số lượng các liên kết. Hơn nữa, thời gian thực hiện của lặp đi lặp lại duy nhất là cự ly khoảng tương tự cho một cấu hình nhất định vì các thuật toán làm chính xác quá trình cùng một lúc mỗi iteration.Trong hình 4, cấu hình của các nhóm khác nhau với các con số khác nhau của các nút nô lệ. Như lập luận trước đó, số lượng các liên kết rất cao tác động về thời gian thực hiện. Bởi vì trục x có quy mô lôgarít, các đường cong có vẻ mũ nhưng họ gần như tuyến tính với các sườn núi khác nhau (ngoại trừ côn-figurations có số liên kết). Ví dụ, thời gian thực hiện nhân của khoảng 6 khi số lượng các liên kết được nhân với 10 với 8 nô lệ. Rõ ràng, là khi thêm máy làliên quan để chạy các tác vụ, thời gian thực hiện giảm. Với số liên kết, sự khác biệt là nhỏ như đánh dấu trong hình 4(b). Trong thực tế, điều phối công việc bằng cách sử dụng MapReduce đòi hỏi rất nhiều nhiệm vụ bổ sung (dữ liệu tách, giảm bớt giai đoạn) và cũng có thêm một số sự chậm trễ do mạng truyền thông. Vì vậy, đối với vấn đề với số liên kết và tính toán quá ít, MapRe-duce là vô ích. Thí nghiệm của chúng tôi cho thấy rằng bằng cách sử dụng Hadoop (#slaves > 1) là hữu ích với ít nhất 1 triệu liên kết (hình4(b)) và có nhiều hơn 4 nô lệ máy là hiệu quả với các liên kết ít nhất 10 triệu trường hợp với số liệu ban đầu (57 triệu). Cuối cùng, bằng cách sử dụng tất cả các máy của chúng tôi làm giảm thời gian thực hiện 7 so với một máy tính duy nhất với một tập dữ liệu lớn kể từ khi tỷ lệ này dường như ổn định liên kết 100 triệu trở lên.
đang được dịch, vui lòng đợi..
