Các hành vi hội tụ của nhiều thuật toán phân phối máy học (ML) có thể nhạy với số lượng máy được sử dụng hoặc những thay đổi trong môi trường máy tính. Kết quả là, nhân rộng đến một số lượng lớn các máy móc có thể được thử thách. Trong bài báo này, chúng tôi mô tả một thuật toán mở rộng phối hợp gốc (SCD) mới cho các mô hình tuyến tính tổng quát mà hành vi tụ luôn luôn là như nhau, bất kể bao nhiêu SCD được thu nhỏ lại ra ngoài và không phụ thuộc vào môi trường máy tính. Điều này làm cho SCD rất mạnh mẽ và cho phép nó để mở rộng quy mô để dữ liệu khổng lồ trên các máy chủ hàng chi phí thấp. Kết quả thí nghiệm trên một tập dữ liệu quảng cáo sản tại Google được sử dụng để chứng minh chi phí e? Ectiveness và khả năng mở rộng SCD của. Sử dụng điện toán đám mây nội bộ của Google, chúng ta
thấy rằng SCD có thể cung cấp gần rộng tuyến tính sử dụng hàng nghìn lõi cho 1 nghìn tỷ ví dụ huấn luyện trên một petabyte dữ liệu nén. Điều này thể hiện 10,000x ví dụ huấn luyện nhiều hơn 'quy mô lớn' ix Net giải thưởng tập dữ liệu. Chúng tôi cũng thấy rằng SCD có thể học được một mô hình cho 20 tỷ ví dụ huấn luyện trong hai giờ cho khoảng $ 10.
đang được dịch, vui lòng đợi..