Như chúng ta chuyển từ hệ thống petascale để hệ thống exascale, số lượng các thành phần hệ thống sẽ được
tăng nhanh hơn so với độ tin cậy phần, với dự trong phút hoặc giây cho hệ thống exascale. Từ những kiến thức và quan sát của hệ thống lớn hiện có hiện nay, người ta dự đoán rằng hệ thống exascale sẽ được trải nghiệm các loại khác nhau của các đứt gãy nhiều lần mỗi ngày. Tăng điểm bằng chứng để nhiều lỗi im lặng (Sửa lỗi mà không bao giờ bị phát hiện, hoặc được phát hiện rất lâu sau khi họ đã tạo ra kết quả sai), gây ra sự tàn phá mà sẽ chỉ nhận được nhiều vấn đề như số lượng các thành phần tăng với hệ thống exascale. Hệ thống chạy 100 triệu nhân sẽ liên tục nhìn thấy những thất bại cốt lõi và các công cụ để đối phó với họ sẽ phải rethought.The tiếp cận hiện nay cho khả năng phục hồi, mà dựa vào trạm kiểm soát mức độ tự động hoặc ứng dụng / khởi động lại, sẽ không làm việc vì thời gian cho checkpointing và khởi động lại sẽ vượt quá thời gian trung bình để thất bại (MTTF) của một hệ thống đầy đủ. Điều này đặt các dự là một thách thức khó khăn: việc tìm kiếm những phương cách mới để chạy các ứng dụng cho đến khi chấm dứt bình thường của họ, mặc dù bản chất không ổn định dự của các hệ thống exascale. Khả năng cho một nhà khoa học để thực hiện tiến bộ về phía trước sẽ rất khó khăn trừ khi phương pháp thay thế để phục hồi lỗi được cung cấp mà không liên quan đến trạm kiểm soát / restart.Currently, có tiến bộ kỹ thuật bắt đầu trong một số lĩnh vực. Chúng bao gồm các cải tiến phần cứng và độ tin cậy phần mềm, sự hiểu biết tốt hơn về các nguyên nhân gốc rễ của việc thu thập và phân tích RAS và, thêm vào đó, thuật toán đàn hồi lỗi và các ứng dụng để hỗ trợ các nhà phát triển ứng dụng, và phục hồi địa phương và di cư. Mục tiêu của nghiên cứu này là để cải thiện thời gian trung bình cho ngắt (MTTI) bởi> 100x, để các ứng dụng có thể chạy trong nhiều giờ. Một mục tiêu khác là cải thiện bởi một nhân tố của 10X độ tin cậy phần cứng và cải thiện bởi một nhân tố của 10X sự phục hồi của địa phương và di chuyển dữ liệu.
đang được dịch, vui lòng đợi..
