Nhớ lại những từ vựng cho sẵn từ Chương 4. Một thất bại xảy ra khi hệ thống không còn cung cấp một dịch vụ cho phù hợp với đặc điểm kỹ thuật của nó; sự thất bại này là quan sát bởi người sử dụng của hệ thống. Một lỗi (hoặc kết hợp các lỗi) có khả năng gây ra một sự thất bại. Nhớ lại cũng phục hồi, sửa chữa là một khía cạnh quan trọng của tính sẵn sàng. Các chiến thuật chúng tôi thảo luận trong phần này sẽ giữ cho lỗi từ trở thành thất bại hoặc ít nhất là ràng buộc những ảnh hưởng của các lỗi và làm cho sửa chữa tốt. Chúng tôi chứng minh điều này trong hình 5.2. Hình 5.2. Mục tiêu của chiến thuật sẵn có Nhiều người trong số các chiến thuật, chúng tôi thảo luận có sẵn trong môi trường thực hiện tiêu chuẩn như hệ điều hành, máy chủ ứng dụng, và các hệ thống quản lý cơ sở dữ liệu. Nó vẫn là quan trọng để hiểu được chiến thuật được sử dụng để các hiệu ứng của việc sử dụng một cụ thể có thể được xem xét trong thiết kế và đánh giá. Tất cả các phương pháp để duy trì tính sẵn sàng liên quan đến một số loại dư thừa, một số loại hình y tế giám sát để phát hiện một sự thất bại, và một số loại phục hồi khi có sự cố. Trong một số trường hợp, giám sát hoặc phục hồi là tự động và trong những người khác nó là thủ công. Chúng tôi xem xét đầu tiên phát hiện lỗi. Sau đó chúng tôi xem xét phục hồi lỗi và cuối cùng, một thời gian ngắn, lỗi phòng. LỖI PHÁT HIỆN chiến thuật Ba sử dụng rộng rãi cho những lỗi nhận được ping / echo, nhịp tim, và trường hợp ngoại lệ. Ping / echo. Một phần vấn đề một ping và hy vọng sẽ nhận lại một tiếng vang, trong một thời gian định sẵn, từ các thành phần được nghiên cứu kỹ. Điều này có thể được sử dụng trong một nhóm các thành phần chịu trách nhiệm lẫn nhau đối với một nhiệm vụ. Nó cũng có thể được sử dụng được sử dụng bởi khách hàng để đảm bảo rằng một đối tượng máy chủ và đường truyền đến máy chủ đang hoạt động trong các hoạt động mong muốn giới hạn. "Ping / echo" dò lỗi có thể được tổ chức theo một hệ thống phân cấp, trong đó một mức độ thấp nhất ping dò phần mềm quy trình mà nó chia sẻ một bộ xử lý, và các cấp cao hơn các máy dò lỗi ping những cấp thấp hơn. Này sử dụng ít băng thông truyền thông hơn so với một máy dò lỗi từ xa mà ping tất cả các quy trình. Heartbeat (timer người đàn ông đã chết). Trong trường hợp này một phần phát ra một thông báo nhịp tim định kỳ và các thành phần khác lắng nghe cho nó. Nếu nhịp tim không thành, các thành phần có nguồn gốc được giả định đã thất bại và một thành phần sửa lỗi được thông báo. Nhịp tim cũng có thể mang dữ liệu. Ví dụ, một máy rút tiền tự động định kỳ có thể đăng nhập gửi của người cuối cùng giao dịch với một máy chủ. Thông điệp này không chỉ đóng vai trò như một nhịp tim mà còn mang dữ liệu được xử lý. Trường hợp ngoại lệ. Một phương pháp để nhận biết lỗi là gặp phải một ngoại lệ, được nâng lên khi một trong các lớp lỗi chúng ta đã thảo luận trong chương 4 được công nhận. Việc xử lý ngoại lệ thường thực hiện trong cùng một quá trình mà giới thiệu các trường hợp ngoại lệ. Các chiến thuật ping / echo và nhịp tim hoạt động giữa các quá trình khác biệt, và các chiến thuật ngoại lệ hoạt động trong một quá trình duy nhất. Việc xử lý ngoại lệ thường sẽ thực hiện một chuyển đổi ngữ nghĩa của đứt gãy thành một dạng có thể được xử lý. Tài liệu này được tạo ra bởi một ChmMagic chưa đăng ký, vui lòng vào http://www.bisenter.com để đăng ký nó. Cảm ơn. FAULT RECOVERY phục hồi lỗi bao gồm việc chuẩn bị cho việc phục hồi và làm cho việc sửa chữa hệ thống. Một số chiến thuật chuẩn bị và sửa chữa theo. Voting. Tiến trình đang chạy trên bộ vi xử lý dự phòng từng có đầu vào tương đương và tính toán một giá trị đầu ra đơn giản đó được gửi đến một cử tri. Nếu cử tri phát hiện hành vi lệch lạc từ một bộ xử lý duy nhất, nó không thành công nó. Các thuật toán có quyền biểu quyết có thể được "quy tắc đa số" hay "thành phần ưa thích" hoặc một số thuật toán khác. Phương pháp này được sử dụng để sửa lỗi hoạt động của các thuật toán hay thất bại của một bộ xử lý và thường được sử dụng trong các hệ thống điều khiển. Nếu tất cả các bộ vi xử lý sử dụng các thuật toán tương tự, sự dư thừa chỉ phát hiện một lỗi xử lý và không phải là một lỗi thuật toán. Như vậy, nếu hậu quả của một sự thất bại là cực đoan, chẳng hạn như khả năng mất cuộc sống, các thành phần dư thừa có thể được đa dạng. Một cực đoan của sự đa dạng là phần mềm cho mỗi thành phần dư thừa được phát triển bởi đội bóng khác nhau và thực hiện trên các nền tảng khác nhau. Ít cực đoan hơn là phát triển một phần mềm duy nhất trên các nền tảng khác nhau. Đa dạng là tốn kém để phát triển và duy trì và chỉ được sử dụng trong trường hợp đặc biệt, chẳng hạn như sự kiểm soát của các bề mặt trên máy bay. Nó thường được sử dụng cho hệ thống điều khiển trong đó các kết quả đầu ra để các cử tri là đơn giản và dễ dàng để phân loại là tương đương hoặc tà, các tính toán là cyclic, và tất cả các thành phần dư thừa nhận đầu vào tương đương từ các cảm biến. Đa dạng không có thời gian chết khi thất bại xảy ra kể từ khi các cử tri tiếp tục hoạt động. Những thay đổi trong cách tiếp cận này bao gồm các phương pháp Simplex, mà sử dụng kết quả của một "ưa thích" thành phần, trừ khi họ đi chệch khỏi những người của một thành phần "tin cậy", mà nó trì hoãn. Đồng bộ hóa giữa các thành phần dư thừa là tự động bởi tất cả đều giả định là tính toán trên cùng một đầu vào song song. dự phòng hoạt động (restart nóng). Tất cả các thành phần không cần thiết đáp ứng với các sự kiện song song. Do đó, họ là tất cả trong cùng một nhà nước. Những phản ứng từ chỉ có một thành phần được sử dụng (thường là người đầu tiên trả lời), và phần còn lại sẽ bị loại bỏ. Khi một lỗi xảy ra, thời gian chết của hệ thống bằng cách sử dụng chiến thuật này thường là vài phần nghìn giây kể từ khi sao lưu là hiện tại và thời gian duy nhất để phục hồi là thời gian chuyển đổi. Hoạt động dự phòng thường được sử dụng trong một cấu hình client / server, chẳng hạn như quản lý cơ sở dữ liệu hệ thống, nơi phản ứng nhanh là cần thiết ngay cả khi có một lỗi xảy ra. Trong một hệ thống phân phối sẵn sàng cao, các dự phòng có thể ở đường dẫn truyền thông. Ví dụ, nó có thể là mong muốn sử dụng một mạng LAN với một số đường dẫn song song và đặt mỗi thành phần dư thừa trong một con đường riêng biệt. Trong trường hợp này, một cầu hoặc đường dẫn thất bại duy nhất sẽ không làm cho tất cả các thành phần của hệ thống không có. Đồng bộ hóa được thực hiện bằng cách đảm bảo rằng tất cả các tin nhắn đến bất kỳ thành phần dư thừa được gửi đến tất cả các dư thừa các thành phần. Nếu giao tiếp có khả năng bị mất (vì đường dây thông tin ồn ào hoặc quá tải), một đáng tin cậy giao thức truyền dẫn có thể được sử dụng để phục hồi. Một giao thức truyền tin cậy yêu cầu tất cả người nhận để xác nhận đã nhận cùng với một số dấu hiệu cho thấy toàn vẹn như một checksum. Nếu người gửi không thể xác minh rằng tất cả những người nhận đã nhận được tin nhắn, nó sẽ gửi lại tin nhắn cho những thành phần không thừa nhận biên lai. Việc gửi lại tin nhắn unreceived (có thể qua con đường truyền thông khác nhau) tiếp tục cho đến khi người gửi đánh dấu sự tiếp nhận, tính ra khỏi dịch vụ. dự phòng Passive (khởi động lại ấm / dual thừa / triple dự phòng). Một thành phần (tiểu học) phản ứng với các sự kiện và thông báo cho các thành phần khác (dự phòng) của sản nhà nước họ phải làm. Khi một lỗi xảy ra, hệ thống đầu tiên phải đảm bảo rằng trạng thái dự phòng là đủ tươi trước khi nối lại dịch vụ. Phương pháp này cũng được sử dụng trong các hệ thống điều khiển, thường khi các yếu tố đầu vào đi qua các kênh thông tin liên lạc hoặc từ các cảm biến và phải được chuyển từ tiểu học đến các sao lưu trên thất bại. Chương 6, mô tả một ví dụ kiểm soát không lưu, cho thấy một hệ thống sử dụng nó. Trong hệ thống kiểm soát không lưu, những thứ quyết định khi nào lấy lên từ tiểu học, nhưng trong các hệ thống khác quyết định này có thể được thực hiện trong các thành phần khác. Chiến thuật này phụ thuộc vào các thành phần dự phòng đảm nhận đáng tin cậy. Switchovers buộc định kỳ, ví dụ, một lần một ngày hoặc một lần một tuần tăng sự sẵn có của hệ thống. Một số hệ thống cơ sở dữ liệu buộc một switch với lưu trữ của mỗi mới mục dữ liệu. Các mục dữ liệu mới được lưu trữ trong một trang bóng và các trang cũ sẽ trở thành một bản sao lưu để phục hồi. Trong trường hợp này, thời gian chết thường có thể được hạn chế đến giây. Đồng bộ hóa là trách nhiệm của các thành phần chính, trong đó có thể sử dụng chương trình phát sóng nguyên tử để secondaries để đảm bảo đồng bộ hóa. Phụ. Một nền tảng điện toán tùng chế độ chờ được cấu hình để thay thế nhiều thành phần khác nhau thất bại. Nó phải được khởi động lại với các cấu hình phần mềm phù hợp và có trạng thái của nó được khởi tạo khi có sự cố xảy ra. Làm một trạm kiểm soát của hệ thống nhà nước với một thiết bị liên tục định kỳ và đăng nhập tất cả các thay đổi trạng thái để cho phép một thiết bị liên tục cho các phụ tùng được thiết lập để các chính quyền tiểu bang. Điều này thường được sử dụng như các máy trạm client chờ, nơi người dùng có thể di chuyển khi có sự cố xảy ra. Các thời gian chết cho chiến thuật này thường là phút. Có vài thủ thuật để sửa chữa mà dựa vào thành phần tái áp. Khi một thành phần dư thừa không, nó có thể được giới thiệu lại tài liệu này đã được tạo ra bởi một ChmMagic chưa đăng ký, vui lòng vào http://www.bisenter.com để đăng ký nó. Cảm ơn. sau khi nó đã được sửa chữa. Chiến thuật như vậy là hoạt động bóng, đồng bộ hoá lại nhà nước, và rollback. với Shadow hoạt động. Một thành phần không thành công trước đó có thể được chạy trong chế độ "bóng tối" trong một thời gian ngắn để đảm bảo rằng nó bắt chước các hành vi của các thành phần làm việc trước khi khôi phục nó để phục vụ. resynchronization Nhà nước. Các chiến thuật dự phòng thụ động và chủ động đòi hỏi các thành phần đang được khôi phục trạng thái của nó đã nâng cấp trước khi trở về với dịch vụ. Phương pháp cập nhật sẽ phụ thuộc vào thời gian chết có thể được duy trì, kích thước của các bản cập nhật, và số tin nhắn cần thiết cho việc cập nhật. Một tin nhắn đơn chứa nhà nước là thích hợp hơn, nếu có thể. Nâng cấp nhà nước gia tăng, với các thời kỳ dịch vụ giữa gia, dẫn đến các phần mềm phức tạp. Checkpoint / rollback. Một trạm kiểm soát là một ghi âm của một nhà nước thống nhất tạo ra hoặc định kỳ hoặc phản ứng với cụ thể các sự kiện. Đôi khi một hệ thống bị lỗi trong một cách không bình thường, với một nhà nước detectably không phù hợp. Trong trường hợp này, hệ thống sẽ được phục hồi bằng cách sử dụng một trạm kiểm soát trước đó của một nhà nước thống nhất và một bản ghi của giao dịch đã xảy ra kể từ khi snapsh
đang được dịch, vui lòng đợi..