サーバーの停止は必ず起こりますし、それは私たちの中でも最も優れた人にも起こります。そうでないと信じることは、エアバッグのない車を運転しているのと同じことです。
2017年、信頼性の高いAmazon Web Services(AWS)では、バックエンドプロバイダーとしてAWSを利用しているすべての企業に影響を与える4時間の障害が発生しました。4時間という時間は、それほど巨大なシステムを復旧させるには、それほど長い時間ではないように思えるかもしれません。しかし、サイトへのアクセスが24時間365日あるNetflixのようなAWSの顧客にとっては、非常に高額な4時間でした。
では、どのようにして組織とそのアクセシビリティに依存している顧客を保護するのでしょうか?アベイラビリティ・ソリューション・ベンダーと連携する際には、どのシステムが最速の復旧時間を提供するかを確立することが重要です。あるいは、サーバがダウンしたときに車がクラッシュしたことに顧客が気づかないようにするためには、どのシステムを利用するのがベストでしょうか。
ダウンタイム防止のためのバイヤーズガイドでは、サーバの故障を含むダウンタイムを防ぐために必要な6つの質問について説明しています。このガイドでは、「サーバに障害が発生した場合、アプリケーションを通常の処理動作に戻すためのプロセスはどのようなもので、どれくらいの時間がかかるか」などの質問をすることを推奨しています。また、このガイドでは、特定のシステムで予想されるダウンタイムのレベルを比較しています。
スタンドアロンサーバに依存している場合、アプリケーションやデータをバックアップから復元するためには、定期的にシステムをバックアップしていたとしても、高度な人手が必要となるため、復旧時間は数分から数日に及ぶ可能性があります」と述べています。
高可用性クラスタでは、サーバ停止時に処理が中断され、可用性が回復した後にファイルの整合性をチェックし、データベースをロールバックし、トランザクションログを再生するのに必要な時間に応じて、数分から数時間の回復が必要になります。クラスタの初期計画段階で適切なサイズを設定していれば、障害のあるサーバが停止している間でも、ユーザのアプリケーションパフォーマンスが低下することはありませんが、通常の処理が再開された後、ジャーナルファイルを使用して一部のトランザクションを再実行する必要があるかもしれません。
フォールト・トレラント・ソリューションは、完全に複製されたコンポーネントにより、単一障害点を排除してダウンタイムを未然に防ぎます。一部のプラットフォームでは、複製されたコンポーネントを自動的に管理し、すべての処理をロックステップで実行します。
複製されたコンポーネントは同じ命令を同時に実行するため、コンポーネントに障害が発生しても処理が中断されることはありません。つまり、スタンドアロンのサーバーや高可用性クラスタとは異なり、フォールト・トレラント・ソリューションは問題が解決されるまで機能し続けるのです。
全体をダウンロードする ダウンタイム・プリベンション・バイヤーズガイドをダウンロードして、ダウンタイムを防止するために必要な5つの質問をご覧ください。