ホーム 可用性 サーバーの停止。より速く回復する方法

サーバーの停止は必ず起こりますし、それは私たちの中でも最も優れた人にも起こります。そうでないと信じることは、エアバッグのない車を運転しているのと同じことです。

2017年、信頼性の高いAmazon Web Services(AWS)では、バックエンドプロバイダーとしてAWSを利用しているすべての企業に影響を与える4時間の障害が発生しました。4時間という時間は、それほど巨大なシステムを復旧させるには、それほど長い時間ではないように思えるかもしれません。しかし、サイトへのアクセスが24時間365日あるNetflixのようなAWSの顧客にとっては、非常に高額な4時間でした。

では、どのようにすれば組織とそのアクセシビリティに依存している顧客を守ることができるのでしょうか?可用性 ソリューション・ベンダーと協力する場合、どのシステムが最速の復旧時間を提供できるかを確立することが重要です。あるいは、サーバーがダウンしても顧客がクラッシュしたことに気づかないようなシステムを選ぶことも重要です。

ダウンタイム防止のためのバイヤーズガイドでは、サーバの故障を含むダウンタイムを防ぐために必要な6つの質問について説明しています。このガイドでは、「サーバに障害が発生した場合、アプリケーションを通常の処理動作に戻すためのプロセスはどのようなもので、どれくらいの時間がかかるか」などの質問をすることを推奨しています。また、このガイドでは、特定のシステムで予想されるダウンタイムのレベルを比較しています。

「スタンドアロン・サーバーに依存している場合、アプリケーションとデータをバックアップからリストアするために必要な高度な人的作業を考えると、復旧時間は数分から数日に及ぶ可能性があります。
高可用性 クラスタでは、サーバー停止中に処理が中断され、ファイルの整合性チェック、データベースのロールバック、可用性 が復旧した後のトランザクションログの再生にかかる時間によって、復旧に数分から数時間かかることがあります。初期の計画段階でクラスタのサイズが正しく設定されていれば、障害が発生したサーバーが停止している間、ユーザーがアプリケーションのパフォーマンスを低下させることはありませんが、通常の処理が再開されると、ジャーナル・ファイルを使用して一部のトランザクションを再実行する必要が生じる場合があります。
フォールトトレラント・ソリューションは、完全に複製されたコンポーネントによってダウンタイムを未然に防ぎ、単一障害点を排除します。プラットフォームによっては、複製されたコンポーネントを自動的に管理し、すべての処理をロックステップで実行します。
複製されたコンポーネントは同じ命令を同時に実行するため、たとえコンポーネントに障害が発生しても、処理が中断されることはありません。これは、スタンドアロン・サーバーやハイ・可用性 ・クラスタとは異なり、フォールトトレラント・ソリューションは、あらゆる問題が解決されている間も機能し続けることを意味します。”

全体をダウンロードする ダウンタイム・プリベンション・バイヤーズガイドをダウンロードして、ダウンタイムを防止するために必要な5つの質問をご覧ください。

関連記事