服务器故障时有发生,谁都可能遇到。如果不以为然,就相当于开一辆没有安全气囊的汽车,只因制造商承诺他们的汽车永远不会撞车。
2017年,一向可靠的亚马逊网络服务(AWS)经历了4个小时的中断,这影响了所有将 AWS 作为后端供应商的企业。对于恢复一个如此庞大的系统来说,4个小时似乎并不很长。但是,对于像 Netflix 这样的 AWS 客户来说,由于他们需要全天候提供服务,这4个小时造成的代价则极其昂贵。
那么,您应如何保障您的组织和依赖其可访问性的客户?在与可用性解决方案供应商合作时,找出能够提供最快恢复时间的系统最为重要。或者最好是选择一个系统,即使服务器宕机,也不会让您的客户感到故障。
预防宕机的买方指南讨论了你应该问的六个问题,以防止停机–包括服务器故障。该指南建议提出这样的问题:”在服务器发生故障的情况下,将应用程序恢复到正常处理操作的过程是什么,需要多长时间?”该指南还比较了特定系统可预期的不同程度的停机时间。
“如果你依靠独立的服务器,鉴于从备份中恢复应用程序和数据所需的高水平的人际互动,你的恢复时间可能从几分钟到几天不等–前提是你已经定期备份了你的系统。
对于高可用性集群,在服务器中断期间,处理会被打断,恢复可能需要几分钟到几小时,这取决于检查文件完整性、回滚数据库、以及在恢复可用性后重放交易日志所需的时间。如果集群在最初规划阶段的规模是正确的,那么在有问题的服务器停止运行时,用户不应该经历较慢的应用性能;但是,一旦恢复正常处理,他们可能需要使用日志文件重新运行一些交易。
容错解决方案通过完全复制的组件主动防止停机,消除任何单点故障。一些平台自动管理其复制的组件,以锁步方式执行所有处理。
由于复制的组件在同一时间执行相同的指令,因此,即使一个组件出现故障,处理也不会中断。这意味着,与独立的服务器或高可用性集群不同,容错解决方案在解决任何问题的同时继续运作。
下载整个 防止停机的买方指南并发现你应该问的其余五个问题以防止停机。