归宿 容错 面向商用硬件上任何应用,实现瞬时容错:问与答

面向商用硬件上任何应用,实现瞬时容错:问与答

作者: Ali Kafel

几周前,Stratus 与 Light Reading 共同举办了一场名为“面向商用硬件上任何应用,实现瞬时容错”的网络研讨会,目标受众是电信运营商和通信应用提供商。这次活动非常成功,共有150名与会者线上参与了活动,另外还有200名意向人员进行了注册,但未能在特定时间参加。会议期间,我们收到了很多提问,其中我们现场解答了部分问题,另外一些问题由于时间限制尚未得到解答。本篇博文总结我们收到的所有提问以及我们的解答。

在进入问答环节之前,让我先简单定义下 everRun。

everRun是一个软件定义的可用性(SDA)基础设施,将故障管理和自动故障切换从应用程序转移到软件基础设施。这为所有应用程序提供了完全自动化和完整的即时容错,其中包括故障检测、定位、隔离、服务恢复、冗余恢复,以及如果需要的话,状态复制–所有这些都不需要改变应用程序代码,并具有动态的弹性水平。 这意味着任何应用都可以在任何网络中的商用现成(COTS)硬件上即时部署,具有高弹性、多层次的状态保护和超快的服务恢复速度,而无需修改和测试每个应用的复杂性、耗时和风险。这就是为什么everRun 是通信应用的理想选择,包括视频监控、网络管理、信号网关、防火墙、网络控制器等

现在,进入问答环节。

  • 我是否需要单独的 Linux 发行版来运行 everRun?
    • everRun 支持多种客户机操作系统,包括 Windows、CentOS Linux 和 RHEL Linux。everRun 自带 CentOS 发行版,可以安装在裸机商品服务器上,但您需要为每个虚拟机安装一个操作系统(作为客户机操作系统)。
  • 如果我有 Windows 和 Linux 混合的应用程序怎么办?
    • 没问题。正如我们所说,你可以安装多个客户操作系统,因为everRun 利用KVM管理程序,其中Stratus 容错代码驻留,所以所有的虚拟机,无论客户操作系统如何,都将受到无缝保护,而不需要改变应用程序代码。一些虚拟机可以是Linux,其他Windows在同一个everRun 配置。
  • 您是否有传输层之上的BGP层的解决方案?(一般称为非停止路由)
    • 我们不提供应用程序,只提供运行这些应用程序的软件平台。基本上,任何使用 TCP/IP 协议在任何客户操作系统上运行的应用程序都可以在 everRun 上运行。
  • 假设有一个MME实体,我需要使其具有容错性,你的可用性引擎将如何维护MME的应用内部状态?这个实体可能有多个流的内部状态,由这个实体来维护。
    • 与需要修改应用代码的基于应用的HA解决方案不同,该解决方案在反亲和配置中的主机之间自动创建虚拟机对。这意味着虚拟机(及其所有应用程序)的状态被定期和异步地捕获,基于高度复杂的Stratus StatePoint算法,确保在有状态容错模式下部署的所有应用程序的状态全球一致。如果主服务器在状态 “n “处发生故障,系统会自动切换到次要服务器,次要服务器从最近的状态点 “n “处自动恢复,不会出现任何应用中断或退化。
  • 通过在软件内增加容错功能和保护,服务水平的下降往往是什么,如对延迟、状态锁定或实时处理的影响?
    • everRun ,有两种主要的保护类型。一个应用程序或应用程序组件可以部署在容错(FT)模式下,这意味着在总状态复制和快速服务恢复时间方面的最高保护水平。在这种情况下,整个过程的平均总 “附加延迟”,包括带有I/O屏障的检查点,小于一毫秒(约750微秒)。
  • 主机和备用机可以相隔多远?
    • 这取决于主服务器和副服务器之间的链接带宽以及对延迟的敏感性….。但一般不超过几英里,因为更长的距离意味着更长的传播延迟。
  • 所有的产品都可以使用Stratus 容错系统吗?对于在其软件内使用大量状态的产品,我们在整合这一解决方案时是否会面临任何挑战?
    • 能够在 Ubuntu、SUSE、CentOS、Red Hat Enterprise Linux (RHEL)甚至 Windows上运行的任何应用程序,都可以在 everRun 上运行 。虽然每个应用程序都需要故障管理,但并不是所有的应用程序都需要状态保护,也不是所有的应用程序都需要同样的服务恢复速度–因此,everRun 支持多级冗余–这意味着一些在容错模式下运行的应用程序将拥有完整的状态冗余和保护,而另一些在高可用模式下运行的应用程序则没有状态保护,但在出现故障时将自动重启–这就减少了很多系统资源的使用。即使在同一个应用中,应用的不同组件也可能需要不同级别的冗余。例如,对于同时具有数据层转发元素(如 vFirewalls 和 vRouters)的应用,并将控制元素(CE)和数据层转发元素(FE)去组件化为独立的虚拟机,CE 可以在容错模式下运行(状态保护),而 FE 可以只在高可用模式下运行,这意味着它将在发生故障时快速自动重启。这意味着只要 CE 受到保护,新的 FE 将被重新启动,而不会中断或降低服务。
  • 如果选择 everRun ,我需要对应用程序作出哪些修改?
    • 无需更改应用程序。在我们支持的任何操作系统(Red Hat Enterprise Linux、Ubuntu、SUSE、CentOS 或 Windows)中运行的任何应用程序都可以在 everRun (在他们的客体操作系统中)上正常运行,everRun 将无缝保护这些虚拟机,包括状态复制,而无需应用感知。
  • 我理解需要两台物理服务器,若其中一台出现故障,我怎么才能知道,而且我需要做什么呢?
    • 如果其中一个出现故障,系统将自动故障切换到辅助服务器。在FT模式下运行的应用程序将自动和非常迅速地(在几毫秒内)恢复,而HA应用程序将自动重新启动。有多种方法可以提醒系统故障(SNMP、everRun Manager、电子邮件),以便对故障组件进行维修。
  • 你们的解决方案与 VMware FT 解决方案相比如何?
    • Stratus 是弹性方面的市场领导者,利用35年的领域专业知识,根据成千上万的实际部署工作负载,调整我们的FT算法,使系统性能和资源利用最大化。一般来说,客户在整合时考虑使用VMware。但当他们需要可用性和弹性时,他们会购买everRun 。

相关文章