Home Fehlertoleranz Erzielen von Sofortfehlertoleranz für jede Anwendung auf handelsüblicher Hardware: FRAGEN UND ANTWORTEN

Erzielen von Sofortfehlertoleranz für jede Anwendung auf handelsüblicher Hardware: FRAGEN UND ANTWORTEN

von Ali Kafel

Vor einigen Wochen veranstaltete Stratus zusammen mit Light Reading ein Webinar mit dem Titel “Achieving Instantaneous Fault Tolerance for Any Application on Commodity Hardware”, das sich an Telcos und Anbieter von Kommunikationsanwendungen richtete. Die Veranstaltung war sehr erfolgreich, mit 150 Teilnehmern, die sich live eingewählt haben und weiteren 200 Teilnehmern, die sich registriert hatten, aber zu diesem Zeitpunkt nicht teilnehmen konnten. Wir hatten viele Fragen während der Sitzung, von denen einige sofort beantwortet wurden und andere, die aus Zeitgründen unbeantwortet blieben. Dieser Blogbeitrag fasst alle Fragen, die gestellt wurden, und unsere Antworten zusammen.

Bevor wir zu den Fragen und Antworten kommen, lassen Sie mich zunächst everRun in einfachen Worten definieren;

everRun ist eine Software Defined Availability (SDA)-Infrastruktur, die das Fehlermanagement und die automatische Ausfallsicherung von den Anwendungen auf die Software-Infrastruktur verlagert. Dies ermöglicht eine vollständig automatisierte und sofortige Fehlertoleranz für alle Anwendungen, einschließlich Fehlererkennung, -lokalisierung, -isolierung, Servicewiederherstellung, Redundanzwiederherstellung und, falls gewünscht, Statusreplikation – alles ohne Änderungen am Anwendungscode und mit dynamischen Ausfallsicherheitsstufen. Das bedeutet, dass jede Anwendung sofort mit hoher Ausfallsicherheit, mehreren Ebenen des Zustandsschutzes und ultraschneller Wiederherstellung von Diensten bereitgestellt werden kann – auf handelsüblicher Hardware in jedem Netzwerk, ohne die Komplexität, den zeitraubenden Aufwand und das Risiko, das mit der Änderung und dem Testen jeder Anwendung verbunden ist. Aus diesem Grund ist everRun ideal für Kommunikationsanwendungen wie Videoüberwachung, Netzwerkmanagement, Signalisierungsgateways, Firewalls, Netzwerk-Controller und vieles mehr!

Nun zu den Fragen und Antworten:

  • Benötige ich eine separate Linux-Distribution für die Ausführung von everRun?
    • everRun unterstützt mehrere Gastbetriebssysteme, darunter Windows, CentOS Linux und RHEL Linux. everRun wird mit einer eigenen CentOS-Distribution geliefert, die auf einem Bare-Metal-Commodity-Server installiert wird, aber Sie müssen für jede VM ein Betriebssystem (als Gastbetriebssystem) installieren.
  • Was ist, wenn ich eine Mischung aus Windows- und Linux -Anwendungen habe?
    • Das ist kein Problem. Wie bereits erwähnt, können Sie mehrere Gastbetriebssysteme installieren, da everRun den KVM-Hypervisor nutzt, auf dem sich der fehlertolerante Code von Stratus befindet, so dass alle VMs unabhängig vom Gastbetriebssystem nahtlos geschützt werden, ohne dass Änderungen am Anwendungscode erforderlich sind. Einige VMs können Linux, andere Windows auf der gleichen everRun Konfiguration sein.
  • Haben Sie Lösungen für Dinge wie BGP, das auf TCP aufgesetzt ist? (Typischerweise als Non-Stop-Routing bezeichnet)
    • Wir bieten keine Anwendungen an, sondern nur die Softwareplattform, auf der diese Anwendungen laufen. Im Wesentlichen läuft jede Anwendung, die ein beliebiges Protokoll verwendet, das über TCP/IP auf einem beliebigen Gastbetriebssystem läuft, auf everRun.
  • Angenommen, es gibt eine MME-Entität, die ich fehlertolerant machen muss. Wie wird Ihre Availability Engine den internen Zustand der MME-Anwendungen aufrechterhalten? Es könnte mehrere interne Zustände für mehrere Streams geben, die von dieser Entität verwaltet werden.
    • Im Gegensatz zu anwendungsbasierten HA-Lösungen, die Änderungen am Anwendungscode erfordern, erstellt diese Lösung automatisch VM-Paare zwischen Hosts in einer Anti-Affinity-Konfiguration. Das bedeutet, dass der Zustand einer VM (und aller ihrer Anwendungen) regelmäßig und asynchron erfasst wird, basierend auf einem hochentwickelten Stratus StatePoint-Algorithmus, der einen global konsistenten Zustand für alle Anwendungen gewährleistet, die in einem zustandsabhängigen fehlertoleranten Modus bereitgestellt werden. Tritt auf dem primären Server im Zustand “n” eine Störung auf, schaltet das System automatisch auf den sekundären Server um, der automatisch mit dem letzten Zustandspunkt “n” fortfährt, ohne dass es zu einer Unterbrechung oder Beeinträchtigung der Anwendung kommt.
  • Welche Beeinträchtigungen des Service-Levels ergeben sich durch das Hinzufügen der fehlertoleranten Funktionen und des Schutzes innerhalb der Software, z. B. Auswirkungen auf die Latenzzeit, das Sperren von Zuständen oder die Echtzeitverarbeitung?
    • Es gibt zwei Hauptarten von Schutz, die everRun bietet. Eine Anwendung oder Anwendungskomponente kann im fehlertoleranten Modus (FT) bereitgestellt werden, was die höchste Schutzstufe in Bezug auf die gesamte Statusreplikation und die schnelle Wiederherstellungszeit des Dienstes bedeutet. In diesem Szenario beträgt die durchschnittliche “zusätzliche Latenz” für den gesamten Prozess, einschließlich Checkpointing mit der E/A-Barriere, weniger als eine Millisekunde (etwa 750 Mikrosekunden).
  • Wie weit können Aktiv und Standby voneinander entfernt sein?
    • Dies hängt von der Bandbreite der Verbindung zwischen dem primären und dem sekundären Server sowie von der Empfindlichkeit gegenüber Latenzzeiten ab…. Im Allgemeinen jedoch nicht mehr als ein paar Kilometer, da eine größere Entfernung eine längere Ausbreitungsverzögerung bedeutet.
  • Können alle Produkte das fehlertolerante System Stratus nutzen? Gibt es für Produkte, die viele Zustände in ihrer Software verwenden, irgendwelche Herausforderungen, die wir bei der Integration dieser Lösung bewältigen müssten?
    • Jede Anwendung kann auf everRun laufen, solange sie auf Ubuntu, SUSE, CentOS, Red Hat Enterprise Linux (RHEL) oder sogar Windows laufen kann. Während jede Anwendung ein Fehlermanagement benötigt, benötigen nicht alle von ihnen einen Zustandsschutz oder die gleiche Geschwindigkeit bei der Wiederherstellung von Diensten – daher unterstützt everRun mehrere Redundanzstufen – das bedeutet, dass einige Anwendungen, die im FT-Modus laufen, eine vollständige Zustandsredundanz und einen vollständigen Schutz haben, während andere, die im HA-Modus laufen, keinen Zustandsschutz haben, aber automatisch neu gestartet werden, wenn ein Fehler auftritt – dies verbraucht viel weniger Systemressourcen. Selbst innerhalb derselben Anwendung können verschiedene Komponenten einer Anwendung unterschiedliche Redundanzstufen erfordern. Zum Beispiel könnte bei Anwendungen, die auch Datenebenen-Weiterleitungselemente haben (wie vFirewalls und vRouter) und in separate VMs für das Steuerelement (CE) und die Datenebenen-Weiterleitungselemente (FE) aufgeteilt sind, das CE im FT-Modus (Zustandsschutz) laufen, während das FE nur im HA-Modus laufen könnte, was bedeutet, dass es schnell und automatisch neu gestartet wird, wenn es ausfällt. Das bedeutet, dass, solange das CE geschützt ist, ein neues FE ohne Unterbrechung oder Beeinträchtigung des Dienstes neu gestartet wird
  • Welche Änderungen muss ich an meiner Anwendung vornehmen, um everRun zu verwenden?
    • Es sind keine Anwendungsänderungen erforderlich. Jede Anwendung, die in einem der von uns unterstützten Betriebssysteme (Red Hat Enterprise Linux, Ubuntu, SUSE, CentOS oder Windows) läuft, kann problemlos auf everRun (in ihrem Gastbetriebssystem) ausgeführt werden, und everRun schützt diese VMs nahtlos, einschließlich der Statusreplikation, ohne dass die Anwendung bemerkt wird.
  • Ich verstehe, dass ich zwei physische Server benötige. Wenn einer davon ausfällt, woher weiß ich dann, was zu tun ist und was ich tun muss?
    • Fällt ein Server aus, wechselt das System automatisch auf den sekundären Server. Anwendungen, die im FT-Modus laufen, werden automatisch und sehr schnell (innerhalb von Millisekunden) wiederaufgenommen, während die HA-Anwendungen automatisch neu gestartet werden. Es gibt mehrere Möglichkeiten, bei Systemfehlern alarmiert zu werden (SNMP, everRun Manager, E-Mail), so dass fehlerhafte Komponenten repariert werden können.
  • Wie schneidet Ihre Lösung im Vergleich zur FT-Lösung von VMware ab?
    • Stratus ist Marktführer im Bereich der Ausfallsicherheit und nutzt 35 Jahre Erfahrung in der Abstimmung unserer FT-Algorithmen, um die Systemleistung und Ressourcennutzung auf der Grundlage von Tausenden von realen Einsatz-Workloads zu maximieren. Im Allgemeinen ziehen Kunden VMware in Betracht, wenn sie konsolidieren wollen. Wenn sie jedoch Verfügbarkeit und Ausfallsicherheit benötigen, kaufen sie everRun.

VERWANDTE BEITRÄGE