Home Tolérance aux fautes Atteindre une tolérance instantanée aux pannes pour toute application sur du matériel informatique de base : QUESTIONS ET RÉPONSES

Atteindre une tolérance instantanée aux pannes pour toute application sur du matériel informatique de base : QUESTIONS ET RÉPONSES

par Ali Kafel

Il y a quelques semaines, Stratus a organisé un webinaire avec Light Reading intitulé “Achieving Instantaneous Fault Tolerance for Any Application on Commodity Hardware” destiné aux fournisseurs d’applications de télécommunications et de communications. L’événement a connu un grand succès, avec 150 participants composant en direct et 200 participants supplémentaires qui se sont inscrits mais n’ont pas pu assister à ce moment précis. Nous avons eu de nombreuses questions pendant la session, dont certaines ont reçu une réponse à ce moment-là et d’autres sont restées sans réponse en raison de contraintes de temps. Ce billet de blog résume toutes les questions qui ont été posées et nos réponses.

Avant d’en arriver aux questions-réponses, permettez-moi d’abord de définir everRun en termes simples ;

everRun est une infrastructure de disponibilité définie par logiciel (SDA) qui déplace la gestion des pannes et le basculement automatique des applications vers l’infrastructure logicielle. Cela permet une tolérance aux pannes instantanée, complète et entièrement automatisée pour toutes les applications, qui comprend la détection, la localisation, l’isolation, la restauration du service, la restauration de la redondance et, si nécessaire, la réplication de l’état, le tout sans modification du code de l’application et avec des niveaux dynamiques de résilience. Cela signifie que n’importe quelle application peut être instantanément déployée avec une haute résilience, plusieurs niveaux de protection d’état et une vitesse de restauration de service ultra rapide – sur du matériel commercial (COTS) dans n’importe quel réseau, sans la complexité, les efforts fastidieux et les risques associés à la modification et au test de chaque application. C’est pourquoi everRun est idéal pour les applications de communication qui incluent la surveillance vidéo, la gestion de réseau, les passerelles de signalisation, les pare-feu, les contrôleurs de réseau et plus encore !

Maintenant, passons aux questions-réponses :

  • Ai-je besoin d’une distribution Linux séparée pour fonctionner everRun?
    • everRun prend en charge plusieurs systèmes d’exploitation invités, dont Windows, CentOS Linux et RHEL Linux. everRun est livré avec sa propre distribution CentOS qui s’installe sur un serveur de base en métal nu, mais vous devrez installer un système d’exploitation (en tant que système invité) pour chaque VM.
  • Que faire si j’ai un mélange d’applications Windows et Linux ?
    • Aucun problème. Comme nous l’avons indiqué, vous pouvez installer plusieurs systèmes d’exploitation invités car everRun exploite l’hyperviseur KVM où réside le code de tolérance aux pannes de Stratus . Ainsi, toutes les machines virtuelles, quel que soit le système d’exploitation invité, seront protégées de manière transparente sans qu’il soit nécessaire de modifier le code de l’application. Certaines VM peuvent être Linux, d’autres Windows sur la même configuration everRun .
  • Avez-vous des solutions pour des choses comme le BGP qui est superposé au TCP ? (Généralement appelé routage non stop)
    • Nous ne proposons pas d’applications, mais seulement la plate-forme logicielle qui les fait fonctionner. Essentiellement, toute application qui utilise un protocole qui fonctionne sur TCP/IP sur un système d’exploitation invité s’exécutera sur everRun.
  • En supposant qu’il existe une entité MME que je dois rendre tolérante aux pannes, comment votre moteur de disponibilité maintiendra-t-il l’état interne des applications MME ? Il pourrait y avoir plusieurs états internes pour plusieurs flux qui sont maintenus par cette entité.
    • Contrairement aux solutions HA basées sur les applications qui nécessitent des modifications du code applicatif, cette solution crée automatiquement des paires de VM entre les hôtes dans une configuration anti-affinité. Cela signifie que l’état d’une VM (et de toutes ses applications) est capturé régulièrement et de manière asynchrone, sur la base d’un algorithme StatePoint hautement sophistiqué Stratus qui garantit un état globalement cohérent pour toutes les applications déployées dans un mode de tolérance aux pannes avec état. Si une panne survient sur le serveur primaire à l’état “n”, le système bascule automatiquement sur le serveur secondaire qui reprend automatiquement à partir du point d’état le plus récent, “n”, sans aucune interruption ou dégradation de l’application.
  • Quelle est la dégradation du niveau de service que l’on constate généralement en ajoutant la fonctionnalité de tolérance aux pannes et la protection dans le logiciel, comme l’impact sur la latence, le verrouillage d’état ou le traitement en temps réel ?
    • Il existe deux grands types de protection offerts par everRun . Une application ou un composant d’application peut être déployé en mode tolérant aux pannes (FT), ce qui signifie le plus haut niveau de protection en termes de réplication totale de l’état et de temps de restauration rapide du service. Dans ce scénario, la “latence ajoutée” moyenne totale pour l’ensemble du processus, y compris le point de contrôle avec la barrière E/S, est inférieure à une milliseconde (environ 750 microsecondes).
  • Quelle est la distance entre l’actif et le passif ?
    • Cela dépend de la bande passante du lien entre les serveurs primaire et secondaire et de la sensibilité à la latence….. Mais généralement pas plus de quelques kilomètres, car une plus grande distance signifie un plus long délai de propagation.
  • Tous les produits peuvent-ils utiliser le système à tolérance de pannes Stratus ? Pour les produits qui utilisent beaucoup d’états dans leur logiciel, y a-t-il des défis à relever pour intégrer cette solution ?
    • Toute application peut s’exécuter sur everRun à condition qu’elle puisse fonctionner sur Ubuntu, SUSE, CentOS, Red Hat Enterprise Linux (RHEL), ou même Windows. Bien que chaque application ait besoin d’une gestion des pannes, toutes ne nécessitent pas une protection d’état ou n’exigent pas la même vitesse de restauration du service – c’est pourquoi everRun prend en charge plusieurs niveaux de redondance. Cela signifie que certaines applications fonctionnant en mode FT bénéficieront d’une redondance et d’une protection d’état complètes, tandis que d’autres qui fonctionnent en mode HA ne bénéficieront pas d’une protection d’état mais seront automatiquement redémarrées en cas de panne – cela utilise beaucoup moins de ressources système. Même au sein d’une même application, les différents composants d’une application peuvent nécessiter différents niveaux de redondance. Par exemple, pour les applications qui comportent également des éléments de transmission de données (tels que les vFirewalls et les vRouters) et qui sont décomposées en VM distinctes pour l’élément de contrôle (CE) et les éléments de transmission de données (FE), le CE pourrait être exécuté en mode FT (protection d’état), tandis que le FE pourrait fonctionner en mode HA uniquement, ce qui signifie qu’il sera redémarré rapidement et automatiquement en cas de défaillance. Cela signifie que tant que l’EC est protégé, un nouvel élément de transmission sera redémarré sans interruption ni dégradation du service.
  • Quelles modifications dois-je apporter à ma demande pour utiliser everRun?
    • Aucune modification de la demande n’est nécessaire. Toute application qui s’exécute dans l’un des systèmes d’exploitation que nous prenons en charge (Red Hat Enterprise Linux, Ubuntu, SUSE, CentOS ou Windows) fonctionnera parfaitement sur everRun (dans leur système d’exploitation invité), et everRun protégera ces machines virtuelles de manière transparente, y compris la réplication des états, sans tenir compte des applications.
  • Je comprends que j’aurai besoin de deux serveurs physiques. Si l’un d’eux tombe en panne, comment le saurai-je et que devrai-je faire ?
    • Si l’un d’eux tombe en panne, le système bascule automatiquement sur le serveur secondaire. Les applications fonctionnant en mode FT seront automatiquement et très rapidement (en quelques millisecondes) reprises tandis que les applications HA seront automatiquement redémarrées. Il existe plusieurs façons d’être alerté des défaillances du système (SNMP, everRun Manager, e-mail) afin que les composants défectueux puissent être réparés.
  • Comment votre solution se compare-t-elle à la solution FT de VMware ?
    • Stratus est le leader du marché en matière de résilience et s’appuie sur 35 ans d’expertise dans le domaine pour régler nos algorithmes FT afin de maximiser les performances du système et l’utilisation des ressources sur la base de milliers de charges de travail réelles. En général, les clients envisagent VMware lorsqu’ils procèdent à une consolidation. Mais lorsqu’ils ont besoin de disponibilité et de résilience, ils achètent everRun.

POSTES CONNEXES