Des pannes de serveurs se produiront, et elles arriveront aux meilleurs d’entre nous. Croire le contraire équivaut à conduire une voiture sans airbag, car les constructeurs ont promis que leurs voitures ne s’écraseraient jamais.
En 2017, le fiable Amazon Web Services (AWS) a connu une panne de 4 heures qui a touché toutes les entreprises qui utilisaient AWS comme fournisseur d’arrière-plan. Quatre heures ne semblent pas être un délai très long pour restaurer un système de cette ampleur. Cependant, pour les clients d’AWS comme Netflix, dont le site est accessible 24 heures sur 24 et 7 jours sur 7, ces quatre heures ont été très coûteuses.
Alors, comment protéger votre organisation et les clients qui comptent sur son accessibilité ? Lorsque vous travaillez avec un fournisseur de solutions de disponibilité, il est important de déterminer quel système offrira le temps de récupération le plus rapide. Ou mieux encore, quel système garantira que vos clients ne se rendent même pas compte que la voiture a eu un accident lorsque votre serveur est en panne.
Le Guide de l’acheteur pour la prévention des temps d’arrêt présente les six questions que vous devriez poser pour prévenir les temps d’arrêt, notamment les pannes de serveur. Le guide recommande de poser des questions telles que : “En cas de défaillance du serveur, quel est le processus de restauration des applications pour un traitement normal et combien de temps cela prend-il ?” Le guide compare également les différents niveaux de temps d’arrêt auxquels on peut s’attendre avec des systèmes spécifiques.
“Si vous vous appuyez sur des serveurs autonomes, votre temps de récupération peut aller de quelques minutes à plusieurs jours, étant donné le niveau élevé d’interaction humaine nécessaire pour restaurer les applications et les données à partir de la sauvegarde – à condition que vous ayez sauvegardé votre système régulièrement.
Avec les clusters à haute disponibilité, le traitement est interrompu lors d’une panne de serveur et la reprise peut prendre de quelques minutes à quelques heures, en fonction du temps nécessaire pour vérifier l’intégrité des fichiers, revenir aux bases de données et rejouer les journaux de transactions une fois la disponibilité rétablie. Si le cluster a été correctement dimensionné lors des étapes initiales de planification, les utilisateurs ne devraient pas subir de ralentissement des performances des applications pendant que le serveur défectueux est hors service ; ils peuvent cependant avoir besoin de réexécuter certaines transactions en utilisant un fichier journal une fois que le traitement normal reprend.
Les solutions tolérantes aux pannes préviennent de manière proactive les temps d’arrêt grâce à des composants entièrement répliqués qui éliminent tout point de défaillance unique. Certaines plates-formes gèrent automatiquement leurs composants répliqués, en exécutant tous les traitements au même rythme.
Comme les composants répliqués exécutent les mêmes instructions en même temps, il n’y a aucune interruption du traitement, même si un composant tombe en panne, ce qui signifie que, contrairement à un serveur autonome ou à un cluster haute disponibilité, la solution à tolérance de pannes continue de fonctionner pendant la résolution du problème.”
Téléchargez l’intégralité du Guide de l’acheteur pour la prévention des temps d’arrêt et découvrez les cinq autres questions que vous devriez vous poser pour prévenir les temps d’arrêt.