Los apagones de los servidores sucederán, y le sucederán a los mejores de nosotros. Creer lo contrario es el equivalente a conducir un coche sin airbags porque el fabricante prometió que sus coches nunca se estrellarían.
En 2017, el confiable Amazon Web Services (AWS) experimentó una interrupción de 4 horas que impactó a todos los negocios que usaban AWS como proveedor de back-end. Cuatro horas pueden no parecer un gran tiempo para restaurar un sistema de esa enormidad. Sin embargo, para los clientes de AWS como Netflix, cuyo sitio es accesible 24/7, esas fueron cuatro horas muy costosas.
Entonces, ¿cómo salvaguardar su organización y los clientes que dependen de su accesibilidad? Cuando se trabaja con un proveedor de soluciones de disponibilidad, es importante establecer qué sistema proporcionará el tiempo de recuperación más rápido. O mejor aún, qué sistema asegurará que sus clientes ni siquiera se den cuenta de que el coche se ha estrellado cuando su servidor se cae.
La Guía del comprador para la prevención del tiempo de inactividad discute las seis preguntas que debería hacer para evitar el tiempo de inactividad, incluyendo fallos en el servidor. La guía recomienda plantear preguntas como: "En caso de fallo del servidor, ¿cuál es el proceso para restaurar las aplicaciones a su funcionamiento normal de procesamiento y cuánto tiempo lleva?". La guía también compara los diferentes niveles de tiempo de inactividad que pueden esperarse con sistemas específicos.
"Si usted depende de servidores independientes, su tiempo de recuperación podría variar de minutos a días dado el alto nivel de interacción humana requerido para restaurar las aplicaciones y los datos de la copia de seguridad - siempre y cuando haya estado haciendo copias de seguridad de su sistema de forma regular.
Con los clústeres de alta disponibilidad, el procesamiento se interrumpe durante una interrupción del servidor y la recuperación puede llevar de minutos a horas, dependiendo del tiempo que se tarde en comprobar la integridad de los archivos, retroceder las bases de datos y reproducir los registros de las transacciones una vez que se haya restablecido la disponibilidad. Si la agrupación se dimensionó correctamente durante las etapas iniciales de planificación, los usuarios no deberían experimentar un rendimiento más lento de la aplicación mientras el servidor defectuoso está fuera de servicio; sin embargo, es posible que tengan que volver a ejecutar algunas transacciones utilizando un archivo de diario una vez que se reanude el procesamiento normal.
Las soluciones tolerantes a las fallas previenen proactivamente el tiempo de inactividad con componentes totalmente replicados que eliminan cualquier punto único de falla. Algunas plataformas gestionan automáticamente sus componentes replicados, ejecutando todo el procesamiento al mismo ritmo.
Dado que los componentes replicados realizan las mismas instrucciones al mismo tiempo, no hay ninguna interrupción en el procesamiento - incluso si un componente falla. Esto significa que, a diferencia de un servidor independiente o un clúster de alta disponibilidad, la solución tolerante a fallos sigue funcionando mientras se resuelve cualquier problema".
Descargue la totalidad de Guía del comprador para la prevención del tiempo de inactividad y descubra las cinco preguntas restantes que debería hacer para evitar el tiempo de inactividad.