Home Disponibilidad Apagones del servidor: Cómo recuperarse más rápido

Los apagones de los servidores sucederán, y le sucederán a los mejores de nosotros. Creer lo contrario es el equivalente a conducir un coche sin airbags porque el fabricante prometió que sus coches nunca se estrellarían.

En 2017, el confiable Amazon Web Services (AWS) experimentó una interrupción de 4 horas que impactó a todos los negocios que usaban AWS como proveedor de back-end. Cuatro horas pueden no parecer un gran tiempo para restaurar un sistema de esa enormidad. Sin embargo, para los clientes de AWS como Netflix, cuyo sitio es accesible 24/7, esas fueron cuatro horas muy costosas.

Entonces, ¿cómo salvaguardar su organización y los clientes que dependen de su accesibilidad? Cuando se trabaja con un proveedor de soluciones de disponibilidad, es importante establecer qué sistema proporcionará el tiempo de recuperación más rápido. O mejor aún, qué sistema asegurará que sus clientes ni siquiera se den cuenta de que el coche se ha estrellado cuando su servidor se cae.

La Guía del comprador para la prevención del tiempo de inactividad analiza las seis preguntas que debe plantearse para prevenir el tiempo de inactividad, incluidos los fallos del servidor. La guía recomienda plantear preguntas como: “En caso de fallo del servidor, ¿cuál es el proceso para restablecer las aplicaciones al funcionamiento normal de procesamiento y cuánto tiempo lleva?” La guía también compara los diferentes niveles de tiempo de inactividad que pueden esperarse con sistemas específicos.

“Si confía en servidores independientes, su tiempo de recuperación podría oscilar entre minutos y días, dado el alto nivel de interacción humana necesario para restaurar las aplicaciones y los datos a partir de una copia de seguridad, siempre que haya realizado copias de seguridad del sistema con regularidad.
Con los clústeres de alta disponibilidad, el procesamiento se interrumpe durante una interrupción del servidor y la recuperación puede durar de minutos a horas, dependiendo del tiempo que se tarde en comprobar la integridad de los archivos, hacer retroceder las bases de datos y reproducir los registros de transacciones una vez restaurada la disponibilidad. Si el clúster se dimensionó correctamente durante las etapas iniciales de planificación, los usuarios no deberían experimentar un menor rendimiento de la aplicación mientras el servidor defectuoso esté fuera de servicio; sin embargo, es posible que tengan que volver a ejecutar algunas transacciones utilizando un archivo de diario una vez que se reanude el procesamiento normal.
Las soluciones tolerantes a fallos evitan proactivamente el tiempo de inactividad con componentes totalmente replicados que eliminan cualquier punto único de fallo. Algunas plataformas gestionan automáticamente sus componentes replicados, ejecutando todo el procesamiento al mismo tiempo.
Dado que los componentes replicados ejecutan las mismas instrucciones al mismo tiempo, no se produce ninguna interrupción en el procesamiento, incluso si falla un componente. Esto significa que, a diferencia de un servidor independiente o un clúster de alta disponibilidad, la solución tolerante a fallos sigue funcionando mientras se resuelve cualquier problema”.

Descargue la guía completa Guía del comprador para la prevención del tiempo de inactividad y descubra las cinco preguntas restantes que debería hacerse para prevenir el tiempo de inactividad.

MENSAJES RELACIONADOS