Así, en Stratus somos y hemos sido líderes en infraestructura informática fiable durante décadas. Sin embargo, como muchos términos en tecnología, la definición de Alta Disponibilidad (HA) es muy amplia. El año pasado vimos una encuesta de una firma analista muy respetada que decía que la mayoría de los encuestados pensaba que la Alta Disponibilidad significaba tener un plan de recuperación de desastres. Y hemos comprobado que la definición también se mueve cuando se habla con personas con historial en las diferentes plataformas informáticas (es decir, el mainframe frente al dev/ops ven esto de forma muy diferente). IDC tiene un conjunto de Niveles de Disponibilidad que han utilizado durante años, pero parecen un poco amplios, ya que la mayoría de las tecnologías que existen entran en la categoría súper amplia de AL3.
Entonces, ¿qué es la alta disponibilidad? Aquí están nuestras definiciones agrupadas por el impacto en el usuario final.
Impacto significativo en el usuario final (Generalmente medido en horas de inactividad – IDC lo llama AL1 y AL2)
Desprotegido – Esto es probablemente muy fácil de entender. Esta es una carga de trabajo que no tiene características especiales de fiabilidad implementadas en la capa de aplicación, hipervisor o infraestructura. Si se cae, se cae.
Copia de seguridad – Se trata de una carga de trabajo que se copia periódicamente (o instantánea) en un nodo diferente o data center. Esta es una buena medida de cumplimiento y puede ayudar a recuperar (si tiene horas o más)
Recuperación de desastres: se trata de una forma más robusta de copia de seguridad que se automatiza para una recuperación más rápida en caso de que se produzca un fallo importante (puede ser un error humano o un fallo importante de data center debido a las condiciones meteorológicas).
Impacto mínimo en el usuario final (Generalmente medido en segundos o minutos de tiempo de inactividad – IDC lo llama AL3)
Alta Disponibilidad Automatizada – Esto es muy común en el mundo virtualizado. Cuando hay un fallo, una nueva instancia de la carga de trabajo se redistribuye a un nuevo nodo o data center. Una implementación común de esto es la función HA de VMware. Esta función tiene un impacto mínimo en la infraestructura pero tiene una interrupción bastante alta para el usuario y todos los datos en vuelo se pierden. Esta es una buena solución para las aplicaciones de carga equilibrada y escalada, como los servidores web.
Alta disponibilidad instantánea – Este es el mundo de los clusters en el mundo bare metal o de las instancias redundantes y el almacenamiento replicado en el mundo virtualizado. La interrupción del servicio es mínima (incluso un sub-segundo en algunos casos). Sin embargo, se pierden los datos y/o las transacciones en curso. Si su aplicación es apátrida pero no está equilibrada en cuanto a la carga, esta es una gran solución.
Cero impacto en el usuario final (Sin tiempo de inactividad – IDC lo llama AL4)
Tolerancia a los fallos: se trata de una capacidad que antes sólo se conocía en el mundo de los mainframes y los miniordenadores. Sin embargo, Stratus fabrica soluciones de hardware, software y cloud que proporcionan este nivel de protección a los sistemas operativos e hipervisores disponibles en el mercado a un precio comparable al de niveles de protección inferiores. La tolerancia a fallos es una redundancia completa de la carga de trabajo que también comparte los datos de entrada y el estado de la aplicación. Esto significa que hay un funcionamiento continuo e ininterrumpido incluso en caso de fallo.
Tolerancia a fallos en varios sitios – Este es el nivel más alto de protección que puede obtener una carga de trabajo. Proporciona Tolerancia a Fallos, por lo que no hay pérdida de estado o de datos, pero las cargas de trabajo redundantes están alojadas en sitios diferentes. Naturalmente, este tipo de solución tiene un mayor coste de red, pero cuando sólo se pueden alcanzar los niveles más altos, es la mejor.
Esperemos que esto ayude a desmitificar todos los tipos de protección que se pueden obtener. Cuando evalúe lo que necesita, considere no sólo lo que se está protegiendo específicamente, sino también el tiempo de recuperación y los costos de infraestructura, principalmente el procesamiento y la conexión en red.
¿Quieres saber más sobre la disponibilidad en Stratus? Haz clic en el siguiente enlace.
[sc name=”Disponibilidad_CTA_1″]