Página inicial Disponibilidade Interrupções do servidor: Como se recuperar mais rápido

As interrupções do servidor acontecerão, e acontecerão com o melhor de nós. Acreditar o contrário é o equivalente a dirigir um carro sem air bags porque a fabricação prometeu que seus carros nunca bateriam.

Em 2017, o confiável Amazon Web Services (AWS) sofreu uma interrupção de 4 horas que afetou todas as empresas que usaram AWS como fornecedor back-end. Quatro horas podem não parecer um grande período de tempo para restaurar um sistema com essa enormidade. Entretanto, para clientes AWS como a Netflix, cujo site é acessado 24 horas por dia, 7 dias por semana, essas foram quatro horas muito caras.

Então, como você protege sua organização e os clientes que confiam em sua acessibilidade? Quando você está trabalhando com um fornecedor de soluções de disponibilidade, é importante estabelecer qual sistema proporcionará o tempo de recuperação mais rápido. Ou melhor ainda, qual sistema assegurará que seus clientes nem mesmo percebam que o carro bateu quando seu servidor for desligado.

O Guia do Comprador de Prevenção de Tempos de Parada discute as seis perguntas que você deveria estar fazendo para evitar tempo de inatividade – incluindo falhas no servidor. O guia recomenda fazer perguntas como: “Em caso de falha do servidor, qual é o processo para restaurar as aplicações para a operação normal de processamento e quanto tempo leva”? O guia também compara os diferentes níveis de tempo de inatividade que podem ser esperados com sistemas específicos.

“Se você confiar em servidores autônomos, seu tempo de recuperação pode variar de minutos a dias, dado o alto nível de interação humana necessário para restaurar as aplicações e os dados de backup – desde que você tenha feito backup de seu sistema regularmente.
Com clusters de alta disponibilidade, o processamento é interrompido durante uma interrupção do servidor e a recuperação pode levar de minutos a horas, dependendo de quanto tempo leva para verificar a integridade do arquivo, reverter bancos de dados e reproduzir os logs de transações uma vez que a disponibilidade seja restaurada. Se o cluster foi dimensionado corretamente durante as etapas iniciais de planejamento, os usuários não devem experimentar um desempenho de aplicação mais lento enquanto o servidor defeituoso estiver fora de operação; eles podem, no entanto, precisar executar novamente algumas transações usando um arquivo de diário uma vez que o processamento normal seja retomado.
Soluções tolerantes a falhas previnem proativamente o tempo de inatividade com componentes totalmente replicados que eliminam qualquer ponto único de falha. Algumas plataformas gerenciam automaticamente seus componentes replicados, executando todo o processamento em etapa de bloqueio.
Como os componentes replicados executam as mesmas instruções ao mesmo tempo, há zero interrupção no processamento – mesmo que um componente falhe. Isto significa que, ao contrário de um servidor autônomo ou cluster de alta disponibilidade, a solução tolerante a falhas continua a funcionar enquanto qualquer problema está sendo resolvido”.

Faça o download de todo o Guia do Comprador de Prevenção de Tempo de Parada e descubra as cinco perguntas restantes que você deve fazer para evitar paralisações.

POSTS RELACIONADOS