Página inicial Tolerância a falhas Alcançar tolerância instantânea a falhas para qualquer aplicação em ferragens de commodity: PERGUNTAS E RESPOSTAS

Alcançar tolerância instantânea a falhas para qualquer aplicação em ferragens de commodity: PERGUNTAS E RESPOSTAS

por Ali Kafel

Há algumas semanas, a Stratus organizou um Webinar com Leitura Leitura Leve intitulado “Alcançando Tolerância de Falhas Instantâneas para Qualquer Aplicação em Hardware de Commodity” voltado para Provedores de Aplicações em Telcos e Comunicações. O evento foi muito bem sucedido, com 150 participantes discando ao vivo e mais 200 participantes que se registraram mas não puderam comparecer naquele momento específico. Tivemos muitas perguntas durante a sessão, algumas das quais foram respondidas na ocasião e outras que ficaram sem resposta devido a limitações de tempo. Este post no blog resume todas as perguntas que foram feitas e nossas respostas.

Antes de chegarmos às perguntas e respostas, deixe-me primeiro definir everRun em termos simples;

everRun é uma infra-estrutura de Software Definined Availability (SDA) que move o gerenciamento de falhas e o failover automático das aplicações para a infra-estrutura de software. Isto fornece tolerância instantânea a falhas totalmente automatizada e completa para todas as aplicações, o que inclui detecção de falhas, localização, isolamento, restauração de serviço, restauração de redundância e, se desejado, replicação de estado – tudo sem alterações no código da aplicação e com níveis dinâmicos de resiliência. Isto significa que qualquer aplicação pode ser implantada instantaneamente com alta resiliência, múltiplos níveis de proteção de estado e velocidade ultra-rápida de restauração de serviço – em hardware comercial de prateleira (COTS) em qualquer rede, sem a complexidade, esforço demorado e risco associado à modificação e teste de cada aplicação. É por isso que everRun é ideal para aplicações de comunicação que incluem monitoramento de vídeo, gerenciamento de rede, gateways de sinalização, firewalls, controladores de rede e muito mais!

Agora, vamos às perguntas e respostas:

  • Preciso de uma distribuição Linux separada para executar everRun?
    • everRun suporta múltiplos sistemas operacionais convidados que incluem Windows, CentOS Linux e RHEL Linux. everRun vem com sua própria distribuição CentOS que se instala em um servidor de commodities de metal nu, mas você precisará instalar um sistema operacional (como um sistema operacional convidado) para cada VM.
  • E se eu tiver uma mistura de aplicações Windows e Linux?
    • Não há problema. Como dissemos, você pode instalar múltiplos Sistemas Operacionais Visitantes porque a everRun aproveita o hipervisor KVM onde reside o código tolerante a falhas Stratus para que todas as VMs, independentemente do Sistema Operacional Visitante, estejam perfeitamente protegidas sem a necessidade de alterações no código de aplicação. Algumas VMs podem ser Linux, outras Windows na mesma configuração do everRun.
  • Você tem soluções para coisas como o BGP que é em camadas sobre o TCP? (Normalmente chamado de Non-Stop-Routing)
    • Nós não oferecemos aplicações, apenas a plataforma de software que executa estas aplicações. Essencialmente qualquer aplicação que utilize qualquer protocolo que roda em TCP/IP em qualquer sistema operacional convidado será executada em everRun.
  • Assumindo que haja uma entidade MME que eu precise tornar tolerante a falhas, como seu Mecanismo de Disponibilidade manterá o estado interno das aplicações da MME? Pode haver múltiplos estados internos para múltiplas correntes que são mantidas por esta entidade.
    • Ao contrário das soluções HA baseadas em aplicações que requerem mudanças de código de aplicação, esta solução cria automaticamente pares VM entre hosts em uma configuração antiafinidade. Isto significa que o estado de uma VM (e todas as suas aplicações) são capturadas regularmente e assincronamente, com base em um algoritmo Stratus StatePoint altamente sofisticado que garante um estado globalmente consistente para todas as aplicações implantadas em um modo stateful fault tolerant. Se ocorrer uma falha no servidor primário no estado “n”, o sistema muda automaticamente para o servidor secundário que retoma automaticamente do ponto de estado mais recente, “n”, sem qualquer interrupção ou degradação da aplicação.
  • Qual tende a ser a experiência de degradação do nível de serviço, acrescentando a funcionalidade tolerante a falhas e a proteção dentro do software, como impacto na latência, travamento do estado, ou processamento em tempo real?
    • Há dois tipos principais de proteção que a everRun oferece. Uma aplicação ou componente de aplicação pode ser implantada no modo tolerante a falhas (FT), o que significa o mais alto nível de proteção em termos de replicação total do estado e tempo de restauração rápida do serviço. Neste cenário, o total médio de “latência adicionada” para todo o processo, incluindo o ponto de verificação com a barreira I/O, é menor do que em milissegundos (cerca de 750 micro segundos).
  • A que distância podem estar o ativo e o de espera?
    • Depende da largura de banda do link entre os servidores primários e secundários e da sensibilidade à latência…. Mas geralmente não mais do que alguns quilômetros, porque uma distância maior significa um atraso maior na propagação.
  • Todos os produtos podem usar o sistema de tolerância a falhas Stratus? Para produtos que usam muitos estados dentro de seu software, há algum desafio que enfrentaríamos para integrar esta solução?
    • Qualquer aplicação pode rodar everRun desde que possa rodar no Ubuntu, SUSE, CentOS, Red Hat Enterprise Linux (RHEL), ou mesmo no Windows. Enquanto todas as aplicações precisam de gerenciamento de falhas, nem todas precisam de proteção estatal ou requerem a mesma velocidade de restauração de serviço – portanto, everRun suportam múltiplos níveis de redundância – isto significa que algumas aplicações rodando no modo FT terão completa redundância estatal e proteção, enquanto outras que rodam em HA não terão proteção estatal, mas serão automaticamente reiniciadas se houver uma falha – isto usa muito menos recursos do sistema. Mesmo dentro da mesma aplicação, componentes diferentes de uma aplicação podem requerer diferentes níveis de redundância. Por exemplo, para aplicações que também têm elementos de transmissão de plano de dados (como vFirewalls e vRouters) e são descomponentizadas em VMs separadas para o elemento de controle (CE) e elementos de transmissão de plano de dados (FE), o CE poderia ser executado no modo FT (proteção de estado), enquanto o FE poderia funcionar apenas no modo HA, o que significa que será reiniciado rápida e automaticamente se falhar. Isto significa que, enquanto o CE estiver protegido, um novo FE será reiniciado sem interrupção ou degradação no serviço.
  • Que mudanças preciso fazer em minha aplicação para usar everRun?
    • Não são necessárias alterações na aplicação. Qualquer aplicação que roda em qualquer sistema operacional que suportamos (Red Hat Enterprise Linux, Ubuntu, SUSE, CentOS ou Windows) funcionará bem everRun (em seu sistema operacional convidado), e everRun protegerá perfeitamente estas VMs, incluindo a replicação do estado, sem a consciência da aplicação.
  • Entendo que precisarei de dois servidores físicos, quando um falhar, como saberei e o que preciso fazer?
    • Se um falhar, o sistema irá automaticamente falhar para o servidor secundário. As aplicações rodando no modo FT serão automática e muito rapidamente (dentro de milissegundos) retomadas enquanto as aplicações HA serão automaticamente reiniciadas. Há várias maneiras de ser alertado sobre falhas no sistema (SNMP, everRun Manager, e-mail) para que os componentes defeituosos possam ser reparados.
  • Como sua solução se compara à solução FT da VMware?
    • A Stratus é líder de mercado em resiliência e está alavancando 35 anos de experiência de domínio no ajuste de nossos algoritmos FT para maximizar o desempenho do sistema e a utilização de recursos com base em milhares de cargas de trabalho reais de implantação. Geralmente, os clientes consideram a VMware quando estão consolidando. Mas quando requerem disponibilidade e resiliência, eles compram a everRun.

POSTS RELACIONADOS