Home Tolleranza ai guasti Raggiungere la Tolleranza ai guasti istantanea per qualsiasi applicazione su Commodity Hardware: DOMANDE E RISPOSTE

Raggiungere la Tolleranza ai guasti istantanea per qualsiasi applicazione su Commodity Hardware: DOMANDE E RISPOSTE

da Ali Kafel

Qualche settimana fa, Stratus ha ospitato un webinar con Light Reading dal titolo “Achieving Instantaneous Fault Tolerance for Any Application on Commodity Hardware” (Raggiungere la tolleranza ai guasti istantanei per qualsiasi applicazione su hardware di Commodity ) rivolto ai fornitori di applicazioni di telecomunicazione e comunicazione. L’evento ha avuto molto successo, con 150 partecipanti che hanno chiamato dal vivo e altri 200 partecipanti che si sono registrati ma non hanno potuto partecipare in quel momento specifico. Durante la sessione abbiamo avuto molte domande, alcune delle quali hanno ricevuto risposta all’epoca e altre che sono rimaste senza risposta a causa dei limiti di tempo. Questo post del blog riassume tutte le domande che sono state poste e le nostre risposte.

Prima di arrivare alle domande e alle risposte, permettetemi di definire everRun in termini semplici;

everRun è un’infrastruttura Software Defined Availability (SDA) che sposta la gestione dei guasti e il failover automatico dalle applicazioni all’infrastruttura software. Questo fornisce una tolleranza d’errore istantanea completamente automatizzata e completa per tutte le applicazioni, che include il rilevamento degli errori, la localizzazione, l’isolamento, il ripristino del servizio, il ripristino della ridondanza e, se desiderato, la replica dello stato – tutto senza modifiche al codice dell’applicazione e con livelli dinamici di resilienza. Questo significa che qualsiasi applicazione può essere istantaneamente distribuita con alta resilienza, livelli multipli di protezione dello stato e velocità di ripristino del servizio ultra-veloce – su hardware commerciale off-the-shelf (COTS) in qualsiasi rete, senza la complessità, lo sforzo che richiede tempo e il rischio associato alla modifica e al test di ogni applicazione. Ecco perché everRun è ideale per le applicazioni di comunicazione che includono il monitoraggio video, la gestione della rete, i gateway di segnalazione, i firewall, i controller di rete e altro ancora!

Ora, passiamo alle domande e alle risposte:

  • Ho bisogno di una distribuzione Linux separata per eseguire everRun?
    • everRun supporta più sistemi operativi guest che includono Windows, CentOS Linux e RHEL Linux. everRun viene fornito con la propria distribuzione CentOS che si installa su un server di materie prime in metallo nudo, ma sarà necessario installare un sistema operativo (come sistema operativo guest) per ogni macchina virtuale.
  • E se ho un mix di applicazioni Windows e Linux ?
    • Nessun problema. Come abbiamo detto, è possibile installare più sistemi operativi guest perché everRun sfrutta l’hypervisor KVM dove risiede il codice fault-tolerant di Stratus in modo che tutte le VM, indipendentemente dal sistema operativo guest, siano perfettamente protette senza richiedere modifiche al codice dell’applicazione. Alcune VM possono essere Linux, altre Windows sulla stessa configurazione everRun .
  • Avete soluzioni per cose come BGP che è stratificato su TCP? (Tipicamente chiamato Non-Stop-Routing)
    • Non offriamo applicazioni, ma solo la piattaforma software che le esegue. Essenzialmente qualsiasi applicazione che utilizza un qualsiasi protocollo che gira su TCP/IP su qualsiasi sistema operativo ospite verrà eseguito su everRun.
  • Supponendo che ci sia un’entità MME che devo rendere tollerante agli errori, come farà il vostro Availability Engine a mantenere lo stato interno delle applicazioni MME? Ci potrebbero essere più stati interni per più flussi che vengono mantenuti da questa entità.
    • A differenza delle soluzioni HA basate sulle applicazioni che richiedono modifiche al codice delle applicazioni, questa soluzione crea automaticamente coppie di VM tra gli host in una configurazione anti-affinità. Ciò significa che lo stato di una VM (e di tutte le sue applicazioni) vengono acquisiti regolarmente e in modo asincrono, sulla base di un algoritmo altamente sofisticato Stratus StatePoint che assicura uno stato globalmente coerente per tutte le applicazioni distribuite in una modalità stateful fault tolerant. Se si verifica un guasto sul server primario allo stato “n”, il sistema passa automaticamente al server secondario che riprende automaticamente dallo stato più recente, “n”, senza alcuna interruzione o degradazione dell’applicazione.
  • Quale tende ad essere il degrado del livello di servizio sperimentato aggiungendo la funzionalità fault-tolerant e la protezione all’interno del software, come l’impatto sulla latenza, il blocco dello stato o l’elaborazione in tempo reale?
    • Ci sono due tipi principali di protezione che everRun offre. Un’applicazione o un componente dell’applicazione può essere distribuito in modalità fault-tolerant (FT) che significa il massimo livello di protezione in termini di replicazione totale dello stato e tempo di ripristino veloce del servizio. In questo scenario la “latenza aggiunta” totale media per l’intero processo, incluso il checkpointing con la barriera I/O, è inferiore al millisecondo (circa 750 micro secondi).
  • Quanto possono essere distanti l’attivo e lo standby?
    • Dipende dalla larghezza di banda del collegamento tra il server primario e quello secondario e dalla sensibilità alla latenza…. Ma generalmente non più di qualche chilometro, perché una distanza maggiore significa un più lungo ritardo di propagazione.
  • Tutti i prodotti possono usare il sistema Stratus fault-tolerant? Per i prodotti che usano molti stati all’interno del loro software, ci sono delle sfide da affrontare per integrare questa soluzione?
    • Qualsiasi applicazione può essere eseguita su everRun a patto che possa essere eseguita su Ubuntu, SUSE, CentOS, Red Hat Enterprise Linux (RHEL), o anche Windows. Mentre ogni applicazione ha bisogno di gestione dei guasti, non tutte hanno bisogno di protezione di stato o richiedono la stessa velocità di ripristino del servizio – quindi everRun supporta più livelli di ridondanza – questo significa che alcune applicazioni che girano in modalità FT avranno ridondanza e protezione di stato completa, mentre altre che girano in HA non avranno protezione di stato ma saranno automaticamente riavviate se c’è un guasto – questo utilizza molte meno risorse di sistema. Anche all’interno della stessa applicazione, componenti differenti di un’applicazione possono richiedere diversi livelli di ridondanza. Ad esempio, per le applicazioni che hanno anche elementi di inoltro del piano dati (come vFirewalls e vRouters) e sono de-componenziate in VM separate per l’elemento di controllo (CE) e gli elementi di inoltro del piano dati (FE), il CE potrebbe essere eseguito in modalità FT (protezione dello stato), mentre il FE potrebbe essere eseguito solo in modalità HA, il che significa che verrà riavviato rapidamente e automaticamente se si verifica un guasto. Ciò significa che finché il CE è protetto, un nuovo FE verrà riavviato senza alcuna interruzione o degradazione del servizio
  • Quali modifiche devo apportare alla mia applicazione per utilizzare everRun?
    • Non sono necessarie modifiche all’applicazione. Qualsiasi applicazione che gira in uno qualsiasi dei sistemi operativi da noi supportati (Red Hat Enterprise Linux, Ubuntu, SUSE, CentOS o Windows) funzionerà bene su everRun (nel loro sistema operativo ospite), e everRun proteggerà queste VM senza soluzione di continuità, inclusa la replica di stato, senza la consapevolezza dell’applicazione.
  • Capisco che avrò bisogno di due server fisici, quando uno si guasta come faccio a saperlo e cosa devo fare?
    • Se uno si guasta, il sistema farà automaticamente il failover al server secondario. Le applicazioni in esecuzione in modalità FT saranno automaticamente e molto rapidamente (in pochi millisecondi) riprese mentre le applicazioni HA saranno automaticamente riavviate. Ci sono diversi modi per essere avvisati dei guasti del sistema (SNMP, everRun Manager, e-mail) in modo che i componenti difettosi possano essere riparati.
  • Come si confronta la vostra soluzione con la soluzione FT di VMware?
    • Stratus è il leader di mercato nella resilienza e sta sfruttando 35 anni di esperienza nel campo della messa a punto dei nostri algoritmi FT per massimizzare le prestazioni del sistema e l’utilizzo delle risorse sulla base di migliaia di carichi di lavoro reali. Generalmente, i clienti considerano VMware quando stanno consolidando. Ma quando richiedono disponibilità e resilienza, acquistano everRun.

MESSAGGI CORRELATI