Le interruzioni del server si verificheranno, e accadranno anche ai migliori di noi. Credere il contrario è l’equivalente di guidare un’auto senza airbag perché il produttore ha promesso che le loro auto non si schiantano mai.
Nel 2017, l’affidabile Amazon Web Services (AWS) ha subito un’interruzione di 4 ore che ha avuto un impatto su tutte le aziende che hanno utilizzato AWS come fornitore di back-end. Quattro ore possono non sembrare un periodo di tempo molto lungo per ripristinare un sistema di tale enormità. Tuttavia, per i clienti AWS come Netflix, il cui sito è accessibile 24 ore su 24, sono state quattro ore molto costose.
Quindi, come salvaguardate la vostra organizzazione e i clienti che si affidano alla sua accessibilità? Quando si lavora con un fornitore di soluzioni di disponibilità, è importante stabilire quale sistema fornirà il più rapido tempo di recupero. O meglio ancora, quale sistema garantirà che i vostri clienti non si accorgano nemmeno che la macchina si è rotta quando il vostro server si spegne.
La guida all’acquisto per la prevenzione dei tempi di inattività discute le sei domande che dovreste porre per prevenire i tempi di inattività, compresi i guasti dei server. La guida raccomanda di porre domande come: “Nel caso di un guasto al server, qual è il processo per ripristinare le applicazioni al normale funzionamento dell’elaborazione e quanto tempo ci vuole? La guida confronta anche i diversi livelli di downtime che ci si può aspettare con sistemi specifici.
“Se vi affidate a server standalone, il tempo di recupero potrebbe variare da minuti a giorni, dato l’alto livello di interazione umana richiesto per ripristinare le applicazioni e i dati dal backup – a condizione che abbiate fatto il backup del sistema regolarmente.
Con i cluster ad alta disponibilità, l’elaborazione viene interrotta durante un’interruzione del server e il recupero può richiedere da minuti a ore, a seconda del tempo necessario per controllare l’integrità dei file, eseguire il rollback dei database e riprodurre i log delle transazioni una volta ripristinata la disponibilità. Se il cluster è stato dimensionato correttamente durante le fasi iniziali di pianificazione, gli utenti non dovrebbero sperimentare un rallentamento delle prestazioni delle applicazioni mentre il server difettoso è fuori servizio; potrebbero, tuttavia, avere bisogno di rieseguire alcune transazioni utilizzando un file di journal una volta che l’elaborazione normale riprende.
Le soluzioni a tolleranza di errore prevengono proattivamente i tempi di inattività con componenti completamente replicati che eliminano qualsiasi singolo punto di errore. Alcune piattaforme gestiscono automaticamente i loro componenti replicati, eseguendo tutta l’elaborazione in lockstep.
Poiché i componenti replicati eseguono le stesse istruzioni allo stesso tempo, non c’è alcuna interruzione nell’elaborazione, anche se un componente si guasta. Ciò significa che, a differenza di un server standalone o di un cluster ad alta disponibilità, la soluzione fault-tolerant continua a funzionare mentre qualsiasi problema viene risolto”.
Scarica l’intera Guida all’acquisto per la prevenzione dei tempi morti e scoprite le altre cinque domande che dovreste porvi per prevenire i tempi morti.