Network Resiliency, Giorgio Ventre « Reti di Calcolatori II « Ingegneria

Indice della lezione

Network Reliability
Network Availability e Survivability
Classificazione dei servizi
Meccanismi di Recovery
Protection Topology
Protection Switching
Link & Path restoration

Importanza delle reti di comunicazione

Le reti di comunicazione stanno diventando infrastrutture fondamentali
- La quantità di informazioni trasportate dalle reti di comunicazione negli ultimi anni è considerevole
- Molte attività sia economiche che sociali dipendono dalle reti di comunicazione
- Molte attività di tipo safe critical (critiche per la sicurezza dell’uomo) dipendono dalle reti di comunicazione
La Reliability è un’essenziale caratteristica delle reti di comunicazione di oggi

Network Reliability: definizione

(a) E’ la capacità di una rete di mantenere un accettabile livello di performance durante fallimenti applicando tecniche di restoration, (b) e di prevenire disservizi dovuti a fallimenti della rete applicando tecniche di prevenzione
Acronimo: Netwok Survivability

Network Reliability: concetti correlati

Esistono diversi concetti legati alla Network Reliability, ad esempio:
- Reliability degli elementi di rete: la probabilità che un elemento di rete sia completamente operativo durante un determinato periodo di tempo;
- Availability degli elementi di rete: la probabilità che un elemento di rete sia in un up-state in un determinato istante di tempo t;
- Fallimento di un elemento di rete: l’inabilità di un elemento di rete di eseguire l’azione richiesta
- …

Quali fallimenti possono verificarsi?

La capacità di una rete di fornire i servizi richiesti, può essere compromessa da svariati fallimenti:
- Fallimenti pianificati o non pianificati;
- Fallimenti intenzionali o non intenzionali;
- Fallimenti software o hardware;
- Fallimenti maliziosi o casuali
- …

Accounted Failures (fallimenti considerati)

Fornire interventi per risolvere tutti i fallimenti che possono verificarsi all’interno di una rete di comunicazione è impossibile
I Network Provider e gli ISP (Internet Service Provider) normalmente forniscono interventi pianificati per risolvere i fallimenti più frequenti
Tali fallimenti vengono chiamati Accounted Failure
I tipi più comuni di Account Failure sono:
- Link failure singolo
- Node failure singolo

Impatto dei fallimenti

Nelle reti i comunicazioni di oggi, un singolo failure può generare una totale distruzione della network availability
Un singolo taglio in una rete ottica può cancellare migliaia di connessioni logiche di rete
- Il 5 Giugno del 2002, la rottura di un cavo sottomarino ha causato un considerevole danno in tutte le connessioni di rete tra Giappone, Cina, Sud Corea, etc.

Impatto dei fallimenti: sistemi ATC

NATCA
MASSIVE POWER, COMMUNICATIONS FAILURE AT MAJOR AIR TRAFFIC CONTROL CENTER PUTS CONTROLLERS IN DARK, FLIGHTS IN JEOPARDY
07/19/2006 Bob Marks
PALMDALE, Calif. – A massive power and communications failure late Tuesday at the Los Angeles Air Route Traffic Control Center left scrambling air traffic controllers to deal with a nightmare scenario – how to keep dozens of flights away from each other above a large swath of the Southwestern United States despite the inability to see them, talk to them or relay crucial instructions for 15 excruciatingly long minutes.
Every ounce of skill, heart and determination that controllers bring into the control room every day was put to the test during one of the worst outages to ever hit the facility. It was so bad, controllers say, that the only thing they had of use to aid the situation that actually worked was their cell phones – devices which the Federal Aviation Administration, inexplicably, has barred from control rooms, further impeding the safety of the system.

Parametri per la Network Reliability

Alcuni parametri utilizzati per caratterizzare la reliability di una rete, si possono trovare nell’ITU G.911 Recommendation:

“Parametri e Metodologie di Calcolo per la Reliability e l’Availability di Sistemi a Fibre Ottiche”

Nelle slide successive verranno introdotti alcuni dei parametri definiti nell’ITU G.911

Failure in Time (FIT) e Maintenance Time

Failure in Time:
- È il numero di fallimenti di dispositivi verificatisi in uno specifico intervallo di tempo
- Normalmente si esprime come fallimenti per miliardo di dispositivo ore
Maintenance Time:
- L’intervallo di tempo durante il quale viene eseguito un intervento di manutenzione su un oggetto, che sia manuale o automatico, …

Mean Time Between Failure (MTBF)

Il Mean Time Between Failures (MTBF) è l’intervallo di tempo tra fallimenti in cui ci si aspetta che il sistema sia in uno stato stabile
Matematicamente l’MTBF (in anni per fallimento) è legato alla frequenza di fallimento F (in FIT per 109 ore): vedi figura

Mean Time To Repair (MTTR)

Il Mean Time To Repair (MTTR) è definito come il tempo totale per la manutenzione correttiva diviso per il numero totale di interventi di manutenzione correttiva durante un periodo di tempo
Considerate le definizioni di MTBF e MTTR, l’availability A di un oggetto può essere calcolata come: vedi figura

Utenti, servizi e requisiti per la reliability

Network reliability è un “concetto relativo”
I requisiti per la reliability di una rete di comunicazione dipendono da:
- Il tipo di utente
- Il tipo di servizio
- Differenti combinazioni utenti-servizi conducono a differenti requisiti in termini di MTBF e MTTR

Classificazione degli utenti

In accordo con i loro requisiti per la reliability, gli utenti della rete possono essere classificati nelle seguenti categorie:
- Utenti safety critical. Utenti per cui ogni interruzione di servizio è inaccettabile
- Utenti businnes critical. Utenti per cui ogni interruzione di servizio causa una grossa perdita finanziaria
- Utenti low cost. Utenti per cui l’interruzione di servizio causa solo mancanza di comfort
- Utenti basic lever. Utenti per cui la reliability del servizio è solo un side effect

Availability: Impatto degli Outage (interruzione del funzionamento)

Market Drivers per la Survuvability

Relazioni coi clienti
Vantaggi competitivi
Guadagno
- Negativo – Tariffa di rimborso
- Positivo – Servizi Premium
  - Clienti Business
  - Istituzioni Mediche
  - Agenzie di Governo
Impatto sulle operazioni
Minimizzare la responsabilità

Survivability della rete

Availability: 99.999% (5 nove) => meno di 5 minuti di downtime all’anno
Se la rete è composta da più componenti, l’unico modo per raggiungere i 5 nove è quello di aggiungere survivability in the face of failure …
- Survivability : servizi continui in presenza di fallimenti
- Protection switching o restoration : meccanismi utilizzati per assicurare la survivability
  - Agiungere capacità ridondante, rilevare fallimenti e re-inoltrare automaticamente il traffico attorno al fallimento
Restoration: lenta scalabilità nel tempo
Protection: rapida scalabilità nel tempo, 10s-100s di ms…
- Implementato in maniera distribuita per assicurare la fast restoration

Tipi di fallimento ed altre motivazioni

Tipi di fallimento:
- Componenti: link, nodi, canali in WDM, componenti attivi, software …
- Errori umani: taglio di una fibra di backbone
- Sistemi: interi CO possono fallire a causa di eventi catastrofici
La protezione consente facile manutenzione e aggiornamenti
Singolo fallimento vs fallimenti multipli concorrenti …
- Obiettivo: tempo di riparazione medio << MTBF
La protezione dipende anche dal tipo di applicazione
La survivability può essere fornita a differenti livelli

Architetture per la Network Survivability

Network Availability e Survivability

L’Availability è la probabilità che un oggetto sia in grado di eseguire le funzioni per cui è progettato ad un determinato livello di performance, in condizioni prestabilite e nell’ambiente prestabilite

Quantificazione dell’Availability

PSTN

Gli elementi individuali hanno un'availability di 99.999%

Cosa ci si aspetta dalle reti IP

Misurare l’availability: il Port Method

Non tiene in conto la banda dei porti
Buono per servizi ad accesso dedicato perché i porti sono legati ai clienti

Il Port Method: esempio

10.000 porti d’accesso attivi
Un Access Router con 100 porti d’accesso fallisce per 30 minuti
- Total Available Port-Hours = 10.000*24=240.000
- Total Down Port-Hours = 100=0.5 = 50
- Availability per un singolo giorno = (240.000-50)/240.000*100=99,979166%

Il bandwidth Method

Basato sulla quantità di banda disponibile nella rete
Tiene in conto la banda dei porti
Buono per i router del core

Il Bandwidth Method: esempio

Capacità totale di rete: 100 Gigabit/sec
Un Access Router con 1 Gigabit/sec di banda fallisce per 30minuti
- Banda totale disponibile nella rete per un giorno = 100*24 = 2.400; Banda totale persa = 1*0.5 = 0.5
- Availability per un singolo giorno = ((2.400-0.5)/2.400)*100 = 99,979166%

Idea di base: fibre funzionanti e protette

Cassificazione dei servizi

Le reti di comunicazione sono utilizzate per trasportare svariati servizi
Differenti servizi possono avere differenti requisiti per la reliability
I requisiti per la reliability di alcuni servizi sono legati ai parametri per la QoS
- Bit rate
- Delay
- Jitter
- …

Classificazione dei servizi

Come incrementare la network reliability

Prevenire i fallimenti della rete:
- Mettere cavi di rete in profondità nel piano
- Più test per l’hardware ed il software
- …
Duplicare gli elementi di rete vulnerabili
- Dual homing
Indipendentemente da tali misure, i fallimenti di rete accadono comunque
C’è la necessità di implementare network recovery o di utilizzare schemi per la resiliency!

Idea basilare per la network recovery

Costruire reti per avere percorsi alternativi
Progettare sistemi per avere entità alternative
Monitorare per possibili fallimenti
Gestire reti in maniera proattiva

Requisiti per la network recovery

La network recovery impone differenti requisiti

Per esempio:

Dovrebbe esserci una backup capacity per creare dei percorsi di recovery

la backup capacity deve essere sufficiente per assicurare i vincoli di QoS

I singoli punti di fallimento devono essere eliminati

…

Recovery e cicli di revisione

Meccanismi di recovery

Esiste una grande varietà di meccanismi di recovery
Ogni meccanismo presenta vantaggi e svantaggi
Nelle successive slide verranno riportati alcuni criteri che possono essere utilizzati per valutare e classificare i meccanismi di recovery

Backup Capacity

Dedicata

Relazioni uno a uno tra le risorse di backup ed il percorso in funzione
La soluzione più semplice
Una soluzione efficiente

Condivisa

Le risorse di backup sono condivise tra differenti percorsi in funzione
Una soluzione più semplice
Una soluzione più efficiente

Percorso di recovery

Prepianificato

Percorsi di recovery per tutti gli scenari di fallimento considerati sono preventivamente calcolati
Consente il recupero rapido da un fallimento
Mancanza di flessibilità per uno scenario di fallimento non considerato

Dinamico

Il percorso di recovery è calcolato “on the fly” quando il fallimento viene rilevato
Può essere utilizzato per ricercare percorsi di recovery anche per scenari di fallimento non considerati

Approcci per il Recovery

Protection

I percorsi di recovery sono prepianificati e completamente segnalati prima che si verifiche un fallimento
Quando si verifica un fallimento, nessuna segnalazione addizionale è necessaria per stabilire il percorso di recovery
È la soluzione più veloce

Restoration

Il percorso di recovery può essere prepianificato oppure allocato in maniera dinamica, ma non è segnalato in anticipo
Quandi si verifica un fallimento, è necessaria una fase di segnalazione aggiuntiva per stabilire il persorso di recovery
È la soluzione più flessibile

Varianti della Protection

1+1 Protection (Protection dedicata)

C’è esattamente un percorso di recovery dedicato per ogni segmento in funzione
Il traffico è permanentemente duplicato sia sul percorso in funzione che su quello di recovery
È una soluzione alquanto costosa

1:1 Protection (Protection dedicata con traffico extra)

C’è esattamente un percorso di recovery dedicato per ogni segmento in funzione
Il traffico è trasmesso solo su un percorso alla volta
È possibile trasportare traffico extra sul percorso di recovery in una condizione di assenza di fallimento

Varianti della Protection

1:N (Recovery distribuito con traffico extra)

Ogni entità di recovery è utilizzata per proteggere N entità in funzione
È possibile utilizzare le entità di recovery per trasportare traffico extra in una condizione di assenza di fallimenti
M:N (M≤N)
- Un set di M entità di recovery è utilizzato per la protezione di un set di N entità in funzione
- È possibile utilizzare le entità di recovery per trasportare traffico extra in una condizione di assenza di fallimenti

Estensione della Recovery

Recovery locale

In condizione di fallimento, solo gli elementi affetti da fallimento vengono bypassati utilizzando i percorsi di recovery
L’RHE e l’RTE sono vicini al fallimento, in modo che possono rilevare il fallimento in maniera veloce, e rendere piccolo il recovery time
In caso di fallimento, la rotta seguita dal traffico può essere non ottimale
In caso di due successivi node failure, fallisce

Estensione della Recovery

Recovery globale

In condizioni di fallimento, il percorso in funzione completo tra sorgent e destinazione, viene bypassato
Il recovery time è più grande rispetto al caso di un local recovery
In caso di fallimento viene utilizzato un percorso di recovery ottimale
In caso di due successivi node failure, il problema può essere risolto
Può generare più “state overhead” (stati di sovraccarico) rispetto all’approccio locale

Può anche essere adottata una soluzione intermedia tra approccio locale e approccio globale

Controllo di meccanismi di recovery

Centralizzato

Un controller centrale determina l’intervento da eseguire in caso di fallimento
Il controller centrale determina inoltre quando e dove un avviene un fallimento
Il controller centrale è un sigle point of failure
È in generale un approccio efficiente
Fondamentalmente si tratta di un approccio semplice, ma
il controller centrale può diventare un sistema molto complesso

Controllo di meccanismi di recovery

Distribuito

Non c’è un controller centralizzato, tutti gli elementi di rete cono in grado in maniera autonoma di reagire ai fallimenti
Con tale approccio non c’è una visione globale della condizione della rete
Gli elementi di rete possono dover scambiare informazioni per mantenere una visione consistente della rete
È un approccio molto scalabile

Topologie per la Protection – Ring

Topologie per la Protection – Mesh

Tre o più nodi collegati con tutti gli altri
Può essere sparsa o completamente magliata
Tutte la connettività edge-to-edge è protetta mediante l’utilizzo di percorsi multipli

Terminologia del Protection Switching

Architetture 1+1 – ponte permanente alla sorgente
Architetture m:n – m entità forniscono protezione per n entità in funzione dove m è minore o uguale ad n
- Consente traffico extra non protetto
- La più comune – SONET linear 1:1 e 1:n

1+1 vs 1:n

SONET Linear 1+1 APS

SONET 1:1 Linear APS

Protection Switching: terminologia

Dedicato vs Condiviso: connessioni in funzione dedicate assegnate oppure protezione di banda condivisa
- 1+1 è dedicata, 1:n è condivisa
Protection unidirezionale o bidirezionale:
- Uni: ogni direzione di traffico è gestita in maniera indipendente dalle altre
- Trasmissioni bidirezionali su finra (full duplex) => richiede switching bidirezionale e segnalazione

Mesh Restoration

Link vs. Path Restoration

Link restoration
- Richiede la capacità di individuare il link affetto da guasto si entrambe le estrmità
- Non fornisce protezione nei riguardi di node failure
- Basato sul link
  - Mesh (loop-back generalizzato) – insensibilie ad aggiunte nella rete – scalabile; i percorsi di back-up possono essere precalcolati – fast recovery; reindirizzamento dinamico

Path restoration
- Più resiliente rispetto al link restoration
- Reindirizzare il traffico dal percorso primario ad uno Shared Risk Group (SRG) – disgiungere i percorsi di back-up
- Proteggere sia i percorsi end-to-end che i link singoli
- Preferred: Path Based

Link vs. Path restoration

Pre-calcolato vs. Real-time

Pre-calcolato
- Calcola percorsi di restoration prima ce si verifiche un fallimento
- Associa maggiore disponibilità alle informazioni verso i nodi dov’è necessario eseguire interventi dopo che un fallimento dia rilevato
- Abilita la fast restoration
Real-time
- Calcola percorsi di restoration dopo che un fallimento si sia verificato
- La restoration è lenta
- Abilita l’utilizzo di capacità più efficienti
- Preferred: Pre-computed

Centralizzato vs. Distribuito

Restoration centralizzata:
- Calcola la restoration ed i percorsi primari per tutte le richieste con informazioni up-to-date
- Le rotte possono poi essere scaricate in nodal database
- Efficacia?
  - Più capacità efficiente
  - Possibilmente lento (ma può essere eseguito in background)
  - Scalabilità in valutazione
Restoration distribuita
Preferred:
Central path determination
Distributed Restoration
Preferred:
- Central path determination
- Distribuited Restoration

Topologie per la Protection – Linear

Due nodi connessi con tutti gli altri con due o più set di link

Mesh Restoration vs. Ring/Linear Protection

Restoration a livello IP

Restoration a livello IP (real-time)

Ottenuta scambiando messaggi di controllo tra router adiacenti
- Ridetermina la rotta affetta
- Aggiorna le tabelle di routing
- Propaga i cambiamenti (OSPF, BGP-4)
È in grado di eseguire il recovery da fallimenti multipli
Lento. Richiede processing online in caso di fallimento
- Ricerca del fallimento
  - Esplicita: messaggi ICMP
  - Implicita: scadenza dei timer
Garantisce la sopravvivenza della rete
È indipendente dal dalla rete fisica sottostante

Restoration a livello MPLS

Protection a livello MPLS

Real-time oppure pre-calcolata
Protezione a livello percorso oppure a livello linea
Il percorso protetto è node and link disjoint rispetto al percorso principale (non ha ne nodi ne link in comune)
Il path protetto può essere allocato per tr affico di priorità più bassa in assenza di failure
È più veloce rispetto al reindirizzamento IP dinamico

Restoration a livello ottico

Restoration a livello ottico

Real-time oppure pre-calcolato
Ring protection oppure mesh restoration
Non c’è visibilità nelle operazioni dei livelli più alti
L’utilizzo delle risorse può essere inefficiente
- Per la ring protection, c’è oltre il 100% di capacità ridondante
- Per la mesh restoration, tipicamente si ha il 60-80% di ridondanza a livello fisico
Non raccomandato per fallimenti di nodo (o software)
È più veloce rispetto alla restoration di livelli più alti

Recovery Multilivello

In una rete multilivello è possibile immaginare una situazione in cui ogni livello possegga meccanismi di recovery indipendenti
Non tutti i fallimenti ad un determinato livello possono essere risolti nel livello stesso
Se un fallimento può essere risolto in differenti livelli, azioni non coordinate possono generare risultati inefficienti
Un coordinamento tra livelli è necessario!!

Recovery Multilivello

Approccio sequenziale

Utilizzando un tempo di hold-off viene imposto un ordine cronologico tra i meccanismi di recovery adottati in differenti livelli
In maniera alternativa, un token può essere utilizzato per imporre un ordine sequenziale tra differenti livelli

Approccio integrato

C’è uno schema di recovery che possiede una visione completa di tutti i livelli
Lo schema di recovery può decidere quando ed in quale livello (o livelli) bisogna eseguire l’azione di recovery

Giorgio Ventre » 15.Network Resiliency

Indice della lezione

Importanza delle reti di comunicazione

Network Reliability: definizione

Network Reliability: concetti correlati

Quali fallimenti possono verificarsi?

Accounted Failures (fallimenti considerati)

Impatto dei fallimenti

Impatto dei fallimenti: sistemi ATC

Parametri per la Network Reliability

Failure in Time (FIT) e Maintenance Time

Mean Time Between Failure (MTBF)

Mean Time To Repair (MTTR)

Utenti, servizi e requisiti per la reliability

Classificazione degli utenti

Availability: Impatto degli Outage (interruzione del funzionamento)

Market Drivers per la Survuvability

Survivability della rete

Tipi di fallimento ed altre motivazioni

Architetture per la Network Survivability

Network Availability e Survivability

Quantificazione dell’Availability

PSTN

Cosa ci si aspetta dalle reti IP

Misurare l’availability: il Port Method

Il Port Method: esempio

Il bandwidth Method

Il Bandwidth Method: esempio

Idea di base: fibre funzionanti e protette

Cassificazione dei servizi

Classificazione dei servizi

Come incrementare la network reliability

Idea basilare per la network recovery

Requisiti per la network recovery

Recovery e cicli di revisione

Meccanismi di recovery

Backup Capacity

Percorso di recovery

Approcci per il Recovery

Varianti della Protection

Varianti della Protection

Estensione della Recovery

Estensione della Recovery

Controllo di meccanismi di recovery

Controllo di meccanismi di recovery

Topologie per la Protection – Ring

Topologie per la Protection – Mesh

Terminologia del Protection Switching

1+1 vs 1:n

SONET Linear 1+1 APS

SONET 1:1 Linear APS

Protection Switching: terminologia

Mesh Restoration

Link vs. Path Restoration

Link vs. Path restoration

Pre-calcolato vs. Real-time

Centralizzato vs. Distribuito

Topologie per la Protection – Linear

Mesh Restoration vs. Ring/Linear Protection

Restoration a livello IP

Restoration a livello MPLS

Restoration a livello ottico

Recovery Multilivello

Recovery Multilivello

Le lezioni del Corso

I materiali di supporto della lezione