Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D La Corte in Rete
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Giorgio Ventre » 15.Network Resiliency


Indice della lezione

  • Network Reliability
  • Network Availability e Survivability
  • Classificazione dei servizi
  • Meccanismi di Recovery
  • Protection Topology
  • Protection Switching
  • Link & Path restoration

Importanza delle reti di comunicazione

  • Le reti di comunicazione stanno diventando infrastrutture fondamentali
    • La quantità di informazioni trasportate dalle reti di comunicazione negli ultimi anni è considerevole
    • Molte attività sia economiche che sociali dipendono dalle reti di comunicazione
    • Molte attività di tipo safe critical (critiche per la sicurezza dell’uomo) dipendono dalle reti di comunicazione
  • La Reliability è un’essenziale caratteristica delle reti di comunicazione di oggi

Network Reliability: definizione

  • (a) E’ la capacità di una rete di mantenere un accettabile livello di performance durante fallimenti applicando tecniche di restoration, (b) e di prevenire disservizi dovuti a fallimenti della rete applicando tecniche di prevenzione
  • Acronimo: Netwok Survivability

Network Reliability: concetti correlati

  • Esistono diversi concetti legati alla Network Reliability, ad esempio:
    • Reliability degli elementi di rete: la probabilità che un elemento di rete sia completamente operativo durante un determinato periodo di tempo;
    • Availability degli elementi di rete: la probabilità che un elemento di rete sia in un up-state in un determinato istante di tempo t;
    • Fallimento di un elemento di rete: l’inabilità di un elemento di rete di eseguire l’azione richiesta

Quali fallimenti possono verificarsi?

  • La capacità di una rete di fornire i servizi richiesti, può essere compromessa da svariati fallimenti:
    • Fallimenti pianificati o non pianificati;
    • Fallimenti intenzionali o non intenzionali;
    • Fallimenti software o hardware;
    • Fallimenti maliziosi o casuali

Accounted Failures (fallimenti considerati)

  • Fornire interventi per risolvere tutti i fallimenti che possono verificarsi all’interno di una rete di comunicazione è impossibile
  • I Network Provider e gli ISP (Internet Service Provider) normalmente forniscono interventi pianificati per risolvere i fallimenti più frequenti
  • Tali fallimenti vengono chiamati Accounted Failure
  • I tipi più comuni di Account Failure sono:
    • Link failure singolo
    • Node failure singolo

Impatto dei fallimenti

  • Nelle reti i comunicazioni di oggi, un singolo failure può generare una totale distruzione della network availability
  • Un singolo taglio in una rete ottica può cancellare migliaia di connessioni logiche di rete
    • Il 5 Giugno del 2002, la rottura di un cavo sottomarino ha causato un considerevole danno in tutte le connessioni di rete tra Giappone, Cina, Sud Corea, etc.

Impatto dei fallimenti: sistemi ATC

  • NATCA
  • MASSIVE POWER, COMMUNICATIONS FAILURE AT MAJOR AIR TRAFFIC CONTROL CENTER PUTS CONTROLLERS IN DARK, FLIGHTS IN JEOPARDY
  • 07/19/2006 Bob Marks
  • PALMDALE, Calif. – A massive power and communications failure late Tuesday at the Los Angeles Air Route Traffic Control Center left scrambling air traffic controllers to deal with a nightmare scenario – how to keep dozens of flights away from each other above a large swath of the Southwestern United States despite the inability to see them, talk to them or relay crucial instructions for 15 excruciatingly long minutes.
  • Every ounce of skill, heart and determination that controllers bring into the control room every day was put to the test during one of the worst outages to ever hit the facility. It was so bad, controllers say, that the only thing they had of use to aid the situation that actually worked was their cell phones – devices which the Federal Aviation Administration, inexplicably, has barred from control rooms, further impeding the safety of the system.

Parametri per la Network Reliability

  • Alcuni parametri utilizzati per caratterizzare la reliability di una rete, si possono trovare nell’ITU G.911 Recommendation:
Parametri e Metodologie di Calcolo per la Reliability e l’Availability di Sistemi a Fibre Ottiche”
  • Nelle slide successive verranno introdotti alcuni dei parametri definiti nell’ITU G.911

Failure in Time (FIT) e Maintenance Time

  • Failure in Time:
    • È il numero di fallimenti di dispositivi verificatisi in uno specifico intervallo di tempo
    • Normalmente si esprime come fallimenti per miliardo di dispositivo ore
  • Maintenance Time:
    • L’intervallo di tempo durante il quale viene eseguito un intervento di manutenzione su un oggetto, che sia manuale o automatico, …

Mean Time Between Failure (MTBF)

  • Il Mean Time Between Failures (MTBF) è l’intervallo di tempo tra fallimenti in cui ci si aspetta che il sistema sia in uno stato stabile
  • Matematicamente l’MTBF (in anni per fallimento) è legato alla frequenza di fallimento F (in FIT per 109 ore): vedi figura

Mean Time To Repair (MTTR)

  • Il Mean Time To Repair (MTTR) è definito come il tempo totale per la manutenzione correttiva diviso per il numero totale di interventi di manutenzione correttiva durante un periodo di tempo
  • Considerate le definizioni di MTBF e MTTR, l’availability A di un oggetto può essere calcolata come: vedi figura

Utenti, servizi e requisiti per la reliability

  • Network reliability è un “concetto relativo”
  • I requisiti per la reliability di una rete di comunicazione dipendono da:
    • Il tipo di utente
    • Il tipo di servizio
    • Differenti combinazioni utenti-servizi conducono a differenti requisiti in termini di MTBF e MTTR

Classificazione degli utenti

  • In accordo con i loro requisiti per la reliability, gli utenti della rete possono essere classificati nelle seguenti categorie:
    • Utenti safety critical. Utenti per cui ogni interruzione di servizio è inaccettabile
    • Utenti businnes critical. Utenti per cui ogni interruzione di servizio causa una grossa perdita finanziaria
    • Utenti low cost. Utenti per cui l’interruzione di servizio causa solo mancanza di comfort
    • Utenti basic lever. Utenti per cui la reliability del servizio è solo un side effect

Availability: Impatto degli Outage (interruzione del funzionamento)


Market Drivers per la Survuvability

  • Relazioni coi clienti
  • Vantaggi competitivi
  • Guadagno
    • Negativo – Tariffa di rimborso
    • Positivo – Servizi Premium
      • Clienti Business
      • Istituzioni Mediche
      • Agenzie di Governo
  • Impatto sulle operazioni
  • Minimizzare la responsabilità

Survivability della rete

  • Availability: 99.999% (5 nove) => meno di 5 minuti di downtime all’anno
  • Se la rete è composta da più componenti, l’unico modo per raggiungere i 5 nove è quello di aggiungere survivability in the face of failure …
    • Survivability : servizi continui in presenza di fallimenti
    • Protection switching o restoration : meccanismi utilizzati per assicurare la survivability
      • Agiungere capacità ridondante, rilevare fallimenti e re-inoltrare automaticamente il traffico attorno al fallimento
  • Restoration: lenta scalabilità nel tempo
  • Protection: rapida scalabilità nel tempo, 10s-100s di ms…
    • Implementato in maniera distribuita per assicurare la fast restoration

Tipi di fallimento ed altre motivazioni

  • Tipi di fallimento:
    • Componenti: link, nodi, canali in WDM, componenti attivi, software …
    • Errori umani: taglio di una fibra di backbone
    • Sistemi: interi CO possono fallire a causa di eventi catastrofici
  • La protezione consente facile manutenzione e aggiornamenti
  • Singolo fallimento vs fallimenti multipli concorrenti …
    • Obiettivo: tempo di riparazione medio << MTBF
  • La protezione dipende anche dal tipo di applicazione
  • La survivability può essere fornita a differenti livelli

Architetture per la Network Survivability


Network Availability e Survivability

  • L’Availability è la probabilità che un oggetto sia in grado di eseguire le funzioni per cui è progettato ad un determinato livello di performance, in condizioni prestabilite e nell’ambiente prestabilite

Quantificazione dell’Availability


PSTN

Gli elementi individuali hanno un’availability di 99.999%

Gli elementi individuali hanno un'availability di 99.999%


Cosa ci si aspetta dalle reti IP


Misurare l’availability: il Port Method

  • Non tiene in conto la banda dei porti
  • Buono per servizi ad accesso dedicato perché i porti sono legati ai clienti

Il Port Method: esempio

  • 10.000 porti d’accesso attivi
  • Un Access Router con 100 porti d’accesso fallisce per 30 minuti
    • Total Available Port-Hours = 10.000*24=240.000
    • Total Down Port-Hours = 100=0.5 = 50
    • Availability per un singolo giorno = (240.000-50)/240.000*100=99,979166%

Il bandwidth Method

  • Basato sulla quantità di banda disponibile nella rete
  • Tiene in conto la banda dei porti
  • Buono per i router del core

Il Bandwidth Method: esempio

  • Capacità totale di rete: 100 Gigabit/sec
  • Un Access Router con 1 Gigabit/sec di banda fallisce per 30minuti
    • Banda totale disponibile nella rete per un giorno = 100*24 = 2.400; Banda totale persa = 1*0.5 = 0.5
    • Availability per un singolo giorno = ((2.400-0.5)/2.400)*100 = 99,979166%

Idea di base: fibre funzionanti e protette


Cassificazione dei servizi

  • Le reti di comunicazione sono utilizzate per trasportare svariati servizi
  • Differenti servizi possono avere differenti requisiti per la reliability
  • I requisiti per la reliability di alcuni servizi sono legati ai parametri per la QoS
    • Bit rate
    • Delay
    • Jitter

Classificazione dei servizi


Come incrementare la network reliability

  • Prevenire i fallimenti della rete:
    • Mettere cavi di rete in profondità nel piano
    • Più test per l’hardware ed il software
  • Duplicare gli elementi di rete vulnerabili
    • Dual homing
  • Indipendentemente da tali misure, i fallimenti di rete accadono comunque
  • C’è la necessità di implementare network recovery o di utilizzare schemi per la resiliency!

Idea basilare per la network recovery

  • Costruire reti per avere percorsi alternativi
  • Progettare sistemi per avere entità alternative
  • Monitorare per possibili fallimenti
  • Gestire reti in maniera proattiva

Requisiti per la network recovery

  • La network recovery impone differenti requisiti

Per esempio:

  • Dovrebbe esserci una backup capacity per creare dei percorsi di recovery
  • la backup capacity deve essere sufficiente per assicurare i vincoli di QoS
  • I singoli punti di fallimento devono essere eliminati

Recovery e cicli di revisione


Meccanismi di recovery

  • Esiste una grande varietà di meccanismi di recovery
  • Ogni meccanismo presenta vantaggi e svantaggi
  • Nelle successive slide verranno riportati alcuni criteri che possono essere utilizzati per valutare e classificare i meccanismi di recovery

Backup Capacity

Dedicata

  • Relazioni uno a uno tra le risorse di backup ed il percorso in funzione
  • La soluzione più semplice
  • Una soluzione efficiente

Condivisa

  • Le risorse di backup sono condivise tra differenti percorsi in funzione
  • Una soluzione più semplice
  • Una soluzione più efficiente

Percorso di recovery

Prepianificato

  • Percorsi di recovery per tutti gli scenari di fallimento considerati sono preventivamente calcolati
  • Consente il recupero rapido da un fallimento
  • Mancanza di flessibilità per uno scenario di fallimento non considerato

Dinamico

  • Il percorso di recovery è calcolato “on the fly” quando il fallimento viene rilevato
  • Può essere utilizzato per ricercare percorsi di recovery anche per scenari di fallimento non considerati

Approcci per il Recovery

Protection

  • I percorsi di recovery sono prepianificati e completamente segnalati prima che si verifiche un fallimento
  • Quando si verifica un fallimento, nessuna segnalazione addizionale è necessaria per stabilire il percorso di recovery
  • È la soluzione più veloce

Restoration

  • Il percorso di recovery può essere prepianificato oppure allocato in maniera dinamica, ma non è segnalato in anticipo
  • Quandi si verifica un fallimento, è necessaria una fase di segnalazione aggiuntiva per stabilire il persorso di recovery
  • È la soluzione più flessibile

Varianti della Protection

1+1 Protection (Protection dedicata)

  • C’è esattamente un percorso di recovery dedicato per ogni segmento in funzione
  • Il traffico è permanentemente duplicato sia sul percorso in funzione che su quello di recovery
  • È una soluzione alquanto costosa

1:1 Protection (Protection dedicata con traffico extra)

  • C’è esattamente un percorso di recovery dedicato per ogni segmento in funzione
  • Il traffico è trasmesso solo su un percorso alla volta
  • È possibile trasportare traffico extra sul percorso di recovery in una condizione di assenza di fallimento

Varianti della Protection

1:N (Recovery distribuito con traffico extra)

  • Ogni entità di recovery è utilizzata per proteggere N entità in funzione
  • È possibile utilizzare le entità di recovery per trasportare traffico extra in una condizione di assenza di fallimenti
  • M:N (M≤N)
    • Un set di M entità di recovery è utilizzato per la protezione di un set di N entità in funzione
    • È possibile utilizzare le entità di recovery per trasportare traffico extra in una condizione di assenza di fallimenti

Estensione della Recovery

Recovery locale

  • In condizione di fallimento, solo gli elementi affetti da fallimento vengono bypassati utilizzando i percorsi di recovery
  • L’RHE e l’RTE sono vicini al fallimento, in modo che possono rilevare il fallimento in maniera veloce, e rendere piccolo il recovery time
  • In caso di fallimento, la rotta seguita dal traffico può essere non ottimale
  • In caso di due successivi node failure, fallisce

Estensione della Recovery

Recovery globale

  • In condizioni di fallimento, il percorso in funzione completo tra sorgent e destinazione, viene bypassato
  • Il recovery time è più grande rispetto al caso di un local recovery
  • In caso di fallimento viene utilizzato un percorso di recovery ottimale
  • In caso di due successivi node failure, il problema può essere risolto
  • Può generare più “state overhead” (stati di sovraccarico) rispetto all’approccio locale

Può anche essere adottata una soluzione intermedia tra approccio locale e approccio globale

Controllo di meccanismi di recovery

Centralizzato

  • Un controller centrale determina l’intervento da eseguire in caso di fallimento
  • Il controller centrale determina inoltre quando e dove un avviene un fallimento
  • Il controller centrale è un sigle point of failure
  • È in generale un approccio efficiente
  • Fondamentalmente si tratta di un approccio semplice, ma
  • il controller centrale può diventare un sistema molto complesso

Controllo di meccanismi di recovery

Distribuito

  • Non c’è un controller centralizzato, tutti gli elementi di rete cono in grado in maniera autonoma di reagire ai fallimenti
  • Con tale approccio non c’è una visione globale della condizione della rete
  • Gli elementi di rete possono dover scambiare informazioni per mantenere una visione consistente della rete
  • È un approccio molto scalabile

Topologie per la Protection – Ring


Topologie per la Protection – Mesh

  • Tre o più nodi collegati con tutti gli altri
  • Può essere sparsa o completamente magliata
  • Tutte la connettività edge-to-edge è protetta mediante l’utilizzo di percorsi multipli

Terminologia del Protection Switching

  • Architetture 1+1 – ponte permanente alla sorgente
  • Architetture m:n – m entità forniscono protezione per n entità in funzione dove m è minore o uguale ad n
    • Consente traffico extra non protetto
    • La più comune – SONET linear 1:1 e 1:n

1+1 vs 1:n


SONET Linear 1+1 APS


SONET 1:1 Linear APS


Protection Switching: terminologia

  • Dedicato vs Condiviso: connessioni in funzione dedicate assegnate oppure protezione di banda condivisa
    • 1+1 è dedicata, 1:n è condivisa
  • Protection unidirezionale o bidirezionale:
    • Uni: ogni direzione di traffico è gestita in maniera indipendente dalle altre
    • Trasmissioni bidirezionali su finra (full duplex) => richiede switching bidirezionale e segnalazione

Mesh Restoration


Link vs. Path Restoration

  • Link restoration
    • Richiede la capacità di individuare il link affetto da guasto si entrambe le estrmità
    • Non fornisce protezione nei riguardi di node failure
    • Basato sul link
      • Mesh (loop-back generalizzato) – insensibilie ad aggiunte nella rete – scalabile; i percorsi di back-up possono essere precalcolati – fast recovery; reindirizzamento dinamico
  • Path restoration
    • Più resiliente rispetto al link restoration
    • Reindirizzare il traffico dal percorso primario ad uno Shared Risk Group (SRG) – disgiungere i percorsi di back-up
    • Proteggere sia i percorsi end-to-end che i link singoli
    • Preferred: Path Based

Link vs. Path restoration


Pre-calcolato vs. Real-time

  • Pre-calcolato
    • Calcola percorsi di restoration prima ce si verifiche un fallimento
    • Associa maggiore disponibilità alle informazioni verso i nodi dov’è necessario eseguire interventi dopo che un fallimento dia rilevato
    • Abilita la fast restoration
  • Real-time
    • Calcola percorsi di restoration dopo che un fallimento si sia verificato
    • La restoration è lenta
    • Abilita l’utilizzo di capacità più efficienti
    • Preferred: Pre-computed

Centralizzato vs. Distribuito

  • Restoration centralizzata:
    • Calcola la restoration ed i percorsi primari per tutte le richieste con informazioni up-to-date
    • Le rotte possono poi essere scaricate in nodal database
    • Efficacia?
      • Più capacità efficiente
      • Possibilmente lento (ma può essere eseguito in background)
      • Scalabilità in valutazione
  • Restoration distribuita
  • Preferred:
  • Central path determination
  • Distributed Restoration
  • Preferred:
    • Central path determination
    • Distribuited Restoration

Topologie per la Protection – Linear

Due nodi connessi con tutti gli altri con due o più set di link

Due nodi connessi con tutti gli altri con due o più set di link


Mesh Restoration vs. Ring/Linear Protection


Restoration a livello IP

Restoration a livello IP (real-time)

  • Ottenuta scambiando messaggi di controllo tra router adiacenti
    • Ridetermina la rotta affetta
    • Aggiorna le tabelle di routing
    • Propaga i cambiamenti (OSPF, BGP-4)
  • È in grado di eseguire il recovery da fallimenti multipli
  • Lento. Richiede processing online in caso di fallimento
    • Ricerca del fallimento
      • Esplicita: messaggi ICMP
      • Implicita: scadenza dei timer
  • Garantisce la sopravvivenza della rete
  • È indipendente dal dalla rete fisica sottostante

Restoration a livello MPLS

Protection a livello MPLS

  • Real-time oppure pre-calcolata
  • Protezione a livello percorso oppure a livello linea
  • Il percorso protetto è node and link disjoint rispetto al percorso principale (non ha ne nodi ne link in comune)
  • Il path protetto può essere allocato per tr affico di priorità più bassa in assenza di failure
  • È più veloce rispetto al reindirizzamento IP dinamico

Restoration a livello ottico

Restoration a livello ottico

  • Real-time oppure pre-calcolato
  • Ring protection oppure mesh restoration
  • Non c’è visibilità nelle operazioni dei livelli più alti
  • L’utilizzo delle risorse può essere inefficiente
    • Per la ring protection, c’è oltre il 100% di capacità ridondante
    • Per la mesh restoration, tipicamente si ha il 60-80% di ridondanza a livello fisico
  • Non raccomandato per fallimenti di nodo (o software)
  • È più veloce rispetto alla restoration di livelli più alti

Recovery Multilivello

  • In una rete multilivello è possibile immaginare una situazione in cui ogni livello possegga meccanismi di recovery indipendenti
  • Non tutti i fallimenti ad un determinato livello possono essere risolti nel livello stesso
  • Se un fallimento può essere risolto in differenti livelli, azioni non coordinate possono generare risultati inefficienti
  • Un coordinamento tra livelli è necessario!!

Recovery Multilivello

Approccio sequenziale

  • Utilizzando un tempo di hold-off viene imposto un ordine cronologico tra i meccanismi di recovery adottati in differenti livelli
  • In maniera alternativa, un token può essere utilizzato per imporre un ordine sequenziale tra differenti livelli

Approccio integrato

  • C’è uno schema di recovery che possiede una visione completa di tutti i livelli
  • Lo schema di recovery può decidere quando ed in quale livello (o livelli) bisogna eseguire l’azione di recovery

I materiali di supporto della lezione

Jean-Philippe Vasseur, Mario Pickavet, Piet Demeester. “Network Recovery, protection and restoration of optical, SONET-SDH, IP and MPLS”. Morgan Kaufmann

AA. VV. Building Survivable Networks, Feature Issue of IEEE Network Magazine, March/April 2004

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion

Fatal error: Call to undefined function federicaDebug() in /usr/local/apache/htdocs/html/footer.php on line 93