Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Scienze Matematiche Fisiche e Naturali
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Massimo Brescia » 26.Tecnologie di indagine scientifica in Astrofisica - parte terza


MLP – Architettura funzionale

Neurone artificiale di Mc-Culloch e Pitts

Neurone artificiale di Mc-Culloch e Pitts

Funzioni di attivazione

Funzioni di attivazione

Neurone biologico

Neurone biologico


MLP – Apprendimento Back Propagation


SLP – Esempio: la funzione logica AND


MLP – Esempio: la funzione logica XOR


Reti unsupervised – SOM – Architettura

SOM (Self Organising Map), o rete di Kohonen dal nome del suo inventore, è costituita da una rete a due strati, uno input e l’altro output.

I neuroni dello strato di output sono connessi, ciascuno, con un “vicinato” di neuroni secondo un sistema di inibizione laterale definito a “cappello messicano”.

I pesi dei collegamenti intra-strato dello strato di output non sono soggetti ad apprendimento ma sono fissi e positivi nella periferia adiacente ad ogni neurone.

SOM

SOM


Reti unsupervised – SOM – Apprendimento

Ogni neurone del Kohonen layer riceve uno stimolo che è pari alla sommatoria degli inputs moltiplicati per il rispettivo peso sinaptico:
A(j)=S(k)w(j,k)*x(k)

Tra tutti i neuroni di output viene scelto quello con valore di attivazione maggiore che assume quindi il valore 1, mentre tutti gli altri assumono il valore 0 secondo la tecnica “WTA”(Winner Takes All). Lo scopo di una rete di Kohonen è quello di avere, per inputs simili, neuroni vincenti vicini, così che ogni bolla di attivazione rappresenta una classe di inputs aventi caratteristiche somiglianti.
Tale comportamento si ottiene dopo la presentazione di molti inputs per un certo numero di volte alla rete, modificando, ad ogni iterazione solo i pesi che collegano il neurone vincente con quelli dello strato di input secondo la formula:
W(k,j)new=W(k,j)old+e*(X(k)-W(k,j)old)

dove W(k,j)= peso sinaptico del collegamento tra input k e neurone vincente
X(k)= input k-esimo dell’input pattern
epsilon= costante di apprendimento nel range [0.1,1]

Schema di apprendimento di una SOM

Schema di apprendimento di una SOM


Gas – Algoritmi Genetici – Processo fisico

Si ispirano al meccanismo dell’evoluzione darwiniana della specie vivente.

Processo fisico

  • viene generata una popolazione iniziale di individui
  • mediante un meccanismo di riproduzione vengono generati nuovi individui, manipolando il materiale genetico della popolazione iniziale
  • gli individui competono tra loro e quelli che meglio si adattano all’ambiente hanno maggiori probabilità di sopravvivenza e di trasmettere il patrimonio genetico alle generazioni future
  • la popolazione evolve, di generazione in generazione, incrementando il numero degli individui migliori in essa presenti.

Gas – Algoritmi Genetici – Modello matematico


Gas – operatori genetici

  • Entrambi gli operatori possono essere creati in varie versioni (agenti su sotto-stringhe genetiche variabili in dimensione);
  • Il crossover ricombina il materiale genetico esistente;
  • La mutazione introduce nuovo materiale genetico;
  • Pc e Pm si scelgono in modo euristico con in genere Pm < Pc;
Crossover – per ogni coppia viene applicato con probabilità Pc

Crossover - per ogni coppia viene applicato con probabilità Pc

Mutazione – per ogni cromosoma viene applicato con probabilità Pm

Mutazione - per ogni cromosoma viene applicato con probabilità Pm


Gas – popolazione di cromosomi

Codifica soluzioni

  • Codifica binaria o con numeri reali.
  • Codifica binaria standard, codifica di Gray.
  • Ns: numero di bit; risoluzione discretizzazione variabile continua
  • Cromosoma: unione delle stringhe binarie che rappresentano le variabili. Ogni bit è detto gene. Il valore che può assumere il bit (0,1) è detto allele;
  • La lunghezza Lc del cromosoma: Lc=Ns1+ Ns2+… +NsN
  • Dimensione dello spazio di ricerca: 2Lc

Rappresentazione

  • La popolazione iniziale viene creata generando gli individui in maniera casuale.
  • Il numero Np di cromosomi generati è la dimensione della popolazione
  • Np è scelto in maniera euristica ed è dipendente dalla natura della funzione obiettivo e dalle dimensioni dello spazio di ricerca
  • Nei GAs standard Np rimane fisso durante l’evoluzione

Gas – criteri di selezione – Fitness

Fitness o Funzione Obiettivo

  • La funzione obiettivo gioca il ruolo dell’ambiente nel corso dell’evoluzione.
  • Eventuali vincoli di eguaglianza possono essere trattati inserendo termini penalizzanti nella funzione obiettivo.
  • Si può riportare nella nuova generazione l’elemento migliore della precedente popolazione: elitismo.
  • Alla fine della selezione gli individui della popolazione intermedia vengono mischiati casualmente
  • roulette wheel:
    • la popolazione è rappresentata mediante una ruota di roulette con i settori proporzionali alla fitness degli elementi; la pallina viene lanciata Np volte e gli elementi che hanno fitness migliore hanno probabilità maggiore di essere scelti.
  • tournament selection:
    • vengono scelti 2 individui a caso e quello tra i due che ha la fitness migliore viene copiato nella nuova popolazione; l’operazione viene ripetuta Np volte; prima della selezione gli individui vengono mescolati (shuffle).

Sistemi Ibridi – MLP con GAs


AI in AstroFisica – Lo spazio dei parametri

Come già detto, la nuova indagine astrofisica (multi-epoca e multi-banda) apre nuove prospettive nel modo in cui fare scienza. E’ cruciale quindi definire in modo formale il concetto di spazio dei parametri astronomico (APS).

Questo è uno spazio n-dimensionale PN i cui assi sono definiti come “osservabili” (cioè quantità derivate da misure astronomiche).

Ogni osservazione astronomica O è associata a varie quantità osservabili (es. un flusso misurato fA(t) è associato almeno al numero t, tempo di misura del flusso, ed al numero A, banda in cui il flusso è stato osservato. Per cui ogni osservazione può essere associata ad un punto o ∈ Rm ⊂ RN, ove solitamente m < N.

In tal senso un’osservazione astronomica è un’informazione incompleta, definita in PN Per esempio, un oggetto nell’Universo è definito in uno spazio ON-2 incluso in PN (N-2 per via delle coordinate RA e DEC con cui si identifica la posizione sulla sfera celeste).

Spazio dei parametri

Spazio dei parametri


Ricerca nello spazio dei parametri

Il problema è come riuscire a fare ricerca in questo spazio multi-dimensionale?

Il problema è come riuscire a fare ricerca in questo spazio multi-dimensionale?


AI in AstroFisica – Lo spazio dei parametri

L’introduzione dell’APS offre la possibilità di osservare la storia delle scoperte da un nuovo punto di vista.
Qualsiasi nuova scoperta in astronomia può essere annoverata in uno dei 2 processi:

  • esplorazione delle regioni dell’APS più sconosciute (unknown);
  • ricerca di correlazioni tra regioni apparentemente disgiunte dell’APS (outliers);

D’altra parte, avere strumenti in grado di analizzare e correlare informazioni in uno spazio multi-dimensionale i dati osservativi, permette un’indagine scientifica completa e potenzialmente nuova.

Ecco perchè le tecniche di AI risultano indicate per questo scopo!

A generic machine – assisted discovery problem

A generic machine - assisted discovery problem


AI in AstroFisica – Esempi applicativi

Auto-adaptive integration of spectroscopic and photometric data, such as the evaluation of photometric redshifts as generalization of feature learning on spectroscopic data;

Detection and study of the photometric (variable objects) and astrometric (Near Earth Objects or NEO) transients in archival and digital survey data;

Physical classication of the extra- galactic objects paying special care to the spectroscopic classication of Active Galactic Nuclei (AGN);

Better knowledge on AGN physical properties;

Star/Galaxy separation and classication;

Automatic evaluation of the Point Spread Function (PSF) in frames coming from digital surveys;

Analysis of Globular Clusters to find unexpected correlations and dynamical evolution features;

Tecniche di validazione

Cross-validation è un metodo statistico per validare un modello predittivo. Preso un campione di dati, esso viene suddiviso in sottoinsiemi, alcuni dei quali usati per la costruzione del modello (training sets) e altri da confrontare con le predizioni del modello (validation sets). Mediando la qualità delle predizioni tra i vari insiemi di validazione si ha una misura dell’accuratezza delle predizioni.

  • Tutti i dati sono utilizzati per il training ed il test in modo indipendente.
  • Si hanno K classificatori (2≤K≤n) i cui output possono essere mediati.
  • Problema: per grandi dataset il metodo leave-one-out richiede molto tempo di calcolo.
La K-fold cross-validation, divide i dati in K sottoinsiemi, ognuno dei quali è lasciato fuori a turno come insieme di validazione

La K-fold cross-validation, divide i dati in K sottoinsiemi, ognuno dei quali è lasciato fuori a turno come insieme di validazione

La Leave-one-out cross validation lascia fuori una singola osservazione alla volta

La Leave-one-out cross validation lascia fuori una singola osservazione alla volta


Confusion Matrix

Una rappresentazione utile è la matrice di confusione.
L’elemento sulla riga i e sulla colonna j è il numero assoluto oppure la percentuale di casi della classe “vera” i che il classificatore ha classificato nella classe j.
Sulla diagonale principale ci sono i casi classificati correttamente. Gli altri sono errori.
Sulla classe A l’accuratezza è 60 / 87 = 69,0%.
Sulla classe B è 34 / 60 = 56,7% e sulla classe C è 42 / 53 = 79,2%.
L’accuratezza complessiva è (60 + 34 + 42) / 200 = 136 / 200 = 68,0%.
Gli errori sono il 32%, cioè 64 casi su 200. Il valore di questa classificazione dipende non solo dalle percentuali, ma anche dal costo delle singole tipologie di errore. Se C è la classe che è più importante classificare bene, ciò è positivo.


MLP – Limiti in prestazione

Il modello MLP, per sua natura, si presta a problemi di regressione e classificazione. Ovviamente ha dei limiti nelle prestazioni, dovuti a diverse sorgenti di “noise”:

Model Variance
Insiemi diversi di dati di training e pesi iniziali generano apprendimenti diversi, cioè predizioni differenti. Rispetto alla copertura dello spazio dei parametri una rete può avere varianza variabile sui dati per le varie regioni dello spazio.
Più in generale, in una certa regione l’apprendimento può essere dipendente in misura differente dai dati scelti: se i dati sono molto sparsi in una regione, la rete avrà un’alta varianza e viceversa.
Stessa cosa dicasi per i pesi iniziali. In questo caso però la dipendenza del training dai pesi è anche influenzata dalla natura più o meno complessa della funzione di apprendimento (esempio: il gradiente discendente può convergere in un minimo locale). Questi difetti possono essere minimizzati introducendo un maggior contributo statistico nell’apprendimento, ad esempio con gli algoritmi genetici.

Model Bias
La rete può fallire in certe regioni dello spazio dei parametri, sia a causa della regola di training che della natura dei dati usati. Se la topologia della rete non è sufficientemente complessa (numero di pesi e/o strati hidden) l’apprendimento potrebbe risultare deficitario. Viceversa se risulta troppo complessa, la rete potrebbe convergere sotto-soglia troppo presto.

MLP – Limiti in prestazione (…segue)

Il modello MLP, per sua natura, si presta a problemi di regressione e classificazione. Ovviamente ha dei limiti nelle prestazioni, dovuti a diverse sorgenti di “noise”:

Target Noise
In alcune regioni i pattern input possono non essere predittivi per i dati target, introducendo noise. L’incertezza indotta è in tal caso irriducibile.

Input Noise
I pattern input hanno in generale un certo grado di incertezza. Questa si propaga attraverso la rete, risultando in incertezza di predizione. Si assume in generale l’esistenza di una funzione iniettiva dallo spazio dei parametri allo spazio target, ma spesso l’incertezza sui dati potrebbe rendere impossibile l’identificazione della rete con tale funzione (di cui non si conosce la forma analitica).

Ensemble of Networks

La banale ma vera affermazione che più cervelli lavorano meglio di uno solo si può applicare al machine learning e al pattern recognition.
Ciò ha portato alla teoria dei Multiple Classifier Systems (MCS)

Uno dei metodi più generalizzati è il cosiddetto “Stacked Approach“. I k output dei classificatori si possono considerare come features di un nuovo problema di classificazione, cui applicarvi quindi in stacking un altro gruppo o singolo classificatore. In tal caso il Combiner è un altro classificatore (“gating network“) al secondo livello. Questo approccio è particolarmente usato quando la rete di classificatori è composta da reti neurali.

Un MCS consiste in un “ensemble” di differenti algoritmi di classificazione ed una funzione f(.) che combini gli output dei classificatori

Un MCS consiste in un "ensemble" di differenti algoritmi di classificazione ed una funzione f(.) che combini gli output dei classificatori


Esempio: clustering ensemble


Esigenza di calcolo distribuito

VOTable, tecniche di AI risolvono il problema di standardizzare la rappresentazione e la manipolazione distribuita dell’informazione.

Ma come implementare in modo standard e distribuito tutto ciò?

Tipologia di calcolo distribuito

Tipologia di calcolo distribuito


La legge di Moore

Gordon E. Moore (co-fondatore della Intel) predisse (Electronics, Vol 38, Number 8, 1965) che la densita’ dei transistor di un chip a semiconduttore sarebbe raddoppiata circa ogni 18 mesi.
Oggi abbiamo raggiunto il limite fisico della legge di Moore. Ecco perchè si è passati direttamente alle farm con architetture parallele multi-core e multi-processore.

Legge di Moore

Legge di Moore


Oltre la legge di Moore…

Nel frattempo, in molte scienze (fra cui Astrofisica) l’ammontare dei dati cresce ben oltre la legge di Moore, poichè la tecnologia specifica evolve più rapidamente ed anche perchè i costi di storage diminuiscono più della legge di Moore.
Dunque, cari colleghi astronomi tecnologi, impariamo a fare gli informatici…

…sursum corda!


Le lezioni del Corso

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion