SOM (Self Organising Map), o rete di Kohonen dal nome del suo inventore, è costituita da una rete a due strati, uno input e l’altro output.
I neuroni dello strato di output sono connessi, ciascuno, con un “vicinato” di neuroni secondo un sistema di inibizione laterale definito a “cappello messicano”.
I pesi dei collegamenti intra-strato dello strato di output non sono soggetti ad apprendimento ma sono fissi e positivi nella periferia adiacente ad ogni neurone.
Ogni neurone del Kohonen layer riceve uno stimolo che è pari alla sommatoria degli inputs moltiplicati per il rispettivo peso sinaptico:
A(j)=S(k)w(j,k)*x(k)
Tra tutti i neuroni di output viene scelto quello con valore di attivazione maggiore che assume quindi il valore 1, mentre tutti gli altri assumono il valore 0 secondo la tecnica “WTA”(Winner Takes All). Lo scopo di una rete di Kohonen è quello di avere, per inputs simili, neuroni vincenti vicini, così che ogni bolla di attivazione rappresenta una classe di inputs aventi caratteristiche somiglianti.
Tale comportamento si ottiene dopo la presentazione di molti inputs per un certo numero di volte alla rete, modificando, ad ogni iterazione solo i pesi che collegano il neurone vincente con quelli dello strato di input secondo la formula:
W(k,j)new=W(k,j)old+e*(X(k)-W(k,j)old)
dove W(k,j)= peso sinaptico del collegamento tra input k e neurone vincente
X(k)= input k-esimo dell’input pattern
epsilon= costante di apprendimento nel range [0.1,1]
Si ispirano al meccanismo dell’evoluzione darwiniana della specie vivente.
Processo fisico
Codifica soluzioni
Rappresentazione
Fitness o Funzione Obiettivo
Come già detto, la nuova indagine astrofisica (multi-epoca e multi-banda) apre nuove prospettive nel modo in cui fare scienza. E’ cruciale quindi definire in modo formale il concetto di spazio dei parametri astronomico (APS).
Questo è uno spazio n-dimensionale PN i cui assi sono definiti come “osservabili” (cioè quantità derivate da misure astronomiche).
Ogni osservazione astronomica O è associata a varie quantità osservabili (es. un flusso misurato fA(t) è associato almeno al numero t, tempo di misura del flusso, ed al numero A, banda in cui il flusso è stato osservato. Per cui ogni osservazione può essere associata ad un punto o ∈ Rm ⊂ RN, ove solitamente m < N.
In tal senso un’osservazione astronomica è un’informazione incompleta, definita in PN Per esempio, un oggetto nell’Universo è definito in uno spazio ON-2 incluso in PN (N-2 per via delle coordinate RA e DEC con cui si identifica la posizione sulla sfera celeste).
L’introduzione dell’APS offre la possibilità di osservare la storia delle scoperte da un nuovo punto di vista.
Qualsiasi nuova scoperta in astronomia può essere annoverata in uno dei 2 processi:
D’altra parte, avere strumenti in grado di analizzare e correlare informazioni in uno spazio multi-dimensionale i dati osservativi, permette un’indagine scientifica completa e potenzialmente nuova.
Ecco perchè le tecniche di AI risultano indicate per questo scopo!
Auto-adaptive integration of spectroscopic and photometric data, such as the evaluation of photometric redshifts as generalization of feature learning on spectroscopic data;
Detection and study of the photometric (variable objects) and astrometric (Near Earth Objects or NEO) transients in archival and digital survey data;
Physical classication of the extra- galactic objects paying special care to the spectroscopic classication of Active Galactic Nuclei (AGN);
Better knowledge on AGN physical properties;
Star/Galaxy separation and classication;
Automatic evaluation of the Point Spread Function (PSF) in frames coming from digital surveys;
Analysis of Globular Clusters to find unexpected correlations and dynamical evolution features;
Cross-validation è un metodo statistico per validare un modello predittivo. Preso un campione di dati, esso viene suddiviso in sottoinsiemi, alcuni dei quali usati per la costruzione del modello (training sets) e altri da confrontare con le predizioni del modello (validation sets). Mediando la qualità delle predizioni tra i vari insiemi di validazione si ha una misura dell’accuratezza delle predizioni.
Una rappresentazione utile è la matrice di confusione.
L’elemento sulla riga i e sulla colonna j è il numero assoluto oppure la percentuale di casi della classe “vera” i che il classificatore ha classificato nella classe j.
Sulla diagonale principale ci sono i casi classificati correttamente. Gli altri sono errori.
Sulla classe A l’accuratezza è 60 / 87 = 69,0%.
Sulla classe B è 34 / 60 = 56,7% e sulla classe C è 42 / 53 = 79,2%.
L’accuratezza complessiva è (60 + 34 + 42) / 200 = 136 / 200 = 68,0%.
Gli errori sono il 32%, cioè 64 casi su 200. Il valore di questa classificazione dipende non solo dalle percentuali, ma anche dal costo delle singole tipologie di errore. Se C è la classe che è più importante classificare bene, ciò è positivo.
Il modello MLP, per sua natura, si presta a problemi di regressione e classificazione. Ovviamente ha dei limiti nelle prestazioni, dovuti a diverse sorgenti di “noise”:
Model Variance
Insiemi diversi di dati di training e pesi iniziali generano apprendimenti diversi, cioè predizioni differenti. Rispetto alla copertura dello spazio dei parametri una rete può avere varianza variabile sui dati per le varie regioni dello spazio.
Più in generale, in una certa regione l’apprendimento può essere dipendente in misura differente dai dati scelti: se i dati sono molto sparsi in una regione, la rete avrà un’alta varianza e viceversa.
Stessa cosa dicasi per i pesi iniziali. In questo caso però la dipendenza del training dai pesi è anche influenzata dalla natura più o meno complessa della funzione di apprendimento (esempio: il gradiente discendente può convergere in un minimo locale). Questi difetti possono essere minimizzati introducendo un maggior contributo statistico nell’apprendimento, ad esempio con gli algoritmi genetici.
Model Bias
La rete può fallire in certe regioni dello spazio dei parametri, sia a causa della regola di training che della natura dei dati usati. Se la topologia della rete non è sufficientemente complessa (numero di pesi e/o strati hidden) l’apprendimento potrebbe risultare deficitario. Viceversa se risulta troppo complessa, la rete potrebbe convergere sotto-soglia troppo presto.
Il modello MLP, per sua natura, si presta a problemi di regressione e classificazione. Ovviamente ha dei limiti nelle prestazioni, dovuti a diverse sorgenti di “noise”:
Target Noise
In alcune regioni i pattern input possono non essere predittivi per i dati target, introducendo noise. L’incertezza indotta è in tal caso irriducibile.
Input Noise
I pattern input hanno in generale un certo grado di incertezza. Questa si propaga attraverso la rete, risultando in incertezza di predizione. Si assume in generale l’esistenza di una funzione iniettiva dallo spazio dei parametri allo spazio target, ma spesso l’incertezza sui dati potrebbe rendere impossibile l’identificazione della rete con tale funzione (di cui non si conosce la forma analitica).
La banale ma vera affermazione che più cervelli lavorano meglio di uno solo si può applicare al machine learning e al pattern recognition.
Ciò ha portato alla teoria dei Multiple Classifier Systems (MCS)
Uno dei metodi più generalizzati è il cosiddetto “Stacked Approach“. I k output dei classificatori si possono considerare come features di un nuovo problema di classificazione, cui applicarvi quindi in stacking un altro gruppo o singolo classificatore. In tal caso il Combiner è un altro classificatore (“gating network“) al secondo livello. Questo approccio è particolarmente usato quando la rete di classificatori è composta da reti neurali.
VOTable, tecniche di AI risolvono il problema di standardizzare la rappresentazione e la manipolazione distribuita dell’informazione.
Ma come implementare in modo standard e distribuito tutto ciò?
Gordon E. Moore (co-fondatore della Intel) predisse (Electronics, Vol 38, Number 8, 1965) che la densita’ dei transistor di un chip a semiconduttore sarebbe raddoppiata circa ogni 18 mesi.
Oggi abbiamo raggiunto il limite fisico della legge di Moore. Ecco perchè si è passati direttamente alle farm con architetture parallele multi-core e multi-processore.
Nel frattempo, in molte scienze (fra cui Astrofisica) l’ammontare dei dati cresce ben oltre la legge di Moore, poichè la tecnologia specifica evolve più rapidamente ed anche perchè i costi di storage diminuiscono più della legge di Moore.
Dunque, cari colleghi astronomi tecnologi, impariamo a fare gli informatici…
…sursum corda!
1. Programmazione in Matlab - parte prima
2. Programmazione in Matlab - parte seconda. Caratterizzazione del...
3. Caratterizzazione dell'atmosfera per le osservazioni - parte se...
4. Caratterizzazione dell'atmosfera per le osservazioni - parte te...
5. Caratterizzazione dell'atmosfera per le osservazioni - parte qu...
6. Principi di fotometria e spettroscopia - parte seconda
7. Principi di fotometria e spettroscopia - parte terza
8. Principi di fotometria e spettroscopia - parte quarta
9. Principi di fotometria e spettroscopia - parte quinta
10. Principi di fotometria e spettroscopia - parte sesta
11. Ottica dei telescopi - parte prima
12. Ottica dei telescopi - parte seconda
13. Principi di Ray Tracing - parte prima
14. Principi di Ray Tracing - parte seconda. Ottica Attiva e Adatti...
15. Ottica Attiva e Adattiva - parte seconda
16. Ottica Attiva e Adattiva - parte terza
17. Ottica Attiva e Adattiva - parte quarta
18. Rivelatori per l'Astrofisica - parte prima
19. Rivelatori per l'Astrofisica - parte seconda
20. Telescopi per raggi cosmici - parte prima
21. Telescopi per raggi cosmici - parte seconda. Sistemi di Control...
22. Sistemi di Controllo di Telescopi - parte seconda
23. Sistemi di Controllo di Telescopi - parte terza
24. Tecnologie di indagine scientifica in Astrofisica - parte prima
25. Tecnologie di indagine scientifica in Astrofisica - parte secon...
26. Tecnologie di indagine scientifica in Astrofisica - parte terza
27. Tecnologie di indagine scientifica in Astrofisica - parte quart...
28. Tecnologie di indagine scientifica in Astrofisica - parte quint...
29. Tecnologie di indagine scientifica in Astrofisica - parte sesta