In campo astrofisico i dati scientifici con i quali fare scienza possono essere suddivisi nelle seguenti categorie:
Datacube o classi di array: blocchi multi-dimensionali di dati, sottoforma di serie temporali, spettri monodimensionali, immagini, spettri nel dominio del tempo o della frequenza (bidimensionali); dataset composti da voxel (virtual observation pixels), immagini iper-spettrali in 3D. Tali tipologie sono processabili mediante le odierne tecnologie computazionali;
Record o tabelle di eventi: anche noti come dati multi-parametro. Questi dataset possono provenire da singoli strumenti (ad esempio accelleratori di particelle) o derivare da suddivisioni di datacube (ad esempio laddove le stelle sono identificate da immagini astronomiche). Tali tipologie sono processabili mediante le moderne tecniche di information retrieval nei database relazionali;
Sequenze simboliche: lo spazio dei parametri (ossia il luogo dei punti che identificano la rappresentazione di un problema scientifico) può essere rappresentato mediante ontologie atte ad identificarne determinate caratteristiche peculiari. Ad esempio nomi, etichette che identificano univocamente una o più caratteristiche note o ipotizzate dei dati a disposizione. Tali tipologie sono processabili mediante tecniche di pattern matching.
Il telescopio
Il telescopio
Configurazione ottica e Strumentazione
Il telescopio
Configurazioni ottiche
Modello edificio EELT. Fonte: ESO
Strumentazione di piano focale
Scienza
Atacama Large Millimiter/submillimeter Array
Oltre 64 antenne da 12m nel sito cileno di Llano de Chajnantor a oltre 5000m di altitudine;
Consorzio ESO (32 antenne europee) – NRAO (32 antenne USA)
Operativo dal 2012;
Configurazione spaziale variabile da 150m a 10Km;
Osservazioni 24h al giorno;
Imaging tra 10mm e 350μm (onde radio – onde infrarosse);
Risoluzione spaziale di 10 milliarcsec, 10 volte quella di Hubble Space Telescope;
Atacama Large Millimiter/submillimeter Array
Fisica del freddo Universo, regioni otticamente troppo buie;
Immagini radio di galassie in formazione risalenti a oltre 12 miliardi di anni fa;
Composizione chimica di stelle e pianeti ignoti ancora in fase di formazione;
Strumentazione basata su STJ mixers, operanti a circa 4K (-269°C);
ALMA formerà immagini combinando segnali da varie configurazioni di antenne, con larghezza di banda di 16 GHz;
L’elettronica sarà digitalizzata con tempo di quantizzazione di 1.6 x 1016 operazioni al secondo;
Speciali mezzi di trasporto, progettati per muovere un’antenna di circa 115 tons, posizionandola nelle fondamenta con precisione millimetrica;
L’odierno fenomeno di burst tecnologico è primariamente dovuto al fatto che:
Oltre a permettere la ricerca di:
. . .
Dunque l’odierna tecnologia deve permettere l’accesso a enormi database multi-banda distribuiti, oltre all’analisi, mining ed esplorazione dei dati.
Ciò conduce a:
→ X-INFORMATICS
X-Informatics è la disciplina dedicata alla strutturazione, memorizzazione, accesso e distribuzione dell’informazione che descrive sistemi complessi
Esempi:
Estrazione e processamento dell’informazione, integrazione di dati da domini e sorgenti eterogenei, rivelazione di eventi, riconoscimento di caratteristiche;
Strumenti per analizzare e memorizzare enormi archivi di dati;
Rappresentazione della conoscenza, inclusi vocabolari, ontologie, simulazioni, realtà virtuale;
Unione di risultati su modelli ed esperimenti;
Uso innovativo di IT (Information Technology) in applicazioni scientifiche, incluso il supporto alle decisioni, riduzione degli errori, analisi dei risultati;
Efficiente utilizzo e gestione dei dati, incluse l’acquisizione e la gestione della conoscenza, modellazione di processi, data mining, acquisizione e disseminazione, presentazione grafica, amministrazione di archivi di dati su larga scala;
Interazione uomo-macchina, inclusi progettazione di interfacce, uso e comprensione di agenti per il flusso di analisi delle informazioni, gestione di pipeline custom;
HPC (High Performance Computing) legato ad applicazioni scientifiche, inclusi calcolo distribuito, trasmissione e supporto alle decisioni in real-time;
Elemento chiave per nuove scoperte in grandi basi di dati
Standard tools per integrazione, esplorazione e scoperta dei dati
X-Informatics diventa una disciplina autonoma nell’ambito della ricerca scientifica
X-informatics rappresenta la 4a legge della ricerca scientifica (dopo sperimentazione, teoria, simulazioni)
L’esplorazione scientifica moderna dell’Universo multi-banda e K-epoca implica la ricerca di pattern, trend tra N punti in uno spazio multi-dimensionale DxK:
N >109, D>>100, K>10
Ogni dato osservato/simulato definisce un punto (regione) in un sottoinsieme di RN.
La determinazione dello spazio dei parametri è cruciale per:
N = no. di dati, D = no. di dimensioni
Elementi singoli raggruppati in base a informazioni su una o più caratteristiche interne e attraverso una procedura supervised (training con dati noti);
Un classificatore compie una mappatura da uno spazio di parametri X ad un insieme di label Y (assegna una label predefinita ad ogni campione);
Formalmente: classificatore h:X->Y associa xεX ad una label yεY.
a) crispy: dato un pattern input x (vettore), restituisce la sua label y (scalare);
b) probabilistic: dato un pattern input x (vettore), restituisce un vettore y contenente le probabilità di appartenenza di x agli elementi della classe di y;
Entrambi i casi si possono applicare ai casi di classificazione “2-class” e “multi-class”;
La classificazione è basata su almeno tre step:
training, mediante un training set (coppie input-output);
testing, mediante un test set di dati input, il cui output è una statistica relativa al grado di appartenenza a diverse classi (confusion matrix, fuzzy, probabilità etc.);
evaluation, mediante un dataset non etichettato, il cui output è l’etichettatura rispetto alle classi predefinite;
La classificazione ha chiaramente una natura supervised;
Ricerca supervisionata di un’associazione da un dominio Rn ad uno Rm, con n>m distinguiamo 2 tipi: curve fitting e statistical correlation.
La prima tenta di validare un’ipotesi che la distribuzione dei dati segua una certa funzione;
la seconda tenta di trovare una funzione che correli i dati senza alcuna assunzione a priori circa la forma funzionale della distribuzione dei dati;
Curve fitting: date le coppie di vettori (x, y) e la forma funzionale che si vuole associare, il sistema trova i migliori parametri che identificano l’associazione ipotizzata;
Function approximation: date le coppie di vettori (x, y), il sistema trova il modello che meglio identifica la correlazione tra i dati (ad esempio una “black box” neurale che approssima una funzione analitica);
Suddivisione di un insieme di elementi, (rappresentati in forma varia all’interno di uno spazio di parametri), in clusters significa identificare dei sottogruppi accomunati da determinate caratteristiche (parametri).
Gli algoritmi che associano elementi a vari clusters possono essere probabilistici o deterministici. Nel primo caso, per ogni elemento vi è associata una probabilità o grado di appartenenza ad uno o più clusters. In questo tipo di associazione, generalmente, la somma delle probabilità associate ad un elemento è pari ad 1, ma non è sempre questo il caso.
Altri algoritmi sono in grado di generare una struttura gerarchica di clusters (struttura ad albero), in cui sulla sommità della struttura lo spazio dei parametri viene suddivisa in un numero limitato di clusters, ciascuno dei quali a sua volta viene suddiviso in vari sub-clusters, proseguendo tale suddivisione fino al livello base con granularità massima
Un qualunque metodo di clustering è generalmente caratterizzato da una fase in cui si applica una regola o insieme di regole che associano (raggruppano) i vari elementi tra loro. In questo senso, il clustering può divenire una fase intermedia di un processo complesso di “esplorazione” di uno spazio di parametri, piuttosto che il suo fine ultimo (esempio tipico: un processo di “classificazione”)
1. Programmazione in Matlab - parte prima
2. Programmazione in Matlab - parte seconda. Caratterizzazione del...
3. Caratterizzazione dell'atmosfera per le osservazioni - parte se...
4. Caratterizzazione dell'atmosfera per le osservazioni - parte te...
5. Caratterizzazione dell'atmosfera per le osservazioni - parte qu...
6. Principi di fotometria e spettroscopia - parte seconda
7. Principi di fotometria e spettroscopia - parte terza
8. Principi di fotometria e spettroscopia - parte quarta
9. Principi di fotometria e spettroscopia - parte quinta
10. Principi di fotometria e spettroscopia - parte sesta
11. Ottica dei telescopi - parte prima
12. Ottica dei telescopi - parte seconda
13. Principi di Ray Tracing - parte prima
14. Principi di Ray Tracing - parte seconda. Ottica Attiva e Adatti...
15. Ottica Attiva e Adattiva - parte seconda
16. Ottica Attiva e Adattiva - parte terza
17. Ottica Attiva e Adattiva - parte quarta
18. Rivelatori per l'Astrofisica - parte prima
19. Rivelatori per l'Astrofisica - parte seconda
20. Telescopi per raggi cosmici - parte prima
21. Telescopi per raggi cosmici - parte seconda. Sistemi di Control...
22. Sistemi di Controllo di Telescopi - parte seconda
23. Sistemi di Controllo di Telescopi - parte terza
24. Tecnologie di indagine scientifica in Astrofisica - parte prima
25. Tecnologie di indagine scientifica in Astrofisica - parte secon...
26. Tecnologie di indagine scientifica in Astrofisica - parte terza
27. Tecnologie di indagine scientifica in Astrofisica - parte quart...
28. Tecnologie di indagine scientifica in Astrofisica - parte quint...
29. Tecnologie di indagine scientifica in Astrofisica - parte sesta