Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Scienze Matematiche Fisiche e Naturali
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Massimo Brescia » 24.Tecnologie di indagine scientifica in Astrofisica - parte prima


Gli odierni dati astrofisici

In campo astrofisico i dati scientifici con i quali fare scienza possono essere suddivisi nelle seguenti categorie:

Datacube o classi di array: blocchi multi-dimensionali di dati, sottoforma di serie temporali, spettri monodimensionali, immagini, spettri nel dominio del tempo o della frequenza (bidimensionali); dataset composti da voxel (virtual observation pixels), immagini iper-spettrali in 3D. Tali tipologie sono processabili mediante le odierne tecnologie computazionali;

Record o tabelle di eventi: anche noti come dati multi-parametro. Questi dataset possono provenire da singoli strumenti (ad esempio accelleratori di particelle) o derivare da suddivisioni di datacube (ad esempio laddove le stelle sono identificate da immagini astronomiche). Tali tipologie sono processabili mediante le moderne tecniche di information retrieval nei database relazionali;

Sequenze simboliche: lo spazio dei parametri (ossia il luogo dei punti che identificano la rappresentazione di un problema scientifico) può essere rappresentato mediante ontologie atte ad identificarne determinate caratteristiche peculiari. Ad esempio nomi, etichette che identificano univocamente una o più caratteristiche note o ipotizzate dei dati a disposizione. Tali tipologie sono processabili mediante tecniche di pattern matching.

Tipi di dati

Tipi di dati

Tipi di dati

Tipi di dati


Da dove provengono i dati astrofisici


LSST – Large Synoptic Survey Telescope – 1

Il telescopio

LSST

  • 8.4m, f/1.25;
  • 3.5 deg di FOV coprente un piano focale flat di 64 cm di diametro (on sky 9.6 gradi quadrati di FOV);
  • survey di 20000 gradi quadrati in 6 bande (0.3 – 1.1 micron);
  • CCD array da 3200 Megapixel;
  • immagine mosaico in output da 3 Gigapixel; 30 TB di dati per notte;
Il sito ufficiale

Il sito ufficiale

Edificio completo

Edificio completo


LSST – Large Synoptic Survey Telescope – 2

Il telescopio

LSST

  • 8.4m, f/1.25;
  • 3.5 deg di FOV coprente un piano focale flat di 64 cm di diametro (on sky 9.6 gradi quadrati di FOV);
  • survey di 20000 gradi quadrati in 6 bande (0.3 – 1.1 micron);
  • CCD array da 3200 Megapixel;
  • immagine mosaico in output da 3 Gigapixel; 30 TB di dati per notte;
Configurazione ottica

Configurazione ottica

Il primario

Il primario


LSST – Large Synoptic Survey Telescope – 3

Configurazione ottica e Strumentazione

  • ottiche convesse e asferiche più grandi del mondo;
  • CCD array da 3200 Megapixel, segmenti da 64cm di diametro;
  • immagine mosaico in output da 3 Gigapixel;
  • secondario convesso da 3.4m;
  • terziario da 5m;
  • 80% EE ( diffraction limited, 0.3 arcsec in tutte le bande).
Disegno della camera

Disegno della camera

Scala strumento (luna)

Scala strumento (luna)


LSST – Large Synoptic Survey Telescope – 4

Simulation in SDSS field. Fonte: LSST

Simulation in SDSS field. Fonte: LSST

Presentazione LSST

Presentazione LSST


EELT – European Extremely Large Telescope – 1

Il telescopio

  • 42m f/16, 985 segmenti con ottica attiva e adattiva;
  • configurazione ottica multipla;
  • due stazioni Nasmyth, ciascuna grande quanto un campo da tennis;
  • diffraction limited;
  • edificio con diametro 100m e altezza 80m, peso totale 5000 tons;
  • fino a 10 strumenti di piano focale installati in contemporanea;
  • nuove frontiere in risoluzione e sensibilità dello spazio dei parametri;
  • sito ufficiale in fase di esplorazione (Marocco, Cile, Canarie, Argentina);
  • 4 anni previsti per la sola progettazione e studio di fattibilità;
  • 8 anni previsti per la realizzazione (prima luce prevista nel 2020);
LSST simulation in SDSS field Fonte LDSS website

LSST simulation in SDSS field Fonte LDSS website

Presentazione EELT. Fonte: ESO

Presentazione EELT. Fonte: ESO


EELT – European Extremely Large Telescope – 2

Configurazioni ottiche

  • Primario f/1, 42m segmentato (984 segmenti da 1.45m), spesso 50mm;
  • secondario da 6m;
  • terziario da 4.2m con sistema di ottica adattiva composta da 2 specchi(2.5m con 5000 attuatori e freq. 1 KhZ, 2.7m per correzione finale);
  • 2 fuochi Nasmyth mediante 3 specchi anastigmatici, f/17.7, FOV 10′;
  • Qualità ottica diffraction limited in tutta la banda;
  • La curvatura di campo è bassa e centrata sulla pupilla d’uscita;
  • Nasmyth trasformabile in un fuoco gravity-invariant;
  • un fuoco Coudè f/60 e 20″ di FOV,
  • un fuoco intermedio f/4.15 dopo la riflessione da M2, con un camposeeing-limited di 1′, che può essere usato come piano focale per un ADC;
Modello edificio EELT. Fonte: ESO

Modello edificio EELT. Fonte: ESO


EELT – European Extremely Large Telescope – 3

Strumentazione di piano focale

  • fino a 10 strumenti in contemporanea;
  • ottica attiva per M1 e M2;
  • ottica adattiva da M3 in poi con frequenza di 1 KhZ.

Scienza

  • pianeti extra-solari; formazione pianeti, evoluzione stellare extra-galattica, buchi neri, fisica delle galassie ad alto redshift;
  • espansione dell’Universo con osservazione diretta;
Stazione Nasmyth – ESO

Stazione Nasmyth - ESO

Copertura della banda di lunghezze d’onda prevista – ESO

Copertura della banda di lunghezze d'onda prevista - ESO


ALMA – 1

Atacama Large Millimiter/submillimeter Array

ALMA

Oltre 64 antenne da 12m nel sito cileno di Llano de Chajnantor a oltre 5000m di altitudine;

Consorzio ESO (32 antenne europee) – NRAO (32 antenne USA)

Operativo dal 2012;

Configurazione spaziale variabile da 150m a 10Km;

Osservazioni 24h al giorno;

Imaging tra 10mm e 350μm (onde radio – onde infrarosse);

Risoluzione spaziale di 10 milliarcsec, 10 volte quella di Hubble Space Telescope;

Sito cileno di ALMA a 5000m di quota

Sito cileno di ALMA a 5000m di quota

Simulazione del sito di Alma con varie antenne installate

Simulazione del sito di Alma con varie antenne installate


ALMA – 2

Atacama Large Millimiter/submillimeter Array

ALMA

Fisica del freddo Universo, regioni otticamente troppo buie;

Immagini radio di galassie in formazione risalenti a oltre 12 miliardi di anni fa;

Composizione chimica di stelle e pianeti ignoti ancora in fase di formazione;

Strumentazione basata su STJ mixers, operanti a circa 4K (-269°C);

ALMA formerà immagini combinando segnali da varie configurazioni di antenne, con larghezza di banda di 16 GHz;

L’elettronica sarà digitalizzata con tempo di quantizzazione di 1.6 x 1016 operazioni al secondo;

Speciali mezzi di trasporto, progettati per muovere un’antenna di circa 115 tons, posizionandola nelle fondamenta con precisione millimetrica;

Simulazione del trasporto di un’antenna in sito

Simulazione del trasporto di un'antenna in sito

Il mezzo di trasporto reale delle antenne

Il mezzo di trasporto reale delle antenne


Motivi del burst tecnologico in Astronomia

L’odierno fenomeno di burst tecnologico è primariamente dovuto al fatto che:

  • Molte fra le principali scoperte astronomiche provengono dal confronto incrociato di moli di dati presi a diverse lunghezze d’onda;

Oltre a permettere la ricerca di:

  • Quasars
  • Gamma-ray bursts
  • Galassie IR ultra-luminose
  • Buchi neri binari nell’X-ray
  • Radio galaxies

. . .

Dunque l’odierna tecnologia deve permettere l’accesso a enormi database multi-banda distribuiti, oltre all’analisi, mining ed esplorazione dei dati.

Ciò conduce a:

→ X-INFORMATICS

Lo shutter del mosaic CCD OmegaCAM può ospitare 20 bottiglie di vino

Lo shutter del mosaic CCD OmegaCAM può ospitare 20 bottiglie di vino

Il mosaico CCD 16K x 16K di OmegaCAM

Il mosaico CCD 16K x 16K di OmegaCAM


Alla ricerca di un altro modo di fare astrofisica


X-Informatics

X-Informatics è la disciplina dedicata alla strutturazione, memorizzazione, accesso e distribuzione dell’informazione che descrive sistemi complessi

Esempi:

  1. Biology and brain research (= Bioinformatics)
  2. Geographic Information Systems (= Geoinformatics)
  3. New! Discovery Informatics for Astronomy (= Astroinformatics)

X-Informatics – elementi chiave

Estrazione e processamento dell’informazione, integrazione di dati da domini e sorgenti eterogenei, rivelazione di eventi, riconoscimento di caratteristiche;

Strumenti per analizzare e memorizzare enormi archivi di dati;

Rappresentazione della conoscenza, inclusi vocabolari, ontologie, simulazioni, realtà virtuale;

Unione di risultati su modelli ed esperimenti;

Uso innovativo di IT (Information Technology) in applicazioni scientifiche, incluso il supporto alle decisioni, riduzione degli errori, analisi dei risultati;

Efficiente utilizzo e gestione dei dati, incluse l’acquisizione e la gestione della conoscenza, modellazione di processi, data mining, acquisizione e disseminazione, presentazione grafica, amministrazione di archivi di dati su larga scala;

Interazione uomo-macchina, inclusi progettazione di interfacce, uso e comprensione di agenti per il flusso di analisi delle informazioni, gestione di pipeline custom;

HPC (High Performance Computing) legato ad applicazioni scientifiche, inclusi calcolo distribuito, trasmissione e supporto alle decisioni in real-time;

Elemento chiave per nuove scoperte in grandi basi di dati

Standard tools per integrazione, esplorazione e scoperta dei dati

X-Informatics diventa una disciplina autonoma nell’ambito della ricerca scientifica

X-informatics rappresenta la 4a legge della ricerca scientifica (dopo sperimentazione, teoria, simulazioni)

AstroInformatics – I livelli di conoscenza


Data Mining


I dati astrofisici

L’esplorazione scientifica moderna dell’Universo multi-banda e K-epoca implica la ricerca di pattern, trend tra N punti in uno spazio multi-dimensionale DxK:

N >109, D>>100, K>10

Ogni dato osservato/simulato definisce un punto (regione) in un sottoinsieme di RN.

  • RA and dec
  • time
  • λ
  • setup sperimentale (risoluzione spaziale e spettrale, mag limite, brillanza, etc.)
  • flusso
  • polarizzazione
  • etc…

I dati astrofisici – Ingestione di moli di dati

N >109, D>>100, K>10

N >109, D>>100, K>10


L’indagine sui dati

La determinazione dello spazio dei parametri è cruciale per:

  1. Guidare la scoperta scientifica (esplorazione di regioni poco conosciute, …);
  2. Trovare nuove leggi fisiche (patterns);
  3. Identificare nuove correlazioni fra variabili di un fenomeno.

N = no. di dati, D = no. di dimensioni

  • Querying: nearest-neighbor O(logN), spherical range-search O(logN)
  • Density estimation: mixture of Gaussians O(logN)
  • Regression: linear regression O(D), Gaussian process regression O(N)
  • Classification: nearest-neighbor classifier O(N), support vector machine O(N)
  • Dimension reduction: principal component analysis O(D)
  • Clustering: k-means O(logN), hierarchical clustering O(NlogN)
  • Time series analysis: Kalman filter O(D), hidden Markov model, trajectory tracking
  • Cross-matching: O(N)

Data Analysis – Tassonomia funzionale


Data Analysis – Classificazione

Elementi singoli raggruppati in base a informazioni su una o più caratteristiche interne e attraverso una procedura supervised (training con dati noti);

Un classificatore compie una mappatura da uno spazio di parametri X ad un insieme di label Y (assegna una label predefinita ad ogni campione);

Formalmente: classificatore h:X->Y associa xεX ad una label yεY.

a) crispy: dato un pattern input x (vettore), restituisce la sua label y (scalare);

b) probabilistic: dato un pattern input x (vettore), restituisce un vettore y contenente le probabilità di appartenenza di x agli elementi della classe di y;

Entrambi i casi si possono applicare ai casi di classificazione “2-class” e “multi-class”;

La classificazione è basata su almeno tre step:

training, mediante un training set (coppie input-output);

testing, mediante un test set di dati input, il cui output è una statistica relativa al grado di appartenenza a diverse classi (confusion matrix, fuzzy, probabilità etc.);

evaluation, mediante un dataset non etichettato, il cui output è l’etichettatura rispetto alle classi predefinite;

La classificazione ha chiaramente una natura supervised;

Data Analysis – Regressione

Ricerca supervisionata di un’associazione da un dominio Rn ad uno Rm, con n>m distinguiamo 2 tipi: curve fitting e statistical correlation.

La prima tenta di validare un’ipotesi che la distribuzione dei dati segua una certa funzione;

la seconda tenta di trovare una funzione che correli i dati senza alcuna assunzione a priori circa la forma funzionale della distribuzione dei dati;

Curve fitting: date le coppie di vettori (x, y) e la forma funzionale che si vuole associare, il sistema trova i migliori parametri che identificano l’associazione ipotizzata;

Function approximation: date le coppie di vettori (x, y), il sistema trova il modello che meglio identifica la correlazione tra i dati (ad esempio una “black box” neurale che approssima una funzione analitica);

Data Analysis – Clustering

Suddivisione di un insieme di elementi, (rappresentati in forma varia all’interno di uno spazio di parametri), in clusters significa identificare dei sottogruppi accomunati da determinate caratteristiche (parametri).

Gli algoritmi che associano elementi a vari clusters possono essere probabilistici o deterministici. Nel primo caso, per ogni elemento vi è associata una probabilità o grado di appartenenza ad uno o più clusters. In questo tipo di associazione, generalmente, la somma delle probabilità associate ad un elemento è pari ad 1, ma non è sempre questo il caso.

Altri algoritmi sono in grado di generare una struttura gerarchica di clusters (struttura ad albero), in cui sulla sommità della struttura lo spazio dei parametri viene suddivisa in un numero limitato di clusters, ciascuno dei quali a sua volta viene suddiviso in vari sub-clusters, proseguendo tale suddivisione fino al livello base con granularità massima

Un qualunque metodo di clustering è generalmente caratterizzato da una fase in cui si applica una regola o insieme di regole che associano (raggruppano) i vari elementi tra loro. In questo senso, il clustering può divenire una fase intermedia di un processo complesso di “esplorazione” di uno spazio di parametri, piuttosto che il suo fine ultimo (esempio tipico: un processo di “classificazione”)

Data Analysis = approssimazione di funzioni

Data Analysis in generale come “function approximation”

Data Analysis in generale come "function approximation"


Le lezioni del Corso

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion