Una delle finalità più comuni della statistica è la ricerca di relazioni di dipendenza tra fenomeni, con l’obiettivo di interpretare, prevedere e controllare.
Per fare ciò occorre rilevare e analizzare il contemporaneo presentarsi delle modalità di più variabili per studiarne la relazione.
Quando sulle unità statistiche di una data popolazione si osservano due, tre o più variabili (qualitative o quantitative) si parla di distribuzione multipla.
Si immagini di rilevare, sulle unità di una popolazione oggetto di studio, due variabili statistiche X e Y.
L’osservazione contemporanea di questi due fenomeni genera una variabile doppia (X, Y).
Una variabile doppia può essere:
La rilevazione di una variabile doppia su una data popolazione di N unità, consiste nella collezione delle coppie di osservazioni
(x1,y1) , (x2,y2) ,…, (xl,yl) ,…, (xN,yN)
opportunamente misurate sulle unità del collettivo.
I dati raccolti in questo modo generano una distribuzione unitaria doppia (o distribuzione seriale doppia) dove per ogni generica unità “l” si riporta la coppia di modalità della variabile doppia (X, Y).
Una prima sintesi in forma tabellare della variabile doppia si ottiene attraverso l’organizzazione di dati in una distribuzione doppia di frequenza.
Supponiamo che la variabile X assuma k modalità distinte e la variabile Y assuma invece h distinte modalità.
La tabella di frequenza avrà dimensione k x h (righe per colonne) considerando X e Y rispettivamente come variabili di riga e di colonna.
Con nij si indica la frequenza assoluta congiunta, cioè il numero di unità statistiche che contemporaneamente assumono la modalità i della X e la modalità j della Y.
La distribuzione doppia può essere rappresentata anche con le frequenze relative.
Ciò si ottiene rapportando a tutte le frequenze congiunte N, il totale di unità che compongono la popolazione.
Per le frequenze di una distribuzione doppia (assolute o relative) valgono le stesse proprietà viste per le distribuzioni di frequenza semplici.
Proprietà delle frequenze assolute
Caratteristiche principali
nij = frequenza congiunta o doppia
ni+ = totali di riga =
n+j = totali di colonna =
Proprietà delle frequenze assolute
fij = frequenza relativa congiunta
fi+ = totali di riga =
f+j = totali di colonna =
Sulla popolazione di 75 clienti napoletani di una agenzia di viaggio sono stati rilevati la nazionalità (X) e la categoria dell’albergo dove hanno soggiornato (Y) nella loro vacanza. I dati sono riportati nella tabella.
Data una distribuzione doppia (X,Y), se fissiamo il valore xi per la variabile X ed esaminiamo la distribuzione di Y limitatamente alle osservazioni che hanno assunto la modalità i-esima della X, allora si ottiene la distribuzione condizionata della Y dato xi.
Formalmente indicheremo con (Y|X= xi) la variabile condizionata Y.
Esempio
Nell’esempio della slide precedente, se fissiamo la modalità 1 della X (X=italiani) e analizziamo la Y, il risultato sarà la distribuzione delle strutture prescelte (Y) limitatamente ai turisti italiani.
Questa è una distribuzione condizionata.
Data una variabile condizionata (Y|X= xi), si dice profilo la distribuzione di frequenza relativa della variabile condizionata.
Un profilo si ottiene rapportando ogni frequenza della distribuzione condizionata al relativo totale (frequenza marginale).
Se la distribuzione è condizionata rispetto ad una modalità della variabile riga (come la X in questo caso) allora si parla di profilo riga.
Al contrario si parlerà di profilo colonna.
I profili delle frequenze marginali prendono il nome di profilo medio di riga e profilo medio di colonna.
Nella prossima lezione si affronteranno i seguenti argomenti:
2. Caratteri statistici e scale di misura
3. Sintesi tabellare e grafica di una distribuzione statistica
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
10. Interpolazione statistica e Retta di regressione
11. Elementi di calcolo delle probabilità
12. Introduzione alle variabili casuali
13. Modelli per variabili casuali discrete di uso comune
14. Modelli per variabili casuali continue di uso comune
15. Introduzione alle serie storiche
16. Approccio classico: Modello di decomposizione di una serie storica