Una delle finalità più comuni della statistica è la ricerca di relazioni di dipendenza tra fenomeni, con l’obiettivo di interpretare, prevedere e controllare.
Per fare ciò occorre rilevare e analizzare il contemporaneo presentarsi delle modalità di più variabili per studiarne la relazione.
Quando sulle unità statistiche di una data popolazione si osservano due, tre o più variabili (qualitative o quantitative) si parla di distribuzione multipla.
Si immagini di rilevare, sulle unità di una popolazione oggetto di studio, due variabili statistiche X e Y.
L’osservazione contemporanea di questi due fenomeni genera una variabile doppia (X, Y).
Una variabile doppia può essere:
La rilevazione di una variabile doppia su una data popolazione di N unità, consiste nella collezione delle coppie di osservazioni:
(x1,y1) , (x2,y2) ,…, (xl,yl) ,…, (xN,yN)
opportunamente misurate sulle unità del collettivo.
I dati raccolti in questo modo generano una distribuzione unitaria doppia (o distribuzione seriale doppia) dove per ogni generica unità “l” si riporta la coppia di modalità della variabile doppia (X, Y).
Una prima sintesi in forma tabellare della variabile doppia si ottiene attraverso l’organizzazione di dati in una distribuzione doppia di frequenza.
Supponiamo che la variabile X assuma k modalità distinte e la variabile Y assuma invece h distinte modalità.
La tabella di frequenza avrà dimensione k x h (righe per colonne) considerando X e Y rispettivamente come variabili di riga e di colonna.
Con nij si indica la frequenza assoluta congiunta, cioè il numero di unità statistiche che contemporaneamente assumono la modalità i della X e la modalità j della Y.
La distribuzione doppia può essere rappresentata anche con le frequenze relative.
Ciò si ottiene rapportando a tutte le frequenze congiunte N, il totale di unità che compongono la popolazione.
Per le frequenze di una distribuzione doppia (assolute o relative) valgono le stesse proprietà viste per le distribuzioni di frequenza semplici.
Data una distribuzione doppia (X,Y),
se fissiamo il valore xi per la variabile X ed esaminiamo la distribuzione di Y limitatamente alle osservazioni che hanno assunto la modalità i-esima della X, allora si ottiene la distribuzione condizionata della Y dato xi .
Formalmente indicheremo con (Y|X= xi) la variabile condizionata Y.
Esempio
Nell’esempio della slide precedente, se fissiamo la modalità 1 della X (X=italiani) e analizziamo la Y, il risultato sarà la distribuzione delle strutture prescelte (Y) limitatamente ai turisti italiani.
Questa è una distribuzione condizionata.
Data una variabile condizionata (Y|X= xi),
si dice profilo la distribuzione di frequenza relativa della variabile condizionata.
Un profilo si ottiene rapportando ogni frequenza della distribuzione condizionata al relativo totale (frequenza marginale).
Se la distribuzione è condizionata rispetto ad una modalità della variabile riga (come la X in questo caso) allora si parla di profilo riga.
Al contrario si parlerà di profilo colonna.
I profili delle frequenze marginali prendono il nome di profilo medio di riga e profilo medio di colonna.
Nella prossima lezione si affronteranno i seguenti argomenti:
1. Introduzione
3. Distribuzioni di frequenza e rappresentazioni grafiche
4. Indici statistici di posizione
5. Indici statistici di variabilità
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: Associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
11. Rapporti statistici e numeri indici
12. Introduzione al calcolo delle probabilità