Home

Federica EU

1/20

Amalia Caputo » 25.Relazione tra una variabile categoriale e una cardinale

Introduzione

Caratteristiche dell’ANOVA

Due sono i presupposti che devono esserci per applicare l’Analysis of Variation (ANOVA):

Il ricercatore deve avere le idee molto chiare per quel che concerne la strutturazione del disegno della ricerca e le variabili da includere in essa, se già a priori saprà di voler ricorrere a tale tecnica. Questo punto è strettamente correlato al successivo.
L’Anova è applicabile se e solo se è possibile stabilire quali siano le variabili indipendenti e quali le dipendenti. Come sottolineato nella lezione introduttiva all’analisi bivariata, questo nella ricerca sociale non è sempre possibile.

Fasi per valutare l’associazione

Le fasi per valutare se esiste o meno associazione tra due variabili (l’ indipendente categoriale e la dipendente cardinale) sono tre:

suddividere l’insieme dei casi secondo le categorie della variabile categoriale, creare cioè dei gruppi;
calcolare la MEDIA della variabile cardinale in ciascuno dei gruppi;
a partire dalle variazioni fra le medie nei vari gruppi, valutare l’associazione fra le due variabili.

Fasi per valutare l’associazione: esempio

Consideriamo

la Var. categoriale ordinata (X) ………… residenza (regioni italiane)
la Var. cardinale (Y) ………………………..reddito mensile

Per valutare l’associazione è necessario:

suddividere l’insieme dei casi secondo le regioni in cui è divisa l’Italia (gruppi);
calcolare la MEDIA dei redditi in ciascuna regione italiana (in ciascuno dei gruppi);
confrontare le medie dei redditi delle varie regioni italiane.

L’analisi della varianza

Vediamo ora nel dettaglio i passaggi che ci consentono di effettuare un’ANOVA.

Riprendendo l’esempio di prima.

Si ipotizza che la residenza (X) influenza il reddito (Y).

Il reddito del caso i residente nella regione j si può esprimere: Scarto del reddito di i dal reddito (figura 1).
Questo scarto è scomponibile in due parti:

Scarto del reddito di i dal reddito della regione di appartenenza j (figura 2);
Scarto del reddito della regione di appartenenza j dal reddito medio nazionale (figura 2).

Teorema fondamentale della varianza

Teorema fondamentale della varianza (segue)

In sintesi

Le rappresentazioni grafiche: il Box plot

Box plot: Caratteristiche

Si calcolano i valori (mediana ecc).

Sull’asse delle X (o delle Y) i valori della mediana, di Q1, Q3, ecc.

Il primo e terzo quartile costituiscono gli estremi della scatola del box plot la cui lunghezza è quindi rappresentata dalla differenza interquartile.

La linea orizzontale all’interno della scatola indica la mediana, per cui a seconda di quanto questa sarà posizionata centralmente si individueranno distribuzione più o meno simmetriche.

Le due linee esterne fuori dalla scatola sono anche dette baffi e sono delimitati, rispettivamente, dai valori minimo e massimo della distribuzione. Un baffo eccessivamente lungo indica la presenza di valori anomali.

Box plot

Costruzione ed interpretazione di un box plot

Dal grafico si evince che solo l’ultima distribuzione presenta maggiore simmetria, per cui la media aritmetica è approssimativamente uguale alla mediana, rappresentata dal triangolino in giallo.

Confronto tra tre distribuzioni di frequenza (C. Iodice, 2002)

Assenza di variabilità interna: esempio

Assenza di variabilità esterna: esempio

La forza della relazione: Eta quadroo Rapporto di correlazione di Pearson (r²)

$\eta^2=\frac{SQest}{SQtot}=\frac{SQspiegata}{SQtotale}=\frac{BSS}{TSS}$

Quantifica, in %, la proporzione di devianza generale che è attribuita alla (cioè spiegata dalla) variabile indipendente (variabile categoriale).
In altri termini: È un coefficiente PRE ovvero consente di calcolare quanto migliora la capacità di predire i punteggi di un qualsiasi caso sulla variabile cardinale quando si conosce l’appartenenza di quel caso all’una o all’altra categoria (gruppo) della variabile categoriale e la media della variabile cardinale di ciascun gruppo.

L’eta quadro si interpreta allo stesso modo di R²

varia → -1 ≤η²≤+1
rel. assentre → η²=0
rel. positiva → η²=+1
rel. negativa→ η²=-1

Le tre caratteristiche di Eta-quadro

Misura l’intensità della relazione e non la direzione.
A parità di altre condizioni, più numerose sono le categorie della variabile categoriale, più è alta la varianza esterna, e quindi più è alto eta-quadro.
Non è attendibile se N è troppo piccolo.

NB: Si considera interessante Eta-quadro ≥ 0,10; raramente Eta quadro ≤ 0,30.
Anche se Eta-quadro ≤ 0,10 non è detto che la relazione non sia interessante; infatti per valutare la foza della relazione è bene sempre far riferimento anche alle differenze fra le medie dei gruppi e ai valori caratteristici della distribuzione di ciascun gruppo.

Significatività della relazione

Per stabilire la significatività statistica della relazione si pongono due ipotesi

H0 = le medie di gruppo Y.j provengono dalla stessa popolazione (i dati nella popolazione sono uguali);
H1 = le medie di gruppo Y.j non provengono dalla stessa popolazione (i dati nella popolazione sono diversi).

Stima della varianza della popolazione (quadrati medi) con significatività dello 0,05

Distribuzione di F – livello di probabilità dello 0,05

Alcune note

L’ANOVA è tra le tecniche di analisi causale più importante.

Il pregio maggiore dell’analisi della varianza è che pone in relazione una variabile cardinale non più con un’altra variabile cardinale (entrambe pensate sempre come rappresentazione di proprietà continue; Ricolfi, 2002), ma con una variabile categoriale.
Fu Fisher (1935) attraverso i disegni sperimentali che introdusse un metodo per spiegare la relazione tra una variabile dipendente cardinale mediante una o più variabili indipendenti categoriali.

Il limite di questa tecnica di analisi risiede nell’età quadro: questo coefficiente misura SOLO l’intensità della relazione e non la direzione.
Per stabilire la direzione è necessario ricorrere alle ipotesi che vanno poi corroborate. Ad esempio: la regione di residenza influenza il reddito.
Inoltre, l’ANOVA non spiega ma riproduce; la spiegazione è, dunque, successiva