Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Amalia Caputo » 25.Relazione tra una variabile categoriale e una cardinale


Introduzione


Caratteristiche dell’ANOVA

Due sono i presupposti che devono esserci per applicare l’Analysis of Variation (ANOVA):

  1. Il ricercatore deve avere le idee molto chiare per quel che concerne la strutturazione del disegno della ricerca e le variabili da includere in essa, se già a priori saprà di voler ricorrere a tale tecnica. Questo punto è strettamente correlato al successivo.
  2. L’Anova è applicabile se e solo se è possibile stabilire quali siano le variabili indipendenti e quali le dipendenti. Come sottolineato nella lezione introduttiva all’analisi bivariata, questo nella ricerca sociale non è sempre possibile.

Fasi per valutare l’associazione

Le fasi per valutare se esiste o meno associazione tra due variabili (l’ indipendente categoriale e la dipendente cardinale) sono tre:

  1. suddividere l’insieme dei casi secondo le categorie della variabile categoriale, creare cioè dei gruppi;
  2. calcolare la MEDIA della variabile cardinale in ciascuno dei gruppi;
  3. a partire dalle variazioni fra le medie nei vari gruppi, valutare l’associazione fra le due variabili.

Fasi per valutare l’associazione: esempio

Consideriamo

  • la Var. categoriale ordinata (X) ………… residenza (regioni italiane)
  • la Var. cardinale (Y) ………………………..reddito mensile

Per valutare l’associazione è necessario:

  1. suddividere l’insieme dei casi secondo le regioni in cui è divisa l’Italia (gruppi);
  2. calcolare la MEDIA dei redditi in ciascuna regione italiana (in ciascuno dei gruppi);
  3. confrontare le medie dei redditi delle varie regioni italiane.

L’analisi della varianza

Vediamo ora nel dettaglio i passaggi che ci consentono di effettuare un’ANOVA.

Riprendendo l’esempio di prima.

Si ipotizza che la residenza (X) influenza il reddito (Y).

Il reddito del caso i residente nella regione j si può esprimere: Scarto del reddito di i dal reddito (figura 1).
Questo scarto è scomponibile in due parti:

  1. Scarto del reddito di i dal reddito della regione di appartenenza j (figura 2);
  2. Scarto del reddito della regione di appartenenza j dal reddito medio nazionale (figura 2).
Figura 1
Figura 2
Figura 3

Teorema fondamentale della varianza


Teorema fondamentale della varianza (segue)


In sintesi


Le rappresentazioni grafiche: il Box plot


Box plot: Caratteristiche

Si calcolano i valori (mediana ecc).

Sull’asse delle X (o delle Y) i valori della mediana, di Q1, Q3, ecc.

Il primo e terzo quartile costituiscono gli estremi della scatola del box plot la cui lunghezza è quindi rappresentata dalla differenza interquartile.

La linea orizzontale all’interno della scatola indica la mediana, per cui a seconda di quanto questa sarà posizionata centralmente si individueranno distribuzione più o meno simmetriche.

Le due linee esterne fuori dalla scatola sono anche dette baffi e sono delimitati, rispettivamente, dai valori minimo e massimo della distribuzione. Un baffo eccessivamente lungo indica la presenza di valori anomali.

Box plot

Box plot


Costruzione ed interpretazione di un box plot

Dal grafico si evince che solo l’ultima distribuzione presenta maggiore simmetria, per cui la media aritmetica è approssimativamente uguale alla mediana, rappresentata dal triangolino in giallo.

Confronto tra tre distribuzioni di frequenza (C. Iodice, 2002)

Confronto tra tre distribuzioni di frequenza (C. Iodice, 2002)


Assenza di variabilità interna: esempio


Assenza di variabilità esterna: esempio


La forza della relazione: Eta quadroo Rapporto di correlazione di Pearson (r2)

\eta^2=\frac{SQest}{SQtot}=\frac{SQspiegata}{SQtotale}=\frac{BSS}{TSS}

Quantifica, in %, la proporzione di devianza generale che è attribuita alla (cioè spiegata dalla) variabile indipendente (variabile categoriale).
In altri termini: È un coefficiente PRE ovvero consente di calcolare quanto migliora la capacità di predire i punteggi di un qualsiasi caso sulla variabile cardinale quando si conosce l’appartenenza di quel caso all’una o all’altra categoria (gruppo) della variabile categoriale e la media della variabile cardinale di ciascun gruppo.

L’eta quadro si interpreta allo stesso modo di R2

  • varia → -1 ≤η2≤+1
  • rel. assentre → η2=0
  • rel. positiva → η2=+1
  • rel. negativa→ η2=-1

Le tre caratteristiche di Eta-quadro

  1. Misura l’intensità della relazione e non la direzione.
  2. A parità di altre condizioni, più numerose sono le categorie della variabile categoriale, più è alta la varianza esterna, e quindi più è alto eta-quadro.
  3. Non è attendibile se N è troppo piccolo.

NB: Si considera interessante Eta-quadro ≥ 0,10; raramente Eta quadro ≤ 0,30.
Anche se Eta-quadro ≤ 0,10 non è detto che la relazione non sia interessante; infatti per valutare la foza della relazione è bene sempre far riferimento anche alle differenze fra le medie dei gruppi e ai valori caratteristici della distribuzione di ciascun gruppo.

Significatività della relazione

Per stabilire la significatività statistica della relazione si pongono due ipotesi

  1. H0 = le medie di gruppo Y.j provengono dalla stessa popolazione (i dati nella popolazione sono uguali);
  2. H1 = le medie di gruppo Y.j non provengono dalla stessa popolazione (i dati nella popolazione sono diversi).

Stima della varianza della popolazione (quadrati medi) con significatività dello 0,05


Distribuzione di F – livello di probabilità dello 0,05


Alcune note

L’ANOVA è tra le tecniche di analisi causale più importante.

Il pregio maggiore dell’analisi della varianza è che pone in relazione una variabile cardinale non più con un’altra variabile cardinale (entrambe pensate sempre come rappresentazione di proprietà continue; Ricolfi, 2002), ma con una variabile categoriale.
Fu Fisher (1935) attraverso i disegni sperimentali che introdusse un metodo per spiegare la relazione tra una variabile dipendente cardinale mediante una o più variabili indipendenti categoriali.

Il limite di questa tecnica di analisi risiede nell’età quadro: questo coefficiente misura SOLO l’intensità della relazione e non la direzione.
Per stabilire la direzione è necessario ricorrere alle ipotesi che vanno poi corroborate. Ad esempio: la regione di residenza influenza il reddito.
Inoltre, l’ANOVA non spiega ma riproduce; la spiegazione è, dunque, successiva

Analisi della varianza: esempio


I materiali di supporto della lezione

Corbetta P. G., La ricerca sociale: metodologia e tecniche- L'analisi dei dati, Bologna, Il mulino, 2003.

Marradi A., 1997, Linee guida per l'analisi bivariata dei dati nelle scienze sociali, Franco Angeli, Milano.

Iodice C., Compendio di statistica, vol. 43/1, Edizioni Simone 2002.

Tukey J.W., Exploratory Data Analysis, Addison-Wesley, Reading, Massachusetts,USA, 1977

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion