L’associazione fra variabili quantitative
Premessa:
- La metodologia descritta nella precedente lezione può essere applicata anche in presenza di variabili quantitative, anche se è opportuno ricorrere a strumenti specifici che tengono conto della particolare natura di queste variabili.
- Ad esempio, se volessimo studiare la dipendenza di un carattere quantitativo da un carattere qualitativo o discreto, sarebbe opportuno effettuare uno studio sulla indipendenza in media.
- Ancora, se volessimo studiare la interdipendenza tra due caratteri quantitativi, sarebbe opportuno effettuare uno studio di correlazione.
L’indipendenza in media
- Dati Y (un carattere quantitativo) ed X (un carattere qualitativo o discreto).
- Un carattere quantitativo Y è indipendente in media da X se le medie condizionate di Y per ogni xi sono uguali alla media generale di Y.
Y|X=xi = Y ∀ i=1, 2, … , k
L’indipendenza in media
- L’indice più opportuno per lo studio della relazione tra una variabile qualitativa ed una quantitativa, dove la variabile quantitativa dipende da quella qualitativa, è l’indice η2.
η2Y|X = Dev.(B)/Dev.(Y)
- Il rapporto è dato dalla devianza tra i gruppi (Between), indicata con Dev.(B) sulla devianza totale indicata con Dev.(Y).
La decomposizione della devianza
La decomposizione della devianza
Dev.(Y)= Dev.(W) + Dev.(B)
L’indipendenza in media
Il rapporto di correlazione η2 è illustrato in figura.
Proprietà del rapporto di correlazione:
0 ≤ η2Y/X ≤ 1
- η2Y/X = 1 ⇒ Dipendenza perfetta
- η2Y/X = 0 ⇒ Indipendenza in media
L’interdipendenza tra caratteri quantitativi
- Il grado di interdipendenza tra due caratteri quantitativi può essere valutato attraverso lo studio della correlazione.
- Una misura della correlazione è data dal calcolo del coefficiente di correlazione di Bravais-Pearson. tra caratteri quantitativi.
L’interdipendenza tra caratteri quantitativi
- Dati due caratteri quantitativi X e Y. Consideriamo le variabili “scarto dalla media”:
dx = xi – x
dy = yi – y
- è possibile avere, per ogni i-ma unità, coppie di scarti dalla media che siano concordi oppure discordi.
La Covarianza
- I caratteri presentano concordanza se la maggior parte degli scostamenti sono concordi.
- I caratteri presentano discordanza se la maggior parte degli scostamenti sono discordi.
Proprietà della covarianza
La Correlazione
- La covarianza può assumere valori all’interno di: -σXσY ≤ σXY ≤ σXσY
- Cov(X, Y) = 0, correlazione nulla (assenza di legame lineare tra X ed Y).
- Cov(X, Y) > 0, correlazione positiva (a variazioni positive di X si accompagnano, in media, variazioni positive di Y).
- Cov(X, Y) < 0, correlazione negativa (a variazioni negative di X si accompagnano, in media, variazioni positive di Y e viceversa).
Il coefficiente di correlazione lineare
A partire dai valori che può assumere la covarianza si può introdurre un indice relativo: il coefficiente di correlazione lineare di Bravais e Pearson.
ρXY = Corr(X,Y) = Cov(X,Y)/σXσY
Proprietà del coefficiente di correlazione
-1 ≤ Corr(X,Y) ≤ +1
- Corr(X, Y) = 0, correlazione nulla (assenza di legame lineare tra X ed Y).
- Corr(X, Y) > 0, correlazione positiva (a variazioni positive di X si accompagnano, in media, variazioni positive di Y).
- Corr(X, Y) < 0, correlazione negativa (a variazioni negative di X si accompagnano, in media, variazioni positive di Y e viceversa).
Proprietà del coefficiente di correlazione
Corr(X,Y) = +1 ⇒ Y = a + b⋅X
Corr(X,Y) = -1 ⇒ Y = a – b⋅X
- Corr(X, Y) = +1, esiste un legame lineare positivo perfetto tra X ed Y.
- Corr(X, Y) = -1, esiste un legame lineare negativo perfetto tra X ed Y.
Legame lineare negativo perfetto
Legame lineare positivo perfetto
Proprietà del coefficiente di correlazione
X e Y indipendenti ⇒ Corr(X,Y) = 0
Corr(a + bX,c + dY) = segno(b⋅d)corr(X,Y)
Corr(X,Y) = corr(Y,X)
Corr(X,X) = 1
Correlazione spuria
- Può accadere che il legame tra X ed Y esiste non in modo diretto ma perché entrambe le variabili dipendono da una terza variabile Z che le influenza entrambe.
- Esempio: esiste una forte correlazione positiva tra l’arrivo di turisti e le vendite di gelati. In realtà entrambi i fenomeni sono legati all’aumento delle temperature estive.
Prossima lezione
Elementi di calcolo delle probabilità
- Concezioni alternative di probabilità
- L’assiomatizzazione