Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Amalia Caputo » 13.Introduzione all'analisi dei dati con variabili cardinali


Distribuzioni di dati con variabili cardinali

Le singole categorie delle variabili cardinali
non hanno alcuna autonomia semantica

Diviene, quindi rilevante, l’andamento globale dell’intera distribuzione.
È comunque possibile ottenere una distribuzione con un numero molto alto di modalità.

Valori caratteristici

I valori caratteristici delle distribuzioni di dati con variabili cardinali devono tener conto:

  • delle frequenze di tutte le modalità della distribuzione;
  • del valore “cardinale” delle etichette.

Possiamo ritenere che tutti i valori caratteristici che concernono esclusivamente le variabili cardinali sono valori sintetici, in quanto sono determinati sulla base delle frequenze di tutte le modalità e del valore cardinale delle relative etichette numeriche.

I valori caratteristici delle variabili cardinali si distinguono in:

  1. Valori di tendenza centrale;
  2. Valori di dispersione.

I valori di tendenza centrale

Le misure di tendenza centrale che si possono applicare alle variabili cardinali sono anche quelle che si applicano alle variabili categoriali.

Questo perché – come detto nelle precedenti lezioni – le tecniche d’analisi che si possono applicare alle variabili sono cumulative:

  1. Moda
  2. Mediana
  3. Quantili
  4. Midrange
  5. Media aritmetica

1. La moda

La moda rappresenta la categoria con la frequenza più alta.

Esempio: si voglia calcolare la moda nella distribuzione di frequenza della variabile età di una classe di primo anno del liceo.


2. La mediana

La mediana di una distribuzione è la modalità del caso che lascia dietro di sé il 50% della distribuzione.

Se N è dispari c’è un unico caso centrale:

Me=\frac{N+1}2

Se N è pari ci sono due casi centrali che potrebbero generare una distribuzione bimodale qualora i due casi ricadessero in due categorie differenti e la formula è la seguente:

Me=\frac N 2

Me=\frac N 2 + 1

Individuazione della mediana per distribuzioni con variabili cardinali

Calcolo della mediana a partire dalle frequenze (tabella A)

N = 22 (pari)
mediana = 22/2 = 11°
mediana = 22/2+1 = 12°

La Md è costituita dai casi che occupano l’11° e il 12° posto nella sequenza ordinata delle frequenze, cioè è 15.

Calcolo della mediana a partire dai casi (tabella B)

N = 4 (pari)
mediana = 4/2 = 2°
mediana = 4/2+1 = 3°

La Md è costituita dai casi che occupano il 2° e il 3°posto nella sequenza ordinata dei casi, cioè cade tra Caio e Tizio (15 e 16 anni).

Tabella A

Tabella A

Tabella B

Tabella B


3. I quantili

Con lo stesso criterio è possibile individuare anche i QUANTILI.
(decili, quartili e percentili-cfr lezione n.12).

4. La media

La media è il valore che rappresenta la ripartizione di una variabile cardinale tra le unità del collettivo. Si ottiene sommando i valori di tutte le osservazioni presenti nel collettivo e dividendo il totale così ottenuto per il numero di osservazioni.

\bar x= \frac{\sum X_i}N

Esempio: Si voglia calcolare l’età media di un nucleo familiare composto da 5 membri.


La media ponderata

Quando i dati sono organizzati in una distribuzione di frequenza oppure sono raggruppati in classi, ciascuna frequenza rappresenta il “peso” di ciascun valore Xi; in questi casi per individuare la media è necessario ponderare pesare (ponderare) le Xi associate a ciascuna frequenza.

In questi casi si parla di media ponderata

\bar x=\frac{\sum x_if_i}{\sum f_i}

Dove:
n = numero dei valori distinti di Xi
fi = frequenza (peso) di ciascun valore Xi

La media ponderata: distribuzione di frequenza

Esempio 1:

Si voglia calcolare la media ponderata dei voti riportati da 40 studenti all’esame di Tecniche di ricerca sociale (N=40).


La media ponderata: Dati raggruppati in classe

Esempio: Si voglia calcolare la media ponderata dei voti riportati all’esame di maturità da alcuni studenti.

Esempio: Si voglia calcolare la media ponderata dei voti riportati all'esame di maturità da alcuni studenti.


5. Il midrange

Altra misura di tendenza centrale che possiamo applicare alle variabili cardinali è il midrange.

Midrange= (valore minimo + valore massimo)/2

A cosa serve?
Questo valore sintetico ci permette di valutare rapidamente il grado di asimmetria di una distribuzione.

Se la mediana<midrange allora l’asimmetria sarà positiva.
Se la mediana>midrange allora l’asimmetria sarà negativa.

Midrange: esempio

Calcolo del Midrange nella distribuzione A

Valore max= 29;
Valore min = 25
Midrange=(25 + 29)/2=27 anni

Calcolo del Midrange nella distribuzione B

Valore max= 29;
Valore min = 25
Midrange=(25 + 29)/2=27 anni

Distribuzione A

Distribuzione A

Distribuzione B

Distribuzione B


Il concetto di dispersione

Esempio: Le due distribuzioni rappresentate di seguito hanno la stessa media ma dispersioni diverse: la prima è certamente meno dispersa rispetto alla seconda.


I valori di dispersione

  1. Scarto
  2. Scarto Medio assoluto
  3. Intervallo di variazione
  4. Campo di variazione o Range
  5. Lo Scarto medio interquartile (Galton, 1875)
  6. Le Differenze medie assolute (Leti,1983)
  7. Differenza semplice media

1. Scarto dalla media

I valori di dispersione rilevano quanto la distribuzione è dispersa dai valori centrali.

Scarto dalla media

X_i-\bar X \Longrightarrow x_i

dove xi è una forma contratta per indicare lo scarto dalla media.

Lo scarto, detto anche scostamento o deviation rappresenta la distanza di un valore dalla media aritmetica della distribuzione.

Se Xi > X lo scarto avrà segno positivo
Se Xi < X lo scarto avrà segno negativo.

La somma degli scarti dalla media è sempre UGUALE a 0.

2. Scarto Medio Assoluto o Scostamento Semplice Medio


3. Intervallo di variazione

|val.min-val.max|

Calcolo del Range nella distribuzione A (N=5)
Valore max= 29;
Valore min = 25
IV= |25 – 29| = 4 anni

Calcolo del Range nella distribuzione B (N=100)
Valore max= 40;
Valore min = 10
IV= |25-29| = 4 anni

Distribuzione A

Distribuzione A

Distribuzione B

Distribuzione B


4. Campo di variazione o range

|CV = Valmax – Valmin|

Indica l’intervallo di valori entro cui è raccolta la distribuzione di frequenza.

Calcolo del Range nella distribuzione A
Valore max= 29;
Valore min = 25
Range= 29 – 25 = 4 anni

Calcolo del Range nella distribuzione B
Valore max= 29
Valore min = 25
Range= 29 – 25 = 4 anni

Distribuzione A

Distribuzione A

Distribuzione B

Distribuzione B


Altri valori di dispersione

5. Lo Scarto (medio) interquartile (Galton).
Lo scarto interquartile detto anche quartile deviation rappresenta la metà della differenza tra il primo e il terzo quartile.

\frac{\text {I quartile - III quartile}}2

6. Le Differenze medie assolute (Leti,1983)

\frac{\sum (ai-ah)^2}{n(n-1)}

dove i=I caso h=II caso

7. Differenza semplice media (Gini, 1955)

\frac {\sum |ai-ah|}{n(n-1)}

Valori di tendenza centrale e di dispersione a confronto: Es. 1


Valori di tendenza centrale e di dispersione a confronto: Es. 2


Conclusioni

Nelle prossime lezioni (Lez. 14) si tratteranno gli indici sintetici.

I materiali di supporto della lezione

Marradi A., L'analisi Monovariata, Milano, Franco Angeli, 1993

Galton F., Statistics by Intercomparison, in "Philos. Mag.", serie IV, 49, pp 33-46, 1875

Leti G., Statistica Descrittiva, Il Mulino, Bologna, 1983

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion