Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Giancarlo Ragozini » 11.Studio della forma della distribuzione


Studio della forma della distribuzione

Forma di una distribuzione:

  • La forma di un insieme di dati descrive come i dati si distribuiscono intorno ai valori centrali relativamente alla simmetria o alla curtosi.
  • Due distribuzioni possono avere la stessa posizione e la stessa variabilità ma possono differire per l’importanza dei valori più grandi o più piccoli, rispetto al valore centrale, a causa di un comportamento differenziato nelle due “code” della distribuzione.

Studio della forma della distribuzione

Forma di una distribuzione:

  • Quando i dati sono distribuiti uniformemente su entrambi i lati del picco la distribuzione è simmetrica.
  • Quando i dati non sono distribuiti uniformemente su entrambi i lati del picco la distribuzione è asimmetrica.
  • Se la distribuzione è molto appuntita si dice leptocurtica.
  • Se la distribuzione è molto piatta si dice platicurtica.
Distribuzione simmetrica

Distribuzione simmetrica


Studio della forma della distribuzione

Forma di una distribuzione:

In una distribuzione unimodale valgono le seguenti relazioni:

  • Media = Mediana = Moda (simmetria)
  • Moda < Mediana < Media (asimmetria +)
  • Media < Mediana < Moda (asimmetria -)
Distribuzione asimmetrica

Distribuzione asimmetrica

Distribuzione asimmetrica

Distribuzione asimmetrica


Studio della forma della distribuzione

Indice di asimmetria di Fisher:

  • γ=0 → Simmetria
  • γ>0 → Asimmetria positiva
  • γ<0 → Asimmetria negativa

Per una serie numerica l’indice è espresso in prima immagine.

Per una distribuzione in classi l’indice è espresso in seconda immagine.

Esempio di calcolo

Indice per una serie numerica

Indice per una serie numerica

Indice per una distribuzione in classi

Indice per una distribuzione in classi


Studio della forma della distribuzione

La Curtosi:

  • Per curtosi si intende il maggiore o minore appuntimento e, conseguentemente, il peso più o meno marcato delle code rispetto alla parte centrale della distribuzione.
  • L’indice di curtosi proposto da Pearson (immagine) vale 3 per una distribuzione teorica simmetrica; per ottenere un valore confrontabile con zero, si introduce l’indice di curtosi di Fisher.

Esempio di calcolo

Studio della forma della distribuzione

Indice di curtosi di Fisher:

  • γ2=0 → Mesocurtica
  • γ2>0 → Leptocurtica
  • γ2<0 → Platicurtica

L’indice è espresso da γ22- 3

Confronto tra una distribuzione leptocurtica (blu), mesocurtica (nero) e platicurtica (rosso)

Confronto tra una distribuzione leptocurtica (blu), mesocurtica (nero) e platicurtica (rosso)


Studio della forma della distribuzione

Exploratory Data Analysis:

  • In questo tipo di analisi si enfatizza l’esplorazione dei dati ed è usata come analisi preliminare ed indispensabile per qualsiasi altro di tipo analisi.
  • Lo spirito è quello di utilizzare strumenti analitici, di tipo robusto, e grafici per evidenziare tutte le caratteristiche strutturali dei dati.

Studio della forma della distribuzione

Sintesi a cinque

Sintesi a cinque


Studio della forma della distribuzione

Il Box Plot:

Un grafico a scatola è una rappresentazione grafica che utilizza le statistiche di sintesi per rappresentare la distribuzione di un insieme di dati.


Studio della forma della distribuzione

Il Box Plot:

Per la costruzione della scatola i valori da considerare sono Q1 – Me – Q3.


Studio della forma della distribuzione

Il Box Plot:

  • Il valore di riferimento inferiore di un grafico a scatola è il valore numerico più grande tra xmin e Q1 – 1.5 (IQR).
  • Il valore di riferimento superiore di un grafico a scatola è il valore numerico più piccolo tra xmax e Q3 + 1.5 (IQR).

Studio della forma della distribuzione

Identificazione dei valori anomali:

LI = Q1- 1,5 (Q3-Q1)

LS = Q3- 1,5 (Q3-Q1)

  • I valori della nostra distribuzione che sono superiori ad LS sono valori eccezionalmente alti e quindi considerati anomali.
  • I valori della nostra distribuzione che sono inferiori ad LI sono valori eccezionalmente bassi e quindi considerati anomali.

Il Box plot e i valori anomali: un esempio


Il Box plot e i valori anomali: un esempio


Prossima lezione

L’associazione tra due variabili qualitative

  • La Contingenza
  • Il chi quadrato
  • La strettezza della relazione

I materiali di supporto della lezione

Esempio di calcolo

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion