Home

Federica EU

1/17

Roberta Siciliano » 1.Presentazione del corso

L’obiettivo del corso

Obiettivo del percorso formativo

Acquisire conoscenze e competenze per l’analisi statistica dei dati derivanti da un campione statistico, impiegando gli strumenti propri del calcolo delle probabilità e l’approccio induttivo dell’inferenza statistica.

Usualmente si analizzano dati campionari per fare “induzioni”, di tipo probabilistico, “dal particolare al generale”, estendendo, con un livello di errore controllato, la conoscenza estratta dal campione alla intera popolazione di riferimento. Ciò si traduce nel prendere decisioni in condizioni di incertezza, ovvero fare stime e previsioni sulle caratteristiche incognite della popolazione.

Il calcolo delle probabilità serve per “controllare” e “misurare” il rischio connesso a prendere decisioni quando si considera un sottoinsieme del collettivo oggetto di studio invece della intera popolazione.

Conoscenze propedeutiche

Elementi di calcolo delle probabilità e teoria delle variabili casuali
Concetto di valore atteso: media e varianza di variabili casuali discrete e continue
Variabile casuale binomiale: definizione e calcolo delle probabilità
Variabile casuale normale: definizione e proprietà, standardizzazione, uso delle tavole statistiche
Trasformazioni della variabile casuale normale (t-Student, F-Snedecor-Fisher, Chi-quadrato): forma grafica e uso delle tavole statistiche

Inferenza statistica

Obiettivo

Conoscere alcune caratteristiche incognite (relazioni, leggi, etc.) del fenomeno (economico, sociale, etc.) che si analizza sulla base di tutta l’informazione disponibile (a-priori, esperimenti, rilevazione dei dati, etc.).

Nota 1: La conoscenza di un fenomeno avviene in condizioni di incertezza.

Nota 2: L’informazione disponibile non può essere trattata come esaustiva e certa, ma presenta aspetti di parzialità e di casualità.

Nota 3: Il campionamento è un elemento indispensabile e preliminare all’inferenza statistica.

Assunzione 1: L’osservazione di un fenomeno è vista come la realizzazione di un modello di probabilità teorico in modo tale che la grandezza incognita sia caratterizzante una v.c. descritta da un modello.

Assunzione 2: Le osservazioni che si hanno a disposizione vengono considerate come la realizzazione, unica e irripetibile, di un campione casuale.

I concetti di base: la popolazione teorica

E’ il collettivo oggetto di inferenza sul quale si studia un carattere X.

Se il collettivo è formato da un numero finito di unità la popolazione è finita, altrimenti la popolazione è illimitata.

Ad esempio, il collettivo di utenti di uno sportello bancomat è teoricamente illimitato, il collettivo di studenti iscritti ad un corso di laurea è finito.

Il modello di probabilità e i suoi parametri

Modello di probabilità

E’ l’insieme delle distribuzioni di probabilità che descrivono teoricamente il carattere ed è caratterizzato da uno o più parametri. In altre parole, il carattere X è descritto teoricamente da una variabile casuale con una certa distribuzione di probabilità.

Ad esempio, il carattere “statura” osservato sul collettivo degli studenti iscritti al corso di laurea potrebbe essere descritto da una distribuzione normale, caratterizzata dai parametri “media” e “varianza”.

Parametro

E’ il valore caratteristico della popolazione (media, varianza, probabilità di successo, etc.) con riferimento al carattere X.

Alcuni esempi: con riferimento al collettivo degli iscritti al corso di laurea, si può descrivere la distribuzione del carattere quantitativo “statura” caratterizzata da un valore medio, altresì si può descrivere la distribuzione del carattere qualitativo “genere” caratterizzata dalla probabilità di essere “maschio” o “femmina”.

Il campione statistico o probabilistico

E’ la parte delle unità statistiche costituenti il collettivo sottoposto all’osservazione in una procedura inferenziale, laddove a ciascuna unità è possibile attribuire una probabilità di far parte del campione secondo un modello probabilistico.

Prima di estrarre il campione da una popolazione è possibile associare a ciascuna estrazione una variabile casuale, identicamente distribuita come la variabile casuale che descrive il carattere nella popolazione teorica.

Pertanto, il campione statistico di n osservazioni relative al carattere X è visto come ennupla di variabili casuali, indipendenti ed identicamente distribuite come il carattere nella popolazione.

Il campione casuale semplice con ripetizione

L’estrazione casuale con ripetizione presuppone che dopo aver estratto una unità statistica dalla popolazione essa venga re-immessa nella popolazione in modo da non alterare il collettivo oggetto di inferenza. In tal modo, per le unità statistiche vi è equiprobabilità e probabilità costante in ciascuna delle estrazioni casuali. Per una popolazione finita di N unità, la probabilità di estrarre una unità è pari a 1 su N in ciascuna estrazione.

Le estrazioni campionarie sono indipendenti, nel senso che il risultato di una estrazione non influenza il risultato di una estrazione successiva.

Il campione casuale semplice senza ripetizione

L’estrazione casuale senza ripetizione presuppone che dopo aver estratto una unità statistica dalla popolazione essa non venga re-immessa nella popolazione e pertanto la probabilità di estrazione di ciascuna unità statistica cambia da estrazione ad estrazione. Per una popolazione finita di N unità, la probabilità di estrarre una unità è pari a 1 su N alla prima estrazione, la probabilità di estrarre una unità (tra le rimanenti unità) è pari a 1 su (N-1) alla seconda estrazione, e così via.

Le estrazioni campionarie non sono indipendenti, ovvero il risultato di una estrazione influenza il risultato di una estrazione successiva in quanto la popolazione è modificata.

L’universo campionario

E’ il totale dei possibili campioni estratti da una popolazione.

Per una popolazione finita di N unità ed estraendo casualmente con ripetizione n unità, l’universo dei campioni è pari a N elevato a n.

Per una popolazione finita di N unità ed estraendo casualmente senza ripetizione n unità, l’universo dei campioni è pari a N! [N fattoriale, ovvero N(N-1)(N-2)....1)] diviso (N-n)!.

La statistica campionaria e la verosimiglianza

Statistica campionaria

E’ una variabile casuale sintesi delle variabili casuali associate a ciascuna estrazione campionaria.

Essa assume valori diversi al variare del campione estratto.

Funzione di verosimiglianza

Descrive la probabilità congiunta del campione estratto supponendo noto il modello di probabilità che descrive la popolazione, a meno dei parametri che la caratterizzano.

In altre parole, la funzione di verosimiglianza descrive come varia la probabilità congiunta di estrarre il particolare campione estratto al variare dei valori dei parametri.

Ad esempio, se il modello dipende da un solo parametro, la funzione esprime per un dato valore del parametro la “verosimiglianza” o probabilità che il campione estratto sia stato generato dal modello caratterizzato da quel particolare valore del parametro.

Start up dell’analisi statistica dei dati campionari

Definizione del problema

Quale fenomeno o processo si vuole studiare?
Quali sono le informazioni a-priori?
Quali sono le caratteristiche incognite?
Qual è l’obiettivo finale dell’analisi?

Scelta dell’analisi statistica

Analisi descrittiva
Analisi inferenziale classica
Analisi inferenziale bayesiana
Analisi statistica delle decisioni

Analisi descrittiva

Consente di avere un’idea del processo sottostante al fenomeno che si studia.

-> I risultati dell’analisi descrittiva non possono essere utilizzati sic et simpliciter a fini inferenziali, ovvero non si potrà dire nulla sugli elementi che non figurano nell’insieme dei dati analizzati.

Analisi inferenziale classica

Richiede la specificazione di un modello di probabilità teorico che descriva il carattere che si intende studiare nella popolazione.

L’osservazione è analizzata come elemento di un campione, cioè come la realizzazione di una delle distribuzioni di probabilità che costituiscono il modello.

Fa uso di funzioni delle osservazioni campionarie, di regole di decisione e di proprietà di campionamento.

-> I risultati dell’analisi inferenziale classica basata sul campione consentono di fare induzioni di tipo probabilistico sulle caratteristiche incognite della popolazione.

Analisi inferenziale bayesiana

Richiede la specificazione di un modello di probabilità teorico e di una distribuzione a-priori per i parametri incogniti del modello.

L’obiettivo è la revisione della distribuzione di probabilità a-priori in una distribuzione a-posteriori derivata per mezzo del teorema di Bayes.

-> L’informazione derivante dal campione viene usata per rivedere l’informazione a-priori che si ha già sul fenomeno, esprimendo il valore più probabile da assegnare al parametro.

Analisi statistica delle decisioni

Richiede la specificazione di un modello di probabilità teorico, di una distribuzione a-priori per i parametri incogniti del modello e di una funzione perdita associata alle possibili alternative di scelta dei valori per ciascuno dei parametri del modello.

-> E’ l’analisi più completa e tiene conto non solo del rischio connesso al possibile errore di scelta o di decisione ma associa ad esso anche un valore di costo.

I temi principali del corso

Teoria della stima

Conoscere il valore numerico (o un intervallo di valori) di uno o più parametri incogniti del modello teorico di probabilità (ovvero della popolazione) a partire dai dati campionari.

Teoria della prova delle ipotesi

Verificare, in senso statistico (ovvero con regole di decisione), una certa affermazione fatta relativamente alla popolazione, ovvero se essa debba ritenersi vera o falsa sulla base di ciò che appare dal campione.

Modello statistico

Descrive come varia in media una variabile dipendente al variare delle modalità di una o più variabili indipendenti o esplicative. Solitamente, il dato osservato è descritto come somma di una componente sistematica (il modello statistico) e di una componente aleatoria (l’errore). Sulla base delle assunzioni sul modello e sulla componente aleatoria è possibile effettuare stime e previsioni sul comportamento reale delle variabili nella popolazione.

Regressione lineare semplice

Descrive come varia in media (secondo una funzione lineare) la variabile dipendente (numerica) al variare dei valori di una variabile indipendente o esplicativa (modello semplice). La relazione di dipendenza in media della variabile dipendente in funzione della variabile indipendente è descritta da un modello statistico lineare e dalla rappresentazione, in un diagramma cartesiano, della retta di regressione che interpola i dati osservati campionari.

Gli argomenti del corso

1. Prolusione al corso

Parte I: Inferenza statistica

2. Campionamento statistico e statistiche campionarie di uso più frequente
3. Stimatore e proprietà per piccoli campioni
4. Proprietà asintotiche degli stimatori, leggi di convergenza e teorema del limite centrale
5. Metodi di stima puntuale
6. Teoria della stima intervallare: intervalli di confidenza sulla media
7. Intervalli di confidenza sulla probabilità di successo e sulla varianza
8. Teoria della verifica delle ipotesi statistiche
9. Test parametrici su media, varianza, e probabilità di successo
10. Test parametrico sulla differenza fra medie
11. Test non parametrici sull’indipendenza e sulla bontà di adattamento

Parte II: Modelli statistici lineari di base

12. Analisi della varianza ad un fattore
13. Analisi della varianza a due fattori
14. Regressione lineare semplice: specificazione del modello, ipotesi classiche, stima, bontà di adattamento
15. Regressione lineare semplice: Inferenza sui parametri del modello e analisi dei residui