Obiettivo del percorso formativo
Acquisire conoscenze e competenze per l’analisi statistica dei dati derivanti da un campione statistico, impiegando gli strumenti propri del calcolo delle probabilità e l’approccio induttivo dell’inferenza statistica.
Usualmente si analizzano dati campionari per fare “induzioni”, di tipo probabilistico, “dal particolare al generale”, estendendo, con un livello di errore controllato, la conoscenza estratta dal campione alla intera popolazione di riferimento. Ciò si traduce nel prendere decisioni in condizioni di incertezza, ovvero fare stime e previsioni sulle caratteristiche incognite della popolazione.
Il calcolo delle probabilità serve per “controllare” e “misurare” il rischio connesso a prendere decisioni quando si considera un sottoinsieme del collettivo oggetto di studio invece della intera popolazione.
Obiettivo
Conoscere alcune caratteristiche incognite (relazioni, leggi, etc.) del fenomeno (economico, sociale, etc.) che si analizza sulla base di tutta l’informazione disponibile (a-priori, esperimenti, rilevazione dei dati, etc.).
Nota 1: La conoscenza di un fenomeno avviene in condizioni di incertezza.
Nota 2: L’informazione disponibile non può essere trattata come esaustiva e certa, ma presenta aspetti di parzialità e di casualità.
Nota 3: Il campionamento è un elemento indispensabile e preliminare all’inferenza statistica.
Assunzione 1: L’osservazione di un fenomeno è vista come la realizzazione di un modello di probabilità teorico in modo tale che la grandezza incognita sia caratterizzante una v.c. descritta da un modello.
Assunzione 2: Le osservazioni che si hanno a disposizione vengono considerate come la realizzazione, unica e irripetibile, di un campione casuale.
E’ il collettivo oggetto di inferenza sul quale si studia un carattere X.
Se il collettivo è formato da un numero finito di unità la popolazione è finita, altrimenti la popolazione è illimitata.
Ad esempio, il collettivo di utenti di uno sportello bancomat è teoricamente illimitato, il collettivo di studenti iscritti ad un corso di laurea è finito.
Modello di probabilità
E’ l’insieme delle distribuzioni di probabilità che descrivono teoricamente il carattere ed è caratterizzato da uno o più parametri. In altre parole, il carattere X è descritto teoricamente da una variabile casuale con una certa distribuzione di probabilità.
Ad esempio, il carattere “statura” osservato sul collettivo degli studenti iscritti al corso di laurea potrebbe essere descritto da una distribuzione normale, caratterizzata dai parametri “media” e “varianza”.
Parametro
E’ il valore caratteristico della popolazione (media, varianza, probabilità di successo, etc.) con riferimento al carattere X.
Alcuni esempi: con riferimento al collettivo degli iscritti al corso di laurea, si può descrivere la distribuzione del carattere quantitativo “statura” caratterizzata da un valore medio, altresì si può descrivere la distribuzione del carattere qualitativo “genere” caratterizzata dalla probabilità di essere “maschio” o “femmina”.
E’ la parte delle unità statistiche costituenti il collettivo sottoposto all’osservazione in una procedura inferenziale, laddove a ciascuna unità è possibile attribuire una probabilità di far parte del campione secondo un modello probabilistico.
Prima di estrarre il campione da una popolazione è possibile associare a ciascuna estrazione una variabile casuale, identicamente distribuita come la variabile casuale che descrive il carattere nella popolazione teorica.
Pertanto, il campione statistico di n osservazioni relative al carattere X è visto come ennupla di variabili casuali, indipendenti ed identicamente distribuite come il carattere nella popolazione.
L’estrazione casuale con ripetizione presuppone che dopo aver estratto una unità statistica dalla popolazione essa venga re-immessa nella popolazione in modo da non alterare il collettivo oggetto di inferenza. In tal modo, per le unità statistiche vi è equiprobabilità e probabilità costante in ciascuna delle estrazioni casuali. Per una popolazione finita di N unità, la probabilità di estrarre una unità è pari a 1 su N in ciascuna estrazione.
Le estrazioni campionarie sono indipendenti, nel senso che il risultato di una estrazione non influenza il risultato di una estrazione successiva.
L’estrazione casuale senza ripetizione presuppone che dopo aver estratto una unità statistica dalla popolazione essa non venga re-immessa nella popolazione e pertanto la probabilità di estrazione di ciascuna unità statistica cambia da estrazione ad estrazione. Per una popolazione finita di N unità, la probabilità di estrarre una unità è pari a 1 su N alla prima estrazione, la probabilità di estrarre una unità (tra le rimanenti unità) è pari a 1 su (N-1) alla seconda estrazione, e così via.
Le estrazioni campionarie non sono indipendenti, ovvero il risultato di una estrazione influenza il risultato di una estrazione successiva in quanto la popolazione è modificata.
E’ il totale dei possibili campioni estratti da una popolazione.
Per una popolazione finita di N unità ed estraendo casualmente con ripetizione n unità, l’universo dei campioni è pari a N elevato a n.
Per una popolazione finita di N unità ed estraendo casualmente senza ripetizione n unità, l’universo dei campioni è pari a N! [N fattoriale, ovvero N(N-1)(N-2)....1)] diviso (N-n)!.
Statistica campionaria
E’ una variabile casuale sintesi delle variabili casuali associate a ciascuna estrazione campionaria.
Essa assume valori diversi al variare del campione estratto.
Funzione di verosimiglianza
Descrive la probabilità congiunta del campione estratto supponendo noto il modello di probabilità che descrive la popolazione, a meno dei parametri che la caratterizzano.
In altre parole, la funzione di verosimiglianza descrive come varia la probabilità congiunta di estrarre il particolare campione estratto al variare dei valori dei parametri.
Ad esempio, se il modello dipende da un solo parametro, la funzione esprime per un dato valore del parametro la “verosimiglianza” o probabilità che il campione estratto sia stato generato dal modello caratterizzato da quel particolare valore del parametro.
Definizione del problema
Scelta dell’analisi statistica
Consente di avere un’idea del processo sottostante al fenomeno che si studia.
-> I risultati dell’analisi descrittiva non possono essere utilizzati sic et simpliciter a fini inferenziali, ovvero non si potrà dire nulla sugli elementi che non figurano nell’insieme dei dati analizzati.
Richiede la specificazione di un modello di probabilità teorico che descriva il carattere che si intende studiare nella popolazione.
L’osservazione è analizzata come elemento di un campione, cioè come la realizzazione di una delle distribuzioni di probabilità che costituiscono il modello.
Fa uso di funzioni delle osservazioni campionarie, di regole di decisione e di proprietà di campionamento.
-> I risultati dell’analisi inferenziale classica basata sul campione consentono di fare induzioni di tipo probabilistico sulle caratteristiche incognite della popolazione.
Richiede la specificazione di un modello di probabilità teorico e di una distribuzione a-priori per i parametri incogniti del modello.
L’obiettivo è la revisione della distribuzione di probabilità a-priori in una distribuzione a-posteriori derivata per mezzo del teorema di Bayes.
-> L’informazione derivante dal campione viene usata per rivedere l’informazione a-priori che si ha già sul fenomeno, esprimendo il valore più probabile da assegnare al parametro.
Richiede la specificazione di un modello di probabilità teorico, di una distribuzione a-priori per i parametri incogniti del modello e di una funzione perdita associata alle possibili alternative di scelta dei valori per ciascuno dei parametri del modello.
-> E’ l’analisi più completa e tiene conto non solo del rischio connesso al possibile errore di scelta o di decisione ma associa ad esso anche un valore di costo.
Teoria della stima
Conoscere il valore numerico (o un intervallo di valori) di uno o più parametri incogniti del modello teorico di probabilità (ovvero della popolazione) a partire dai dati campionari.
Teoria della prova delle ipotesi
Verificare, in senso statistico (ovvero con regole di decisione), una certa affermazione fatta relativamente alla popolazione, ovvero se essa debba ritenersi vera o falsa sulla base di ciò che appare dal campione.
Modello statistico
Descrive come varia in media una variabile dipendente al variare delle modalità di una o più variabili indipendenti o esplicative. Solitamente, il dato osservato è descritto come somma di una componente sistematica (il modello statistico) e di una componente aleatoria (l’errore). Sulla base delle assunzioni sul modello e sulla componente aleatoria è possibile effettuare stime e previsioni sul comportamento reale delle variabili nella popolazione.
Regressione lineare semplice
Descrive come varia in media (secondo una funzione lineare) la variabile dipendente (numerica) al variare dei valori di una variabile indipendente o esplicativa (modello semplice). La relazione di dipendenza in media della variabile dipendente in funzione della variabile indipendente è descritta da un modello statistico lineare e dalla rappresentazione, in un diagramma cartesiano, della retta di regressione che interpola i dati osservati campionari.
1. Prolusione al corso
Parte I: Inferenza statistica
2. Campionamento statistico e statistiche campionarie di uso più frequente
3. Stimatore e proprietà per piccoli campioni
4. Proprietà asintotiche degli stimatori, leggi di convergenza e teorema del limite centrale
5. Metodi di stima puntuale
6. Teoria della stima intervallare: intervalli di confidenza sulla media
7. Intervalli di confidenza sulla probabilità di successo e sulla varianza
8. Teoria della verifica delle ipotesi statistiche
9. Test parametrici su media, varianza, e probabilità di successo
10. Test parametrico sulla differenza fra medie
11. Test non parametrici sull’indipendenza e sulla bontà di adattamento
Parte II: Modelli statistici lineari di base
12. Analisi della varianza ad un fattore
13. Analisi della varianza a due fattori
14. Regressione lineare semplice: specificazione del modello, ipotesi classiche, stima, bontà di adattamento
15. Regressione lineare semplice: Inferenza sui parametri del modello e analisi dei residui
2. Campionamento statistico e statistiche campionarie di uso più frequente
3. Stimatore e proprietà per piccoli campioni
4. Proprietà asintotiche degli stimatori, leggi di convergenza e teorema del limite centrale
6. Teoria della stima intervallare
7. Teoria della verifica delle ipotesi: la costruzione del test parametrico
D'Ambra L., Lezioni di inferenza statistica, RCE, ultima edizione
Orsi R., Probabilità e inferenza, Il Mulino, ultima edizione
Piccolo D., Statistica per le decisioni, Il Mulino, ultima edizione