Obiettivo del percorso formativo
Obiettivo dell’insegnamento è di fornire, ai discenti, la conoscenza degli aspetti metodologici e applicativi dei principali metodi di analisi statistica per le decisioni e previsioni aziendali, sviluppando altresì capacità di organizzazione ed elaborazione statistica di dati provenienti da indagini campionarie, da banche dati o da sistemi informativi aziendali.
L’insegnamento si fonda sul paradigma scientifico dello “Statistical Learning: Data Mining, Inference and Prediction” (Hastie, Tibshirani, Friedman, 2001), che rappresenta il punto di partenza per il connubio tra la statistica moderna e le scienze informatiche e tecnologiche finalizzato alla “Intelligent Data Analysis” (Hand, Berthold, 2005).
Il percorso formativo parte dai concetti introduttivi relativi alla organizzazione e descrizione dei dati, propone l’elaborazione dei dati attraverso modelli statistici ed affronta, successivamente, la tematica della sintesi statistica mediante i metodi di analisi multivariata in contesti di data mining. Infine, si illustrano alcuni casi studio applicando i principali metodi di estrazione della conoscenza a valore aggiunto per i processi decisionali aziendali e di governance.
1. Introduzione alla statistica per le decisioni di impresa
2. L’organizzazione dei dati statistici
3. L’analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L’uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l’analisi delle serie storiche
9. Modelli stocastici per l’analisi delle serie storiche
10. Multidimensional Scaling
11. Market Basket Analysis
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15.Cluster Analysis
Obiettivo
Definire la metodologia della ricerca ed il procedimento scientifico della statistica moderna nell’ottica della statistica per le decisioni.
Acquisire la conoscenza di base per distinguere i diversi metodi di elaborazione dei dati e analisi statistica.
Contenuti
La logica della ricerca.
Il procedimento scientifico di ricerca.
Ricerca quantitativa versus ricerca qualitativa.
La metodologia statistica.
Il paradigma della statistica moderna.
Il ruolo della statistica per le decisioni.
Il modello concettuale di apprendimento statistico.
Il processo di estrazione della conoscenza.
Contesti applicativi aziendali.
Il termine “paradigma” designa una prospettiva teorica riconosciuta dalla comunità degli scienziati di una determinata disciplina ed è fondata sulle acquisizioni precedenti della disciplina stessa.
Un paradigma indirizza la ricerca nell’individuazione dei fatti rilevanti da studiare, nella formulazione delle ipotesi e nell’approntamento delle tecniche empiriche necessarie.
La “metodologia” consente di seguire un procedimento scientifico di ricerca per conoscere la realtà.
Le “tecniche della ricerca” concernono le procedure specifiche di cui una disciplina si avvale per l’acquisizione e il controllo dei propri risultati di ricerca empirica.
Mentre la ricerca quantitativa si interroga sul perché delle cose ed è logicamente pianificata, la ricerca qualitativa riguarda il come di una relazione ed è aperta e interattiva.
L’impostazione della ricerca:
mentre nella ricerca quantitativa la costruzione teorica si muove dapprima nel “contesto della scoperta” e poi in quello della “giustificazione“, nella ricerca qualitativa la relazione tra teoria e ricerca è aperta, ovvero è costruita strada facendo.
La rilevazione:
nel caso della ricerca quantitativa ha per oggetto di analisi la variabile o caratteristica del fenomeno investigato, e nel caso della ricerca qualitativa il soggetto, l’individuo.
I risultati:
mentre nella ricerca quantitativa i risultati forniscono spesso delle generalizzazioni, nella ricerca qualitativa il carattere principale è quello della specificità.
Le indagini di taglio quantitativo sono quasi sempre di vasta portata, orientate su campioni di una certa dimensione.
Le indagini che si collocano su un versante qualitativo, invece, tendono a svilupparsi in aree circoscritte, a studiare gruppi limitati.
L’indagine statistica è l’insieme delle operazioni effettuate per:
La statistica affronta le problematiche relative all’analisi dei dati, al disegno e alla realizzazione di indagini ed esperimenti nei diversi settori applicativi, a fini descrittivi, interpretativi e decisionali. Include quindi gli sviluppi teorici e metodologici propri della statistica descrittiva, esplorativa ed inferenziale nelle loro diverse articolazioni quali statistica matematica, teoria dei campioni, piano degli esperimenti, analisi statistica dei dati multivariati, analisi statistiche delle serie temporali e spaziali; di tali sviluppi sono parte integrante le moderne problematiche relative alla gestione ed elaborazione informatica dei dati.
Usuale contrapposizione:
approccio descrittivo/esplorativo versus approccio confermativo/inferenziale.
Statistica descrittiva ed esplorativa
È il metodo deduttivo usato per descrivere i dati e le loro caratteristiche.
E.g. contare il numero di visitatori di un museo, calcolare la percentuale di voti ottenuti da un candidato, disegnare un grafico per desumere gli elementi salienti di un fenomeno, etc.
Statistica inferenziale
È il metodo induttivo per fare stime e previsioni.
E.g. fare un sondaggio di opinione, prevedere l’affluenza di pubblico ad una manifestazione, valutare la significatività di un dato rilevato su un campione, prevedere le vendite, etc.
La statistica moderna contempla le moderne problematiche relative alla gestione ed elaborazione informatica dei dati, potenziando, negli aspetti computazionali e applicativi, la metodologia e le tecniche.
La monografia fondamentale “Statistical Learning: Data Mining, Inference and Prediction” di Hastie, Friedman e Tibshirani (2001) identifica esplicitamente le nuove sfide nelle aree dell’archiviazione, della organizzazione e della gestione di dati, finalizzate al Data Mining ed alla gestione statistica della complessità e dimensione dei fenomeni osservati.
Il Data Mining così come definito da David Hand (2000) è “il processo che attraverso l’impiego di modelli non banali ha l’obiettivo di individuare relazioni tra i dati non banali, nascoste, utili e fruibili dall’utilizzatore.”
L’evoluzione del Data Mining è la Intelligent Data Analysis, che integra discipline scientifiche e tecnologiche (statistics, computer science, pattern recognition, artificial intelligence, machine learning, biostatistics, etc.), per modellizzare e analizzare sistemi complessi e dinamici.
Statistica per le decisioni di impresa è apprendimento statistico – nell’era moderna – per generare contenuti informativi utili e significativi, a valore aggiunto, per la risoluzione di problemi reali di decisione di impresa, assemblando, attraverso la metodologia statistica e la computer science, processi di estrazione della conoscenza da varie fonti.
Il processo di soluzione di un problema di ricerca o apprendimento statistico (statistical learning) può essere strutturato considerando il ciclo di Deming (Plan, Do, Check, Act) in un’ottica del Total Quality Management. Si propone un modello concettuale in cui si attuano sequenzialmente tre cicli, in corrispondenza di tre momenti diversi di avvio dell’apprendimento statistico, ovvero dati da acquisire, dati da selezionare, dati da elaborare.
Nell’applicazione estesa, lo statistico acquisirà i dati di interesse per la ricerca con le tecniche di rilevazione (avvio dal primo ciclo); altresì, potrà selezionare i dati utili alla risoluzione del problema da banche dati o archivi predefiniti (avvio dal secondo ciclo); infine potrà trovarsi ad elaborare un metodo su dati già rilevati e selezionati (avvio dal terzo ciclo).
Il ciclo rilevazione → raccolta → validazione → imputazione ha come finalità la costruzione dei dati statistici.
Rilevazione: pianificazione operativa della rilevazione dati
identificazione del collettivo oggetto di indagine, dei caratteri di interesse, delle loro modalità
scelta della tipologia di rilevazione (i.e., osservazionale o sperimentale, completa o parziale)
scelta della tecnica di rilevazione (i.e., tecnica di campionamento, tecnica di intervista, etc.)
scelta degli strumenti per la rilevazione (i.e., costruzione del questionario, macchinario elettronico, etc.)
scelta delle risorse umane (i.e., intervistatori, sperimentatori, etc.)
….
Raccolta: esecuzione della rilevazione dati
interviste oppure sperimentazioni.
….
Validazione: controllo dei dati
controllo della qualità delle risposte o delle misurazioni (i.e., coerenza, dati mancanti, etc.).
….
Imputazione: codifica dei dati
imputazione o codifica dei dati.
….
Il ciclo selezione → trasformazione → organizzazione → pre-elaborazione ha come finalità la costruzione della base informativa quali-quantitativa propedeutica all’elaborazione e analisi statistica.
Selezione: identificazione della base dei dati e dell’ambiente operativo
acquisizione da banca dati esterna
estrazione dal sistema informativo aziendale
rilevazione diretta da indagine campionaria o da sperimentazione
scelta dell’ambiente operativo per l’elaborazione statistica
Trasformazione: costruzione della base statistica dei dati
trasformazione sui caratteri
ricodifica
costruzione della matrice dei dati in funzione dell’ambiente operativo utilizzato per l’elaborazione statistica
Organizzazione: controllo della matrice dei dati
controllo della struttura dei dati
verifica della coerenza di condizioni e assunzioni a-priori…
Pre-elaborazione: sintesi descrittive dei dati
statistiche descrittive (tabelle, grafici, indici statistici)
imputazione dati mancanti…
Il ciclo metodo → elaborazione → analisi → diffusione ha come finalità la conoscenza a supporto dei processi di decisione.
Metodo: identificazione del metodo statistico
Elaborazione: applicazione del metodo alla matrice dei dati
applicazione del metodo statistico; reporting dei risultati.
Analisi: interpretazione dei risultati
esplorazione della sintesi dei dati e della riduzione della dimensionalità; spiegazione del modello per le decisioni e previsioni.
Diffusione: impiego dei risultati a fini decisionali
trasformazione dei risultati statistici in valore aggiunto nei processi di decisione; comunicazione dei risultati della ricerca;
Definizione di un nuovo problema reale/statistico e reiterazione del processo (feedback).
Economia aziendale e gestione di impresa
Controllo di gestione
Controllo di qualità nei processi produttivi
Supporto alla gestione del magazzino
Valutazione delle competenze delle risorse umane
…
Analisi di mercato
Conoscenza del mercato potenziale e delle abitudini di consumo
Posizionamento dei prodotti e profilazione clienti
Segmentazione del mercato
Previsione delle vendite
…
Economia e Finanza
Valutazione dello stato di salute economico-finanziario delle aziende
Valutazione del Credit scoring e scelta sull’affidabilità creditizia
Previsione dei mercati finanziari
Rating finanziario…
1. Introduzione alla statistica per le decisioni di impresa
2. L'organizzazione dei dati statistici
3. L'analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L'uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l'analisi delle serie storiche
9. Modelli stocastici per l'analisi delle serie storiche
10. L'analisi delle preferenze: introduzione al Multidimensional Scaling
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15. Cluster Analysis
Hastie, T., Friedman J., Tibshirani, R. (2001), “Statistical Learning: Data Mining, Inference and Prediction”, Springer.
Zani, S., Cerioli, A., Analisi dei dati e data mining per le decisioni aziendali, Giuffrè Milano, ultima edizione.
Giudici, P., Data Mining, McGraw Hill, ultima edizione.
Per saperne di più:
Hand, D., Berthold, M. (2007), “Intelligent Data Analysis”, Springer.
Hand, D., Mannila, H., Smyth, P. (2001), “Principles of Data Mining”, The MIT Press.