Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D La Corte in Rete
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Roberta Siciliano » 1.Introduzione alla statistica per le decisioni di impresa


L’obiettivo del corso

Obiettivo del percorso formativo

Obiettivo dell’insegnamento è di fornire, ai discenti, la conoscenza degli aspetti metodologici e applicativi dei principali metodi di analisi statistica per le decisioni e previsioni aziendali, sviluppando altresì capacità di organizzazione ed elaborazione statistica di dati provenienti da indagini campionarie, da banche dati o da sistemi informativi aziendali.

I temi principali del corso

L’insegnamento si fonda sul paradigma scientifico dello “Statistical Learning: Data Mining, Inference and Prediction” (Hastie, Tibshirani, Friedman, 2001), che rappresenta il punto di partenza per il connubio tra la statistica moderna e le scienze informatiche e tecnologiche finalizzato alla “Intelligent Data Analysis” (Hand, Berthold, 2005).

Il percorso formativo parte dai concetti introduttivi relativi alla organizzazione e descrizione dei dati, propone l’elaborazione dei dati attraverso modelli statistici ed affronta, successivamente, la tematica della sintesi statistica mediante i metodi di analisi multivariata in contesti di data mining. Infine, si illustrano alcuni casi studio applicando i principali metodi di estrazione della conoscenza a valore aggiunto per i processi decisionali aziendali e di governance.

Conoscenze propedeutiche

  • Statistica descrittiva
  • Inferenza statistica
  • Algebra lineare

Le lezioni del corso

1. Introduzione alla statistica per le decisioni di impresa

2. L’organizzazione dei dati statistici

3. L’analisi di regressione lineare multipla

4. I test diagnostici sulla regressione lineare multipla

5. L’uso delle variabili dicotomiche nella regressione

6. Il modello di regressione logistica

7. Modelli Additivi Generalizzati

8. Modelli lineari per l’analisi delle serie storiche

9. Modelli stocastici per l’analisi delle serie storiche

10. Multidimensional Scaling

11. Market Basket Analysis

12. Metodi di segmentazione binaria e alberi di decisione

13. Analisi delle Componenti Principali

14. Analisi delle Corrispondenze Multiple

15.Cluster Analysis

Obiettivo e contenuti della lezione

Obiettivo

Definire la metodologia della ricerca ed il procedimento scientifico della statistica moderna nell’ottica della statistica per le decisioni.
Acquisire la conoscenza di base per distinguere i diversi metodi di elaborazione dei dati e analisi statistica.

Contenuti

La logica della ricerca.
Il procedimento scientifico di ricerca.
Ricerca quantitativa versus ricerca qualitativa.
La metodologia statistica.
Il paradigma della statistica moderna.
Il ruolo della statistica per le decisioni.
Il modello concettuale di apprendimento statistico.
Il processo di estrazione della conoscenza.
Contesti applicativi aziendali.

La logica della ricerca

Il termine “paradigma” designa una prospettiva teorica riconosciuta dalla comunità degli scienziati di una determinata disciplina ed è fondata sulle acquisizioni precedenti della disciplina stessa.

Un paradigma indirizza la ricerca nell’individuazione dei fatti rilevanti da studiare, nella formulazione delle ipotesi e nell’approntamento delle tecniche empiriche necessarie.

La “metodologia” consente di seguire un procedimento scientifico di ricerca per conoscere la realtà.

Le “tecniche della ricerca” concernono le procedure specifiche di cui una disciplina si avvale per l’acquisizione e il controllo dei propri risultati di ricerca empirica.

Il procedimento scientifico di ricerca

  • Definizione del problema reale:
    • concettualizzazione di argomenti non ambigui e temi strategici non riduttivi
  • Informazione a-priori:
    • strutturazione delle informazioni sulla base di condizioni e assunzioni preliminari
  • Ricerca qualitativa/quantitativa:
    • traduzione del problema reale in un problema di ricerca (scientifico)
    • identificazione del target della ricerca
    • ruolo dell’informazione a-priori
    • valutazione delle finalità e delle implicazioni delle singole tecniche di ricerca
    • interrelazione delle tecniche di ricerca valide alla soluzione di un problema di ricerca

Il procedimento scientifico di ricerca (segue)

  • Acquisizione dati:
    • rilevazione (indagine) e/o selezione dati
    • imputazione dati
    • valutazione della qualità e coerenza dei dati
  • Elaborazione dati:
    • elaborazioni preliminari
    • elaborazioni del metodo
  • Analisi dei dati:
    • contesto della scoperta o della giustificazione
    • interpretazione ed eventuale approfondimento scientifico
  • Diffusione dei risultati:
    • utilizzo dei risultati della ricerca

Ricerca quantitativa versus ricerca qualitativa

Mentre la ricerca quantitativa si interroga sul perché delle cose ed è logicamente pianificata, la ricerca qualitativa riguarda il come di una relazione ed è aperta e interattiva.

L’impostazione della ricerca:
mentre nella ricerca quantitativa la costruzione teorica si muove dapprima nel “contesto della scoperta” e poi in quello della “giustificazione“, nella ricerca qualitativa la relazione tra teoria e ricerca è aperta, ovvero è costruita strada facendo.

La rilevazione:
nel caso della ricerca quantitativa ha per oggetto di analisi la variabile o caratteristica del fenomeno investigato, e nel caso della ricerca qualitativa il soggetto, l’individuo.

I risultati:
mentre nella ricerca quantitativa i risultati forniscono spesso delle generalizzazioni, nella ricerca qualitativa il carattere principale è quello della specificità.

Tipologia di indagine

Le indagini di taglio quantitativo sono quasi sempre di vasta portata, orientate su campioni di una certa dimensione.

Le indagini che si collocano su un versante qualitativo, invece, tendono a svilupparsi in aree circoscritte, a studiare gruppi limitati.

L’indagine statistica è l’insieme delle operazioni effettuate per:

  • descrivere una o più caratteristiche del fenomeno oggetto di studio
  • verificare ipotesi sul fenomeno
  • esplorare relazioni tra i diversi aspetti del fenomeno

La metodologia statistica

La statistica affronta le problematiche relative all’analisi dei dati, al disegno e alla realizzazione di indagini ed esperimenti nei diversi settori applicativi, a fini descrittivi, interpretativi e decisionali. Include quindi gli sviluppi teorici e metodologici propri della statistica descrittiva, esplorativa ed inferenziale nelle loro diverse articolazioni quali statistica matematica, teoria dei campioni, piano degli esperimenti, analisi statistica dei dati multivariati, analisi statistiche delle serie temporali e spaziali; di tali sviluppi sono parte integrante le moderne problematiche relative alla gestione ed elaborazione informatica dei dati.

Usuale contrapposizione:
approccio descrittivo/esplorativo versus approccio confermativo/inferenziale.

Statistica descrittiva ed esplorativa
È il metodo deduttivo usato per descrivere i dati e le loro caratteristiche.

E.g. contare il numero di visitatori di un museo, calcolare la percentuale di voti ottenuti da un candidato, disegnare un grafico per desumere gli elementi salienti di un fenomeno, etc.

Statistica inferenziale
È il metodo induttivo per fare stime e previsioni.

E.g. fare un sondaggio di opinione, prevedere l’affluenza di pubblico ad una manifestazione, valutare la significatività di un dato rilevato su un campione, prevedere le vendite, etc.

Il paradigma della statistica moderna

La statistica moderna contempla le moderne problematiche relative alla gestione ed elaborazione informatica dei dati, potenziando, negli aspetti computazionali e applicativi, la metodologia e le tecniche.

La monografia fondamentale “Statistical Learning: Data Mining, Inference and Prediction” di Hastie, Friedman e Tibshirani (2001) identifica esplicitamente le nuove sfide nelle aree dell’archiviazione, della organizzazione e della gestione di dati, finalizzate al Data Mining ed alla gestione statistica della complessità e dimensione dei fenomeni osservati.

Il Data Mining così come definito da David Hand (2000) è “il processo che attraverso l’impiego di modelli non banali ha l’obiettivo di individuare relazioni tra i dati non banali, nascoste, utili e fruibili dall’utilizzatore.

L’evoluzione del Data Mining è la Intelligent Data Analysis, che integra discipline scientifiche e tecnologiche (statistics, computer science, pattern recognition, artificial intelligence, machine learning, biostatistics, etc.), per modellizzare e analizzare sistemi complessi e dinamici.

Statistica per le decisioni di impresa è apprendimento statistico – nell’era moderna – per generare contenuti informativi utili e significativi, a valore aggiunto, per la risoluzione di problemi reali di decisione di impresa, assemblando, attraverso la metodologia statistica e la computer science, processi di estrazione della conoscenza da varie fonti.

L’apprendimento statistico in Total Quality Management

Il processo di soluzione di un problema di ricerca o apprendimento statistico (statistical learning) può essere strutturato considerando il ciclo di Deming (Plan, Do, Check, Act) in un’ottica del Total Quality Management. Si propone un modello concettuale in cui si attuano sequenzialmente tre cicli, in corrispondenza di tre momenti diversi di avvio dell’apprendimento statistico, ovvero dati da acquisire, dati da selezionare, dati da elaborare.
Nell’applicazione estesa, lo statistico acquisirà i dati di interesse per la ricerca con le tecniche di rilevazione (avvio dal primo ciclo); altresì, potrà selezionare i dati utili alla risoluzione del problema da banche dati o archivi predefiniti (avvio dal secondo ciclo); infine potrà trovarsi ad elaborare un metodo su dati già rilevati e selezionati (avvio dal terzo ciclo).


Il modello concettuale di apprendimento statistico


I ciclo: Dati

Il ciclo rilevazione → raccolta validazione imputazione ha come finalità la costruzione dei dati statistici.

Rilevazione: pianificazione operativa della rilevazione dati
identificazione del collettivo oggetto di indagine, dei caratteri di interesse, delle loro modalità
scelta della tipologia di rilevazione (i.e., osservazionale o sperimentale, completa o parziale)
scelta della tecnica di rilevazione (i.e., tecnica di campionamento, tecnica di intervista, etc.)
scelta degli strumenti per la rilevazione (i.e., costruzione del questionario, macchinario elettronico, etc.)
scelta delle risorse umane (i.e., intervistatori, sperimentatori, etc.)
….
Raccolta: esecuzione della rilevazione dati
interviste oppure sperimentazioni.
….
Validazione: controllo dei dati
controllo della qualità delle risposte o delle misurazioni (i.e., coerenza, dati mancanti, etc.).
….
Imputazione: codifica dei dati
imputazione o codifica dei dati.
….

II ciclo: Informazione

Il ciclo selezione trasformazione organizzazione pre-elaborazione ha come finalità la costruzione della base informativa quali-quantitativa propedeutica all’elaborazione e analisi statistica.

Selezione: identificazione della base dei dati e dell’ambiente operativo
acquisizione da banca dati esterna
estrazione dal sistema informativo aziendale
rilevazione diretta da indagine campionaria o da sperimentazione
scelta dell’ambiente operativo per l’elaborazione statistica

Trasformazione: costruzione della base statistica dei dati
trasformazione sui caratteri
ricodifica
costruzione della matrice dei dati in funzione dell’ambiente operativo utilizzato per l’elaborazione statistica

Organizzazione: controllo della matrice dei dati
controllo della struttura dei dati
verifica della coerenza di condizioni e assunzioni a-priori…

Pre-elaborazione: sintesi descrittive dei dati
statistiche descrittive (tabelle, grafici, indici statistici)
imputazione dati mancanti…

III ciclo: Conoscenza

Il ciclo metodo elaborazione analisi diffusione ha come finalità la conoscenza a supporto dei processi di decisione.

Metodo: identificazione del metodo statistico

  • scelta del metodo statistico e verifica delle condizioni di applicazione
    • modelli statistici (i.e., regressione, modelli additivi generalizzati, modelli Box-Jenkins, etc.)
    • metodi multivariati per il Data Mining (i.e., analisi fattoriale, classificazione, visualizzazione, etc.)
  • scelta dell’ambiente operativo per l’elaborazione dei dati
    • software commerciali (Excel, SAS, SPSS, SPAD, MATLAB, GAUSS, etc.)
    • software open source (R, gretl, tanagra, etc.)

Elaborazione: applicazione del metodo alla matrice dei dati
applicazione del metodo statistico; reporting dei risultati.

Analisi: interpretazione dei risultati
esplorazione della sintesi dei dati e della riduzione della dimensionalità; spiegazione del modello per le decisioni e previsioni.

Diffusione: impiego dei risultati a fini decisionali
trasformazione dei risultati statistici in valore aggiunto nei processi di decisione; comunicazione dei risultati della ricerca;
Definizione di un nuovo problema reale/statistico e reiterazione del processo (feedback).

Il processo di estrazione della conoscenza


Contesti applicativi aziendali

Economia aziendale e gestione di impresa

Controllo di gestione
Controllo di qualità nei processi produttivi
Supporto alla gestione del magazzino
Valutazione delle competenze delle risorse umane

Analisi di mercato

Conoscenza del mercato potenziale e delle abitudini di consumo
Posizionamento dei prodotti e profilazione clienti
Segmentazione del mercato
Previsione delle vendite

Economia e Finanza

Valutazione dello stato di salute economico-finanziario delle aziende
Valutazione del Credit scoring e scelta sull’affidabilità creditizia
Previsione dei mercati finanziari
Rating finanziario…

I materiali di supporto della lezione

Hastie, T., Friedman J., Tibshirani, R. (2001), “Statistical Learning: Data Mining, Inference and Prediction”, Springer.

Zani, S., Cerioli, A., Analisi dei dati e data mining per le decisioni aziendali, Giuffrè Milano, ultima edizione.

Giudici, P., Data Mining, McGraw Hill, ultima edizione.

Per saperne di più:

Hand, D., Berthold, M. (2007), “Intelligent Data Analysis”, Springer.

Hand, D., Mannila, H., Smyth, P. (2001), “Principles of Data Mining”, The MIT Press.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion

Fatal error: Call to undefined function federicaDebug() in /usr/local/apache/htdocs/html/footer.php on line 93