Obiettivi
Definire le modalità operative di selezione dei dati, considerando gli strumenti dell’informatica.
Comprendere il valore dell’informazione quantitativa in azienda.
Definire le principali procedure di acquisizione, codifica e organizzazione dei dati in tabella finalizzate alla costruzione della base dati da elaborare con i metodi statistici.
Contenuti
Unità statistica: è l’entità elementare (individuo, oggetto) del collettivo oggetto di studio.
Carattere: è il fenomeno o caratteristica di interesse che si rileva sulle unità statistiche e si esprime attraverso le modalità (numeriche o attributi qualitativi).
Modalità: espressione della misurazione della variabile statistica su una unità
Dato statistico: è il risultato dell’operazione di determinazione della modalità con cui un carattere è presente in ciascuna unità del collettivo oggetto di studio
Organizzazione dei dati statistici: è l’insieme delle operazioni di acquisizione (rilevazione o selezione), codifica e ricodifica, controllo di qualità dei dati, trattamento dei dati mancanti.
Carattere nominale/ordinale
→ Codice numerico punta alla modalità (legenda della corrispondenza tra attributi e codice numerico).
Sede operativa azienda
Modalità: Nord (=1), Centro (=2), Sud (=3)
Fascia di età
Modalità: < 18 anni (=1), 18-| 30 (=2), > 30 (=3)
Carattere numerico
→ Codice numerico corrisponde al valore numerico
Reddito
Modalità: valore numerico espresso in €
Età
Modalità: valore numerico espresso in N (numeri naturali)
Nota
Nei questionari impiegati per l’indagine diretta, le domande a risposta singola sono codificate con un solo carattere, mentre le domande a risposta multipla, per essere analizzate con strumenti statistici, necessitano di un’apposita codifica detta binaria, facendo corrispondere una variabile binaria (0,1) a ciascuna modalità.
Trattamento dei dati mancanti
Ricodifica dei dati
Caratteri in scala nominale
→ Accorpamento modalità e codifica binaria (0, 1)
Caratteri in scala ordinale
→ Accorpamento modalità
Caratteri in scala numerica
→ Suddivisione in classi
Accorpamento modalità
Carattere: Sede operativa dell’Azienda
Modalità: le 20 Regioni Italiane
Ricodifica: Nord, Centro, Sud
Codifica binaria o dicotomizzazione
Carattere: Reddito mensile dipendenti pubblici
Modalità:valore numerico
Ricodifica: 0 (Reddito mensile inferiore a 1800€), 1 (Altrimenti)
Suddivisione in classi
Ricodifica: 0–| 1200€, 1200€–| 1800€, 1800€–| 2800€,
2800€–| 3800€, > 3800€
Controllo della qualità dei dati
Fonti di errore
La matrice dei dati è l’input dell’elaborazione statistica dei dati.
Tipi di matrici:
Matrici unità x variabili
Matrici unità x unità
Matrici variabili x variabili
Caratteri:
Età: xmin=16, xmax=65
Reddito (in migliaia di euro) xmin=1, xmax=10
Professione:
Il carattere “Professione” viene ricodificato in sette variabili docotomiche, ciascuna associata ad una modalità del carattere.
Le modalità del carattere “Reddito” vengono suddivise in quattro classi, a ciascuna delle quali viene associata una variabile dicotomica.
Le modalità del carattere “Età” vengono suddivise in tre classi.
I totali di colonna rappresentano le frequenze assolute associate a ciascuna modalità (classe o attributo) di ciascun carattere.
Costruzione di una tabella giustaposta, nella quale le unità statistiche sono riclassificate rispetto al carattere “Professione” che viene incrociato con le classi di età e con le classi di reddito.
I totali colonna rappresentano le frequenze assolute di ciascuna classe.
I totali riga sono pari al doppio delle frequenze assolute di ciascun attributo del carattere “Professione” (in quanto il carattere “professione” è incrociato con due altri caratteri); ad esempio tre sono disoccupati, distribuiti uniformemente nelle tre fasce di età, mentre uno appartiene alla prima classe di reddito gli altri due alla seconda classe.
E’ possibile desumere i valori medi del carattere “età” e del carattere “reddito” calcolati sulle unità statistiche che presentano rispettivamente ciascuna modalità del carattere “professione”.
Excel è un’applicazione di foglio elettronico che permette di raccogliere ed elaborare i dati inseriti dall’utente.
I dati vengono raccolti in tabelle.
Tabella: insieme di celle disposte secondo righe (identificate da numeri) e colonne (identificate da lettere). Costituisce un foglio di lavoro.
Cartella di lavoro: insieme di fogli di lavoro.
In un’ottica statistica, un foglio di lavoro può essere inteso come la naturale rappresentazione di una matrice di dati.
In questo senso, considerata una generica tabella:
Chiarito ciò, una tipica tabella excel (o foglio di lavoro) che contiene dati statistici si configura come una matrice dei dati “individui x variabili”.
I dati da analizzare possono avere diverse fonti:
Excel implementa numerosissimi strumenti per la descrizione statistica dei dati sia in via analitica che grafica.
Queste routine possono essere così sintetizzate in:
Le routine statistiche sono raggruppate in alcune macro disponibili nel menu:
“Dati” → “Componenti Aggiuntivi” → “Strumenti di Analisi”
Importazione dati da file testo delimitati
I file testo delimitato contengono tabelle di dati in cui ogni valore è delimitato dagli altri attraverso dei simboli convenzionali: “spazio”, “,”, “;”, ecc.
Il formato è CSV (Comma Separated Values) oppure TXT.
Occorre selezionare il menù APRI e come tipo di file FILE DI TESTO.
I dati appariranno non separati in colonne, quindi occorre:
selezionare il menù DATI
la voce TESTO IN COLONNE
indicare che i dati sono delimitati, in colonna, da un simbolo
selezionare il tipo di delimitazione
verificare nell’anteprima la correttezza dell’importazione
selezionare “fine” per terminare l’importazione
Importazione dati da un database Access
Selezionare i dati di interesse
Selezionare dal menu “DATI ESTERNI” l’icona esporta in Excel
Salvare il file Excel nella posizione desiderata
Dati percentualizzati per riga
Dati percentualizzati per colonna
Dati centrati
Dati standardizzati
Dati ridotti
I fatti → le osservazioni empiricamente verificabili, ovvero le informazioni in qualche modo reperibili nel sistema informativo aziendale, nelle banche dati esistenti, nel corso di una indagine empirica etc.
La teoria → insieme sistematico e compiuto di analisi delle “relazioni tra i fatti”.
I concetti → la “forma” (gli strumenti) di cui si serve la scienza per svolgere osservazioni e collegamenti sui fenomeni empiricamente verificati.
Le ipotesi di lavoro e la documentazione preliminare.
L’aumento esponenziale del volume dei dati operazionali in azienda ha reso il computer l’unico supporto adatto al processo decisionale.
I sistemi tecnologici di supporto alle decisioni in azienda acquisiscono informazione da un vero e proprio “magazzino dei dati”, detto data warehouse.
Dato: unità elementare (notizia)
Informazione: insieme di dati in grado di cambiare la nostra percezione di qualcosa
Conoscenza: trasformazione di informazione in valore
L’informazione è un bene, o merce, a valore crescente, richiesto dalla direzione (ma non solo) per pianificare e controllare le attività aziendali con efficacia.
L’informazione è la materia prima che viene trasformata dai sistemi informativi come i semilavorati vengono trasformati dai sistemi di produzione.
L’informazione è una risorsa aziendale alla stessa stregua del capitale, delle materie prime, degli impianti e delle persone, e come queste ha un costo.
È quindi importante capire il valore dell’informazione.
Il principio fondamentale enunciato da Michael E. Porter della Harvard Business School:
« dare l’informazione giusta alla persona giusta, nel momento giusto per prendere la giusta decisione »
Usuali affermazioni
Abbiamo montagne di dati ma non possiamo accedervi!
Come è possibile che persone che svolgono lo stesso ruolo presentino risultati sostanzialmente diversi?
Vogliamo tagliare i dati a fette e a cubetti in ogni modo possibile!
Mostratemi solo ciò che è importante!
Tutti sanno che alcuni dati non sono corretti!
Accessibilità ai dati
La disponibilità di strumenti hardware e software sempre più accessibili e potenti ha permesso alle moderne organizzazioni di raccogliere e memorizzare quantità sempre maggiori di dati di dettaglio.
La capacità di analizzare e comprendere massicci quantitativi di informazione è molto in ritardo rispetto alle tecniche sviluppate nel corso degli anni per la raccolta e la registrazione delle stesse.
I database si possono dunque definire come una grossa risorsa potenziale “dormiente” che, solo se utilizzata correttamente, può fornire benefici sostanziali.
Un gruppo di ricercatori e professionisti interessati al problema dell’automazione dell’analisi dei dati si è fatto carico di questi problemi generando un settore di ricerca chiamato Knowledge Discovery in Databases (KDD) il cui primo congresso si tenne nel 1989.
Il Data Mining è un processo di estrazione di “pattern” da banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni “nascoste” tra le informazioni e le rendono visibili.
Un Data Warehouse (magazzino dei dati) è la base ideale su cui poggiare questi strumenti.
I sistemi di supporto alle decisioni (Decision Support Systems) sono sistemi progettati per aiutare le persone che contano, utilizzando modelli sofisticati e tecniche di database per risolvere problemi complessi di business (Keen 78).
Sono strumenti informatici (interattivi) che aiutano il manager a prendere decisioni, ricercando, sintetizzando e analizzando i dati necessari al processo decisionale.
Con il termine dati operazionali si intendono i dati memorizzati a seguito dei processi gestionali (es. gestione acquisti, gestioni vendite, fatturazione).
Per ogni azienda è fondamentale poter disporre in maniera rapida e completa delle informazioni necessarie al processo decisionale: le indicazioni utili sono estrapolate dalla mole dei dati operazionali contenuti nel sistema informativo.
La gestione dei dati strutturati in forma complessa deve soddisfare i seguenti obiettivi operativi:
Gestire versioni storiche dei dati.
Fare da piattaforma di un sistema di supporto alle decisioni con le seguenti caratteristiche:
Un sistema di data warehouse è un insieme di dati provenienti dai vari sottosistemi aziendali con le seguenti caratteristiche:
Orientato alle informazioni: nel data warehouse vengono ricostruite nella loro interezza le informazioni presenti in modo frammentario nei vari sottosistemi
Integrato: I dati vengono inseriti in un data warehouse proprio per eliminare le inconsistenze e incongruenze dei sistemi elementari
Non volatile: memorizza fotografie successive della realtà raccolte a cadenza prefissata
Time-Varying: l’orizzonte temporale dei dati “in linea” in un data warehouse è tipicamente molto superiore rispetto ai sistemi operazionali
Caratteristiche del data warehouse
E’ “rinfrescato” a intervalli regolari, è in crescita continua, è centralizzato logicamente e di facile accesso per gli utenti, sostanzialmente a sola lettura.
L’esistenza di un DW nell’azienda non comporta l’inserimento di nuovi dati bensì la riorganizzazione dei dati esistenti.
La costruzione di un DW implica l’esistenza di un sistema informativo.
La progettazione di un DW si basa su principi spesso in contrasto con quelli utilizzati per i convenzionali sistemi informativi.
Con il termine Data Mart si intende una sottoparte (replica) del data warehouse contenente l’insieme delle informazioni rilevanti per un particolare problema.
Il concetto di data mart riveste una importanza fondamentale nei progetti di data warehouse, in particolare:
1. Introduzione alla statistica per le decisioni di impresa
2. L'organizzazione dei dati statistici
3. L'analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L'uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l'analisi delle serie storiche
9. Modelli stocastici per l'analisi delle serie storiche
10. L'analisi delle preferenze: introduzione al Multidimensional Scaling
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15. Cluster Analysis
Zani, S., Cerioli, A., Analisi dei dati e data mining per le decisioni aziendali, Giuffrè Milano, ultima edizione.
Giudici, P., Data Mining, McGraw Hill, ultima edizione.
Per saperne di più:
Ralph Kimball, Joe Caserta. The Data Warehouse ETL Toolkit, John Wiley & Sons, Inc.
Saadia Asif (2009). "An Overview of Business Intelligence". Inforica Inc.,.